情報リテラシー論13画像認識と生成技術で革新’25長岡造形大学
💭 人間の強み
• 第六感は人間だけのもの
• 脳だけでなく体や内臓でも考えている
• 残り3つの感覚は右脳的・人間的強み
人間がルールを決めて学習させる
→ 限定的なパターン認識
とんかつ定食で説明!
→ 大量データから自動学習
🍴 とんかつ定食の例え
多層の階層(ニューラルネットワーク)を深くすることで、より高精度な認識が可能に。パラメーターを大量に与えて数値計算で学習!
親から直接学ぶより、人の会話を聞いて学ぶ
「学ぶ」は「真似ぶ」から!
手書き文字も認識
読めない漢字も検索
お絵かきをAIが
補正してくれる
AIで漫画キャラ
が描ける
背景を簡単に
消去
なぞるだけで
不要物を消去
LINE画像を
3秒で文字起こし
🔒 Google画像検索の問題
① 画像を複製している
② サムネイル作成時に加工している
③ 商用利用している
→ 多くの裁判が行われているがGoogleが勝訴
✅ 対策
• 画像検索時は著作権フィルターを活用
• 漫画の全ページスクショはNG
• 写り込みはOK、意図的な複製はNG
📜 人類は複製によって進化してきた
🧠 脳の複製 → 人工知能
🦾 体の複製 → ロボット
❤️ 内臓の複製 → 感情のAI化?
内臓移植で性格が変わる事例も… 内臓で考えている?
- AIは視覚と聴覚を獲得し、カンブリア紀のような進化の爆発期に
- ディープラーニングは多層構造で高精度な認識を実現
- Googleレンズや囲って検索など画像認識サービスが身近に
- 著作権とプライバシーの問題は常に意識が必要
- 人間の強みは第六感・内臓・右脳的思考にある
この講義では、AIが画像認識技術によって「眼」を手に入れ、カンブリア紀の生物進化のように急速に発展していることを解説。人間の五感のうち視覚・聴覚はAIが獲得したが、味覚・触覚・嗅覚はまだ実現できていない。ディープラーニングの仕組み、Googleレンズの活用、著作権問題、AI生成画像の透かし(SynthID)、NFTの可能性についても触れ、AIと人間の境界や共存について学生との質疑応答を交えながら考察している。
詳しくは15分の動画で解説しました。
https://www.youtube.com/watch?v=4mQzQ3KHP58
0:00 📚 導入・講義概要の紹介 1:08 🏫 大学の様子と雪の話 2:12 👁️ AIが目を手に入れた進化とディープラーニング 3:14 🔍 画像検索の歴史とGoogleレンズの登場 4:20 ✍️ 手書き文字認識と囲って検索機能 5:21 🎨 背景除去・自動タグ付けなどのAI画像編集技術 6:25 📷 AIカメラと顔認識・自動撮影機能 7:29 ⚠️ AI透かしとスクショの著作権問題 8:37 🔗 複製技術の進化とNFTの意義 9:44 💬 学生Q&A:AIの五感と人間の強み 10:53 🧠 内臓で考える?人間の思考とSNSデータ活用 11:54 🤖 ディープラーニングの仕組みとGoogleレンズ活用例 13:00 🔎 AI生成画像の透かし検出と自動認識の進化 14:04 👋 まとめと締めくくり
👁️ 画像認識 AIが画像の内容を理解し識別する技術のこと。人間が目で見て物を認識するように、AIもカメラやセンサーから取得した画像データを分析し、物体・文字・顔などを特定できる。Googleレンズやスマホの写真検索機能など、日常生活で広く活用されている。AIが「眼」を手に入れたことで、進化が加速したと言われている。
🧠 ディープラーニング 人間の脳の神経回路を模倣した多層構造のニューラルネットワークを用いた機械学習手法。従来の機械学習と異なり、大量のデータから自動的に特徴を抽出し学習する。講義では「とんかつ定食」の例えで説明され、パラメーターを増やすことで認識精度が向上する仕組みが解説されている。
🔗 ニューラルネットワーク 人間の脳の神経細胞(ニューロン)の仕組みを模倣したAIの計算モデル。入力層・中間層・出力層で構成され、データを処理して学習する。ディープラーニングとの違いは階層の深さで、ニューラルネットワークは階層が浅く、ディープラーニングは深い多層構造を持つ点が特徴である。
🔍 Googleレンズ スマホのカメラで撮影した画像から情報を検索できるGoogleのサービス。文字認識、物体識別、翻訳、植物・動物の特定など多彩な機能を持つ。2024年8月からはPCブラウザでも利用可能になった。言語化が難しいものを調べる際や、手書き文字の認識にも対応しており、学生からも活用されている。
⭕ 囲って検索 スマホ画面上の任意の部分を指で囲むだけで、その対象を検索できる機能。Androidで先行導入され、iPhoneでもGoogleアプリ経由で利用可能になった。従来のようにテキスト入力する必要がなく、視覚的に気になったものをすぐに調べられる直感的な検索方法として注目されている。
🖐️ 五感(AI) 人間が持つ視覚・聴覚・味覚・触覚・嗅覚の5つの感覚。現在のAIは視覚と聴覚をほぼ完璧に再現できるが、残りの3つ(味覚・触覚・嗅覚)はまだ実現できていない。この限界が人間とAIの違いであり、人間の強みとも言える。また人間には第六感や内臓で考える能力もあるとされる。
🏛️ カンブリア紀 約5億4千万年前、地球上の生物が爆発的に多様化した時代。その理由は生物が「眼」を獲得したからとされる。講義ではこの進化になぞらえ、AIも画像認識という「眼」を手に入れたことで急速な進化が始まったと説明している。視覚の獲得が進化の鍵という点で、生物とAIに共通点がある。
🔏 SynthID Googleが開発したAI生成画像に埋め込む電子透かし技術。人間の目には見えないが、AIは検出できる仕組みで、AI生成コンテンツを識別するために使われる。ただし他社のAIサービスでは認識できないという課題がある。AI生成物の真偽を判断する上で重要な技術として注目されている。
©️ 著作権(画像検索) Google画像検索は、画像の複製・加工・商用利用という3つの点で著作権違反の可能性が指摘されているが、裁判ではGoogleが勝訴している。スクリーンショットで画像を保存する行為も違法になる可能性がある。著作権で絞り込む検索機能の活用や、法改正の動向への注意が呼びかけられている。
🎨 NFT Non-Fungible Token(非代替性トークン)の略で、デジタルデータに唯一性を証明するブロックチェーン技術。複製が容易なインターネット時代において、オリジナル作品の所有権を明確にできる。講義では、もしインターネット誕生時からNFTがあれば、著作権問題も違う形になっていた可能性があると述べられている。
AIが「眼」を持ったら世界はどう変わる?〜カンブリア紀の進化ととんかつ定食で学ぶ、画像認識のすごい仕組み〜
導入:AIに「眼」ができた日
もし、AIに「眼」がなかったら、現代の私たちの生活はどうなっていたでしょうか?自動運転も、スマホの顔認証も、そして今話題の画像生成AIも存在しなかったかもしれません。AIが「眼」を持つ、つまり画像認識技術を獲得したことは、それほどまでに革命的な出来事でした。
この革命は、地球の生命史における一大イベント「カンブリア爆発」にたとえることができます。約5億4000万年前、生物が初めて「眼」を獲得したことで、生存戦略が劇的に変わり、爆発的な勢いで多様な種が誕生しました。それと同じように、AIも「眼」を手に入れたことで、その進化のスピードを一気に加速させたのです。この記事では、AIがどのように世界を「見て」いるのか、その驚くべき仕組みと未来への影響を、身近な例えで解き明かしていきます。
——————————————————————————–
カンブリア爆発という壮大なアナロジーは、AIの進化を理解するための鍵となります。では、具体的に生物の進化とAIの進化にはどのような共通点があるのでしょうか。
——————————————————————————–
1. AIにおける「カンブリア爆発」とは?
カンブリア紀の生物にとって、「眼」を持つことは生存そのものを左右するほどの大きな変化でした。具体的には、以下のような利点がありました。
• 食料の発見: 目で獲物や食べ物を見つけ、効率的に食料を得られるようになりました。闇雲に動き回る必要がなくなったのです。
• 危険の回避: 天敵をいち早く認識し、食べられる危険から逃げ延びることができるようになりました。生存確率が飛躍的に向上しました。
• 知性の発達: 見たものを記憶し、「あそこには美味しいものがある」「あれは危険だ」と考えることで知性が発達しました。キリンの首が高い場所の食べ物を見るために長くなったように、視覚情報は多様な進化のきっかけとなったのです。
AIの進化は、この生物の進化と驚くほど似た道を辿っています。画像認識技術という「眼」を手に入れる前、AIは与えられたデータを計算するだけの存在でした。しかし、「見る」能力を獲得したことで、AIは単なる計算機から、現実世界を認識し、自ら判断し、学習する存在へと劇的に進化したのです。生物が眼によって生存競争を勝ち抜いてきたように、AIもまた、眼によってその能力を爆発的に進化させ始めました。
——————————————————————————–
AIが生物と同じように「眼」で世界を認識し始めたことはわかりました。では、具体的にAIはどのようにして目の前にあるモノが「何か」を理解しているのでしょうか?
——————————————————————————–
2. AIはどのように「モノ」を見分けるのか?
私たち人間にとって、目の前にあるリンゴを「リンゴだ」と認識することは瞬時にできる簡単なことです。しかし、コンピューターにとってこれは非常に難しい課題です。
AIがリンゴを「リンゴ」だと認識するプロセスは、以下のステップで行われます。
1. 大量のデータ学習 AIに「これはリンゴです」とラベル付けされた、様々な色、形、大きさのリンゴの画像を何十万枚も読み込ませ、徹底的に学習させます。
2. 特徴の抽出 AIは学習データの中から、「リンゴらしさ」を構成する特徴(例:丸い形、赤い色、ヘタの存在、大きさの比率など)を自動で抽出し、データとして蓄積します。
3. 比較と判断 新しい画像が提示されると、その画像から抽出した特徴を、学習済みの膨大な「リンゴらしさ」のデータと照合します。そして、最も特徴が近いものを「リンゴ」だと判断するのです。
このプロセスは単純に見えるかもしれませんが、例えばトマトやパプリカのように、色や形がリンゴとよく似た物体との区別は簡単ではありません。AIは、お尻の部分のくぼみ具合や、ヘタの周りの形状といった、人間でも意識しないような細かい特徴の違いをデータから学び、高い精度で見分ける能力を身につけているのです。
——————————————————————————–
AIが大量のデータから特徴を学ぶ基本は理解できました。しかし、一つひとつ特徴を教えていては、あまりにも非効率です。AIの学習方法は、この課題をどのように乗り越え、進化したのでしょうか。
——————————————————————————–
3. AIの賢い学習法:「とんかつ定食」でわかるディープラーニングの秘密
従来のAIの学習方法(機械学習)には限界がありました。リンゴの例で言えば、「赤いリンゴ」「青いリンゴ」と、一つひとつ人間が「こういう特徴のものがリンゴだよ」と丁寧に教える必要がありました。これでは、赤と青の中間色のような未知のパターンのリンゴが現れたとき、AIはそれをリンゴだと認識できません。
この限界を打ち破ったのが「ディープラーニング」です。この革新的な仕組みを、私たちの食卓に馴染み深い「とんかつ定食」を例に解説します。
| 要素 | とんかつ定食の例え | ディープラーニングの仕組み |
| 材料 | 豚肉、小麦粉、キャベツ、米など | AIに与えられる膨大な「データ」 |
| 調理法(動詞) | 「切る」「揚げる」「盛る」など | AIに与える処理の指示(動詞) |
| レシピ(数字) | 「豚肉を100g」「180度で揚げる」など | AIが自ら発見する最適な数値の組み合わせ |
このテーブルが示すように、ディープラーニングの本質は、人間がAIに全てを教える必要がない点にあります。
人間がやることは、「材料(データ)」「調理法(動詞)」「レシピ(数字)」自力で見つけ出します。「豚肉を1mmで切って10度で揚げる」「10cmで切って300度で揚げる」…といった天文学的な数の組み合わせをすべて試し、正解に最も近いレシピを導き出すのです。このおかげで、AIの学習能力は飛躍的に向上し、複雑な画像認識も可能になりました。
——————————————————————————–
AIの驚異的な学習能力には目を見張るものがあります。しかし、それは万能なのでしょうか?AIにはまだできないこと、つまり人間が持つ独自の能力との違いはどこにあるのかを見ていきましょう。
——————————————————————————–
4. 人間ならではの強み:AIにはまだない「感覚」
人間の五感(視覚、聴覚、嗅覚、触覚、味覚)と、現在のAIが持つ能力を比較してみましょう。
AIは、カメラやマイクを通じて視覚と聴覚ではすでに人間を超える能力を発揮することがあります。例えば、赤外線カメラで暗闇を見通したり、超音波を聞き取ったりすることは、人間には不可能です。
一方で、現在のAIにはまだ**「嗅覚」「触覚」「味覚」**が備わっていません。これはAIと人間の決定的な違いであり、私たちの強みでもあります。
この違いがなぜ重要なのかを、「ハンバーグの食レポ」を例に考えてみましょう。AIが食レポを書こうとしても、以下のような表現は決してできません。
• 食欲をそそるチーズの香りを嗅ぐことができない。
• 肉汁が口の中でとろける食感を味わうことができない。
• ナイフを入れたときのふっくらとした柔らかさを感じることができない。
このように、残り3つの感覚を駆使した豊かな表現や、手先を使った繊細な創作活動は、AIにはまだ模倣が難しい、人間独自の領域です。AI時代において、私たち人間が持つべき価値とは何かを考える上で、この「感覚」は非常に重要なヒントを与えてくれます。
——————————————————————————–
AIの能力と人間の能力、その両方を理解した上で、私たちは未来とどう向き合っていくべきでしょうか。最後に、本記事の要点をまとめます。
——————————————————————————–
まとめ:AIの「眼」と共に未来を考える
この記事では、AIが「眼」を持つことの重要性を、生物の進化になぞらえて解説し、その裏側にあるディープラーニングという賢い仕組みを見てきました。その進化のスピードは、私たちの想像を絶するものです。
ある調査によると、人類が写真技術を発明してから最初の149年間で撮影した写真の枚数と、AIがここ1年半で生成した画像の枚数が、ほぼ同じだと言われています。これは、AIの進化がまさに「カンブリア爆発」と呼ぶにふさわしいスケールで起きていることを示す、衝撃的な事実です。
AIの進化は驚異的ですが、匂いや味、手触りといった人間にしか持ち得ない感覚も確かに存在します。AI技術を正しく理解し、いたずらに恐れるのではなく、その能力を最大限に活用すること。そして、AIには真似のできない人間ならではの感性や創造性をどう磨き、活かしていくか。それを考え、行動することが、これからの時代を豊かに生きるための鍵となるでしょう。














