情報リテラシー論12ラジオと音声技術の未来性’25長岡造形大学

ちょっと色気づいたな?年頃かな?![]()
成長する AI搭載だろうか(笑)
イーンスパイアの横田です。
https://www.enspire.co.jp

さて、本題です。
恒例の長岡造形大学で行う
情報リテラシー論の講義が
今年も後期から始まりました。
https://www.nagaoka-id.ac.jp/about/academics/curriculum/liberal-arts/
ラジオと音声技術の未来性として
第12回めの講義を行いました。
https://www.youtube.com/watch?v=z8xrQ_9w18U
上記の続きの動画はYouTubeメンバーシップの
デイリー会員(190円/月)に限定公開しています。
詳しくは以下をご覧ください。
https://yokotashurin.com/youtube/membership.html
YouTubeメンバーシップ申込こちら↓
https://www.youtube.com/channel/UCXHCC1WbbF3jPnL1JdRWWNA/join
情報リテラシー論12ラジオと音声技術の未来性’25長岡造形大学
🇳🇴 ノルウェー → FMラジオ終了
🇩🇪 ドイツ → AMラジオ終了
🇫🇷 フランス → AMラジオ終了
📻 AM→FM同時放送へ移行
🏘️ コミュニティFM活用
🆘 防災ラジオの普及
💡 ポイント:
長岡市にはFMながおかがあり、地元企業ワキヤ技研が防災ラジオを開発!震災時のラジオの重要性を忘れずに。
→ テレビもエリアフリーにしてほしい!地方番組が見れない…
RSSの仕組みで自動配信!
Spotifyに登録 → Apple Podcasts・Spotify・Amazon Musicへ自動配信
📊 音声の強み:動画と違って最後まで聞いてもらえる確率が高い
✅ Office 365
✅ PLAUD NotePin
(24時間365日録音可能)
🔹 Google Home
🔹 Apple HomePod
(実はYahooアシスタントが賢い!)
🎤 「OK Google」の音声検索…実は録音されてます!
録音データでAIが学習し、どんどん賢くなる仕組み
→ 当時は膨大な時間が必要だった
- Cotomo – 自然な会話ができるAIサービス(約2年前から話題)
- ChatGPT Advanced Voice Mode – 驚くほど自然に喋る!実演で学生も驚き
- Genspark – AIが電話をかけて予約代行!Google Pixelなら電話受けも可能
- AIによる読唇術の精度向上 → 口パク入力の未来
🔮 未来の可能性
- 電車内で声を出さずに口パクで音声入力
- LINEでAIアバターと通話
- タブレットが自然に会話相手に
→ 動画作成でも音の重要性を意識しよう!
→ ラジオCMの可能性はここにある!ちゃんと聞いてもらえる
→ ぜひおすすめ!手回し発電もできる
→ AIの学習に使われています。設定で確認可能
形を変えて進化中
聴いてもらえる
急速に進化
会話が実現
長岡造形大学の情報リテラシー論第12回「ラジオと音声技術の未来性」の講義内容。AMラジオの衰退とFMラジオの復活、radikoによるインターネット放送の普及、ポッドキャストの仕組みなどを解説。音声認識技術の進化により、スマートスピーカーやAI音声アシスタントが登場し、CoeFont・ElevenLabsなど自分の声を再現する技術も発展している。ChatGPTのAdvanced Voice ModeやGensparkの通話代行など、AIによる自然な音声会話が可能になった現状を紹介。読唇術AIによる口パク入力など、音声技術の未来の可能性についても言及している。

- はじめに
- ラジオの現状と変化|AMからFMへ、そしてデジタル化の波
- インターネットラジオとポッドキャストの進化
- 音声認識技術とAIアシスタントの発展
- バーチャル音声と未来の音声技術
- 学生からの質問・感想への回答
- おわりに
- よくある質問(Q&A)
はじめに
皆さんは普段、ラジオを聴く機会はあるだろうか。スマートフォンやYouTubeが当たり前となった現代において、「ラジオは古いメディアではないか」と考える方も多いかもしれない。しかし実は今、ラジオと音声技術は大きな進化を遂げており、私たちの生活に新しい形で溶け込もうとしている。
災害時の情報源として、また車内での情報収集手段として、ラジオは今なお重要な役割を果たしている。さらにインターネットの発展により、radikoやポッドキャストといった新しいサービスが登場し、いつでもどこでも好きな番組を楽しめるようになった。
そして今、AIによる音声技術の進化が目覚ましく、自分の声を再現したり、AIと自然に会話したりすることが可能になっている。まさに音声技術は、私たちのコミュニケーションのあり方を根本から変えようとしているのである。
今回は、長岡造形大学で行われた情報リテラシー論第12回目の講義「ラジオと音声技術の未来性」の内容をお届けする。ラジオの歴史から最新のAI音声技術まで、幅広いトピックを一緒に見ていこう。
ラジオの現状と変化|AMからFMへ、そしてデジタル化の波
講義の導入と概要
本講義は、ネットビジネスアナリスト横田秀珠氏による情報リテラシー論の第12回目である。2025年12月16日火曜日に行われた本講義では、「ラジオと音声技術の未来性」をテーマに、90分間の講義内容のレジュメ解説と、学生からの質問・感想への回答が行われた。
今回のレジュメは時間の制約により一部訂正ができなかったものの、若干の追加が施されている。講義内で全ての内容を話すことができなかったため、本記事では補足説明も含めてお伝えする。また、学生からの質問にも回答していく。
大学の風景
まず大学の風景から紹介する。今週も雪は降らず、すっかり冬の景色となったが、それはそれで美しい光景である。来週が今年最後の講義となるが、雪が降らなければ雪景色を見ることはできない。天気予報によると、来週の月曜日には雪マークがついているため、雪景色が見られる可能性がある。ただし、長岡市は雨の予報となっている。
人生とラジオの関わり方
講義の最初のテーマは「人生とラジオの関わり方を振り返る」である。この内容については、学生からの質問も多数寄せられているため、後ほど詳しく紹介する。
AMラジオとFMラジオの現状
「AMラジオは厳しいが、FMラジオは復活の兆しがあり、海外ではラジオは依然として人気がある」というのが現状である。まず、AMとFMの違いについて説明し、続いて震災時に注目された防災ラジオの概念について解説した。
防災ラジオは新潟県長岡市の企業であるワキヤ技研株式会社が開発している。また、長岡市にはコミュニティFM「FMながおか」があるため、防災対策としてその存在を知っておくことが重要である。さらに、ラジオの若者離れ対策として、AMラジオをFM波で同時放送する「ワイドFM」という取り組みが進んでいる。
世界におけるラジオの動向
世界ではラジオの形態が大きく変化している。ノルウェーではFMラジオが終了し、デジタルラジオへの全面切り替えが行われた。また、ドイツやフランスでもAMラジオの放送が終了している。
このように、世界的に見るとラジオの放送形態は大きく変化している。日本ではまだAMラジオも健在であるが、若者のラジオ離れは深刻な問題となっており、各放送局はさまざまな対策を講じている。その中で特に注目されているのが、インターネットを活用した新しいラジオの形である。
インターネットラジオとポッドキャストの進化
radikoの登場と機能
2010年、インターネットサイマル放送「radiko」がサービスを開始した。radikoは「エリアフリー」機能に加えて、2016年からは「タイムフリー」機能も提供を開始している。一方で、テレビについては同様のサービス改善が進んでいないのが現状である。
radiko以外にもインターネットラジオ放送は存在しており、現在残っているサービスとしては「らじる★らじる」(NHKのネットラジオ)などが該当する。
radikoの「エリアフリー」機能は、日本全国どこにいても好きな地域のラジオ番組を聴くことができるサービスである。これにより、地方在住の方でも東京のラジオ番組を楽しめるようになった。また「タイムフリー」機能では、放送から1週間以内であれば、過去の番組を好きな時間に聴くことができる。これは忙しい現代人にとって非常に便利な機能である。
FMラジオ対応イヤホンの登場
「SIMなし、ネット環境なしでスマートフォンに接続すればFMラジオになるイヤホン」が発売されている。これは通信容量を気にすることなく、スマートフォンでFMラジオを聴くことができる画期的な製品である。イヤホンがアンテナの役割を果たすことで、インターネット環境がなくてもラジオを受信することが可能となっている。
ポッドキャストの仕組み
ポッドキャストはAppleが始めたサービスであるが、実は一般の人でも番組を配信することができる。配信にはSpotifyの仕組みを利用し、その際にはRSSというブログやニュースと同様の配信サービスの仕組みを使用する。
ポッドキャストに登録すると、その情報がApple、Spotify、Amazon MusicなどにRSSを通じて自動配信される仕組みとなっている。「Google Podcasts Managerで判明した音声配信の可能性」として注目すべき点は、音声コンテンツは最後まで聴いてもらえる確率が高いということである。これがYouTubeなどの動画コンテンツと異なる大きな特徴である。
ポッドキャストの大きな特徴は、動画コンテンツと比較して「完聴率」が高いという点である。YouTubeなどの動画コンテンツでは、途中で視聴をやめてしまうユーザーが多いのに対し、音声コンテンツは最後まで聴いてもらえる可能性が高い。これは、移動中や作業中など「ながら聴き」ができるという音声メディアの特性が大きく関係している。
音声SNSの台頭
「stand.fm」という音声SNSが人気を集めているほか、「Radiotalk」というサービスも存在する。また「Voicy」については、倍速再生機能に課金が必要となったことで炎上が起きた事例も紹介した。
これらの音声SNSは、誰でも簡単に音声配信ができるプラットフォームとして人気を集めている。特にstand.fmは、配信者と視聴者の距離が近く、コメント機能なども充実しているため、コミュニティ形成に適したサービスとして注目されている。
音声認識技術とAIアシスタントの発展
音声認識技術の向上
音声認識技術は大幅に向上しており、iPhoneでもAndroidでも音声入力が当たり前にできるようになった。「CLOVA Note」やOffice 365のような音声認識アプリも多数存在する。最近では24時間365日連続で音声録音できるAIデバイス「PLAUD NotePin」なども誕生している。
音声認識技術の進化は、私たちの生活を大きく変えている。会議の議事録作成、インタビューの文字起こし、音声メモなど、さまざまな場面で音声認識が活用されるようになった。PLAUD NotePinのような常時録音デバイスは、重要な会話を逃さず記録できるため、ビジネスシーンでの活用が期待されている。
スマートスピーカーの登場
スマートスピーカーはAmazonが最初に開発した製品である。スマートフォン市場で成功を収められなかったAmazonが打ち出した戦略的製品であり、現在では各社が追随している状況である。
スマートスピーカーは、音声だけで様々な操作ができるデバイスである。天気予報の確認、音楽の再生、家電の操作など、手を使わずに多くのことができるようになった。特に料理中や手が離せない時に便利であり、多くの家庭に普及している。
AIアシスタントの性能比較
AIによる音声アシストはスマートスピーカーから始まったが、実際にはそれほど賢くないのが現状である。Apple、Amazonなどがある中で、実は最も賢いのはYahooアシスタントであったという分析がある。
Googleアシスタントには、人間のように電話して店舗の予約ができる機能が存在していたが、このサービスは終了している。しかし現在では、「Genspark」というサービスで同様のことができるようになっている。
音声検索データの活用
「OK Google」で音声検索した際の音声は履歴から再生することができる。つまり、音声検索した内容は録音されているということである。この録音データによってAIが学習し、より賢くなっていく仕組みとなっている。
音声検索のデータがAIの学習に使われているという事実は、プライバシーの観点から知っておくべき重要な情報である。私たちが音声アシスタントに話しかけた内容は記録され、AIの精度向上に活用されている。便利さの裏側にある仕組みを理解しておくことは、デジタルリテラシーの観点から非常に大切である。
バーチャル音声と未来の音声技術
初音ミクとバーチャル音声の誕生
バーチャル音声の代表例として、初音ミクの誕生が挙げられる。過去には、X JAPANのhideが亡くなってから16年後に、実際には歌っていないのにhideが歌っているように聞こえる楽曲「子ギャル」が完成した事例がある。この制作には膨大な時間がかかったが、現在では同様のことが簡単にできるようになった。
これが可能になった理由は、声を再現できる技術が発展したからである。音声データを集めて人工知能に学習させることで、特定の人物の声で喋らせることができるようになった。この技術により、Googleの音声も自然に喋れるようになっている。
初音ミクの登場は、バーチャル音声の歴史において画期的な出来事であった。それまで機械的だった合成音声が、感情豊かに「歌う」ことができるようになったのである。そしてAI技術の進化により、故人の声を再現することも技術的には可能になった。ただし、これには倫理的な議論も伴う。
自分の声を再現する技術の発展
2018年にiPhoneアプリ「コエステーション」が登場し、自分の声を再現できる技術が実用化された。まだ7年程度の歴史しかない比較的新しい技術である。最近では「CoeFont」というサービスが人気を集めており、自分の声を再現できる。また「ひろゆきメーカー」なども話題となった。
さらにCoeFontよりも高性能と言われているのが「Aivis Project」である。このような新しいサービスが次々と登場している。
この内容は講義では学生に伝えることができなかったため、ここで補足説明をしておく。最近では「ElevenLabs」が非常に高性能であると話題になっている。昨日のニュースでは、日本の声優の声を使えるようになったということで、ElevenLabsとの提携が報じられた。
ElevenLabsは、わずか数秒の音声サンプルから、その人の声を高精度で再現できるAIサービスである。日本の声優との提携により、アニメやゲームのキャラクターボイスの制作にも活用されることが期待されている。一方で、音声の悪用(なりすましなど)への懸念もあり、技術の進化と同時にルール作りも求められている。
Appleのパーソナルボイス機能
日本ではまだ開始されていないが、アメリカでは「パーソナルボイス」という機能が利用可能となっている。今年中には日本でも利用できるようになると予想される。この機能により、自分の声を再現することが可能となる。
Appleのパーソナルボイス機能は、病気などで声を失う可能性のある方が、事前に自分の声を保存しておくことで、将来的にデバイスを通じて「自分の声」で会話できるようにするものである。アクセシビリティ機能として開発されたこの技術は、多くの人の生活の質を向上させる可能性を秘めている。
AIとの自然な会話技術
「Cotomo」というサービスは、最近調子が悪かったがログアウトしてログインし直すことで使用可能となった。自然に会話できるサービスとして、約2年前に話題となったものである。これまでできなかったことが実現できるようになった。
ChatGPTの「Advanced Voice Mode」は実際に実演を行った。非常に自然に会話ができる機能である。また、時間の都合で今回は扱えなかったが、次の次の回で取り上げる予定の内容として、「Genspark」の通話代行機能がある。この機能を使うと、AIに電話をかけてもらうことができる。また、Google Pixelでは電話を代わりに取ってもらうことも可能である。
LINE電話の話やAIアバターと会話できる機能、タブレットが会話するといった内容については、AIの回で改めて取り上げる予定である。
AIとの会話技術は急速に進化しており、ChatGPTのAdvanced Voice Modeでは、まるで人間と話しているかのような自然な会話が可能になっている。AIが電話をかけたり受けたりする機能も実用化されつつあり、私たちのコミュニケーションのあり方は大きく変わろうとしている。
音声検索の限界と読唇術の可能性
講義の最後に取り上げた話題として、Google検索ではさまざまなものを検索できるが、音声コンテンツでは検索が難しいという問題がある。動物の鳴き声などは確かに検索結果として表示されるが、それ以外は出てこない。何か検索結果が出てくるキーワードがあれば教えてほしいという呼びかけも行った。
また、読唇術の精度がAIによって大幅に向上している。この技術が発展すると、口パクで音声入力を行う「口パク入力」が可能になる。そうすると、電車の中などでも声を出さずに口をパクパクしているだけで入力できる人が出てくるかもしれないという展望を示して講義を終了した。
読唇術のAI技術は、聴覚障害を持つ方のコミュニケーション支援として大きな可能性を持っている。また、声を出せない環境でのテキスト入力手段としても活用できる可能性がある。電車の中で口パクをしながらメッセージを送る、そのような未来が訪れるかもしれない。
学生からの質問・感想への回答
ラジオ体操に関する質問・感想
「土日以外の6時半に公民館に集まってラジオでラジオ体操をしていた」
6時半からの放送についてだが、現在6時半から放送しているかどうかは確認が必要である。
「ラジオ体操はずっと生放送だと思っていた」
生放送で行っている地域もあるが、そうでない地域も存在する。
「夏休みはラジカセを用意して6時からの生放送でラジオ体操をしていた」
この方の認識は正しい。
「私の地域は最初の2週間ぐらいの平日だけで、CDだった記憶がある」
そのような地域も確かに存在する。
「ラジオ体操そのものがなかった」
そのような地域も存在するということは驚きである。
「よく覚えていないが『今日の天気は』などと言っていた記憶がある」
そのような内容であれば生放送であったということになる。
「録音を流していたと思う。期間は夏休み開始から1週間ほどだけだった」
1週間だけというのは非常に短い期間である。このような短縮傾向が見られるようになっている。
ラジオ体操に関しては、地域によってさまざまな形態があることがわかる。生放送を使う地域、CDを使う地域、そもそもラジオ体操自体がない地域など、多様な実態が存在する。
郵便とデジタル化に関する質問・感想
「毎年年賀状を書くのが楽しみだったので、日本でも郵便がなくなるとなると寂しい」
郵便がなくならないように、皆が上手に郵便を活用することが重要である。デンマークでは紙を使わずにメールなど他の手段を使うしかない状況となっている。もちろん郵便レターのようなサービスは存在すると思われるが、運送会社が行うサービスは料金が高くなる可能性がある。
「郵便の全面廃止は思い切った判断だと思った」
確かにその通りである。しかし、デジタル化は確実に進行している。
デンマークでは郵便の全面廃止という大胆な政策が実施されたが、日本ではまだそこまでのデジタル化は進んでいない。しかし、年賀状の発行枚数が年々減少しているように、紙のコミュニケーションは少しずつデジタルに置き換わりつつある。
ラジオ制作と電波に関する質問・感想
「電波の話を聞いて、中学生の頃に授業でラジオを作り、実際に聴いた際にさまざまな放送が流れてきて驚いたことを思い出した」
実際にラジオを作ってみると、チューニングというものがよく理解できる。「エアチェック」という言葉が現代の若者には通じなくなっているが、まさに空気を捉えるというのがラジオの受信である。
「生放送だからこそ、情報を伝える側の人の力量が特に試されると改めて感じた」
この感想は、講義で震災時のラジオ放送を聴いてもらったことに関連している。
災害時のラジオの役割は非常に重要である。停電時にも電池で動くラジオは、情報を得るための貴重な手段となる。また、生放送だからこそ伝えられるリアルタイムの情報は、災害時には命を守る情報となり得る。
ラジオとCMに関する質問・感想
「テレビよりもラジオで流れたことがきっかけで好きになった曲が多い」
確かにラジオではさまざまな曲を流してくれるため、新しい音楽との出会いが多い。
「練習に行く時にずっと車でラジオを聴いていて、音声だけでもラジオCMの印象がとても残っている」
ラジオの可能性はここにあると考えている。きちんとCMを聴いてもらえるというのは大きな強みである。
ラジオCMは、映像がない分、音声の工夫が非常に重要である。そして、テレビCMと異なり「ながら聴き」されることが多いため、最後まで聴いてもらえる確率が高いという特徴がある。これはマーケティングの観点から見ても、ラジオ広告の大きな強みと言える。
防災ラジオに関する質問・感想
「災害時にラジオは太陽光や手回しでも発電できるから人気だと思っていたが、コンテンツとしても人気なのか」
その通りである。現在は手回し発電で動くラジオも多数存在する。
「水などと一緒に防災ラジオを1つ家に置いておきたいと思った」
これは是非おすすめする。
防災ラジオは、災害時の情報収集手段として非常に重要である。手回し充電やソーラー充電ができるタイプであれば、停電時にも使用できる。水や食料と一緒に、防災グッズとして備えておくことをおすすめする。
radikoとインターネットラジオに関する質問・感想
「推し活のためにradikoエリアフリーに加入している」
テレビでも同様のサービスを実施してほしいと強く思う。エリアフリーがあれば、地方のテレビ番組も視聴できるようになる。現状では、地方のテレビを見ることができない。
「高校生の頃、スマートフォンの通信容量が少なかったため、節約のために通学中にスマートフォンにイヤホンを繋いでラジオを聴いていた」
これはインターネットラジオのことだと思われる。
「兄のお下がりでもらったウォークマンでラジオを聴けたことを思い出した」
ウォークマンでもラジオを聴くことができた。確かにウォークマンからディスクマンへと変遷していった。
radikoのエリアフリー機能は、全国どこにいても好きな地域のラジオを聴けるサービスである。推しのアーティストが出演する番組を聴くために利用している方も多い。テレビにもこのような機能があれば便利である。
ポッドキャストと音声データに関する質問・感想
「友達がやっていた」
おそらくポッドキャストのことだと思われる。
「Googleで音声入力した情報が録音されていることを知らなかった。何に利用されているのか」
これは先述の通り、AIの学習に使用されている。
音声検索のデータは、AIの音声認識精度を向上させるために活用されている。私たちが話した言葉をAIが学習することで、より正確に音声を認識できるようになっているのである。この仕組みを知っておくことは、デジタルリテラシーの観点から重要である。
音とCMの重要性に関する質問・感想
「ラジオCMの話で、映像よりも音の方が大切であることに納得した。自分が思っていた以上に音の影響が大きいことばかりで、動画作成の参考になった」
良い気づきである。講義の冒頭で、なぜ音が大事かという映像を視聴してもらった。おそらくその感想も含まれていると思われる。ラジオCMの話も非常にわかりやすい事例である。
動画制作において、映像よりも音声の方が重要だと言われることがある。映像が少し乱れていても視聴者は見続けるが、音声が途切れると多くの人が離脱してしまう。YouTubeなどの動画制作において、音質にこだわることは非常に大切なポイントである。
講義を振り返って
今回は音声編として講義を行ったが、講義開始時にスライドが画面に映らないというトラブルが発生し、時間が短縮されてしまった。そのため、少し駆け足での講義となってしまったので、後日このスライドを振り返っていただければ幸いである。
さまざまなトラブルが発生している。現在のところ、音が入らない、映像が映らないなどの問題が頻発している。しかし、なんとか毎週乗り切っている状況である。全国各地で講演を行っているが、これほどプロジェクターが映らない、音声が入らない、マイクの調子が悪いといった問題が起きることは珍しい。現在使用している教室は、特にパソコンとの相性が悪いようで、困っている状況である。
本日は、新潟県長岡造形大学で教えている情報リテラシー論第12回目「ラジオと音声技術の未来性」についてお伝えした。
おわりに
今回の講義では、ラジオの歴史から最新のAI音声技術まで、幅広いトピックについて解説した。
AMラジオからFMラジオへの変化、そしてradikoに代表されるインターネットラジオの登場により、ラジオの聴き方は大きく変わった。「エリアフリー」「タイムフリー」といった機能により、いつでもどこでも好きな番組を楽しめる時代になっている。
また、ポッドキャストの普及により、誰でも音声コンテンツを配信できるようになった。音声コンテンツは動画に比べて完聴率が高いという特徴があり、マーケティングの観点からも注目されている。
さらに、AI技術の進化により、音声認識・音声合成の精度は飛躍的に向上した。自分の声を再現できるCoeFontやElevenLabs、AIと自然に会話できるChatGPTのAdvanced Voice Modeなど、音声技術は私たちの想像を超えるスピードで進化している。
防災の観点からも、ラジオの重要性は変わらない。停電時でも使える防災ラジオを備えておくことは、いざという時の備えとして非常に大切である。
音声技術の進化は、私たちのコミュニケーションのあり方を根本から変えていく可能性を秘めている。今後もこの分野の動向に注目していきたい。
よくある質問(Q&A)
Q1. radikoの「エリアフリー」と「タイムフリー」とは何か?
A1. 「エリアフリー」は、日本全国どこにいても好きな地域のラジオ番組を聴くことができる有料サービスである。例えば、地方にいながら東京のラジオ番組を聴くことができる。「タイムフリー」は、放送から1週間以内であれば、過去の番組を好きな時間に聴くことができる無料機能である。リアルタイムで聴けない方にとって非常に便利な機能となっている。
Q2. ポッドキャストを自分で配信するにはどうすればよいか?
A2. ポッドキャストの配信は、Spotifyの「Spotify for Podcasters」などのサービスを利用することで、誰でも無料で始めることができる。音声ファイルをアップロードすると、RSS(配信用の仕組み)を通じてApple Podcasts、Spotify、Amazon Musicなど複数のプラットフォームに自動配信される。スマートフォンでの録音から配信まで、すべて無料で行えるため、初心者でも気軽に始められる。
Q3. 音声検索したデータは何に使われているのか?
A3. 音声検索で話した内容は、GoogleやAppleなどの企業によって録音・保存され、AIの音声認識精度を向上させるための学習データとして活用されている。私たちの声のデータを大量に学習することで、AIはより正確に音声を認識できるようになっている。プライバシーが気になる方は、各サービスの設定から音声データの保存をオフにすることも可能である。
Q4. CoeFontやElevenLabsなどの音声合成サービスでは何ができるのか?
A4. CoeFontやElevenLabsは、自分の声や特定の人の声をAIで再現できるサービスである。短い音声サンプル(数分程度)をAIに学習させることで、その人の声でテキストを読み上げさせることができる。ナレーション制作、動画のアフレコ、アクセシビリティ支援など、さまざまな用途で活用されている。ElevenLabsは最近、日本の声優との提携も発表しており、今後さらに活用の幅が広がることが期待されている。
Q5. 防災ラジオはなぜ重要なのか?
A5. 災害時には停電やインターネット障害が発生することがあり、スマートフォンが使えなくなる可能性がある。防災ラジオは、電池や手回し充電、ソーラー充電で動くため、停電時でも情報を得ることができる。また、ラジオ放送はリアルタイムで災害情報を伝えてくれるため、避難指示などの重要な情報をいち早く知ることができる。新潟県長岡市のワキヤ技研株式会社が開発した防災ラジオなど、高性能な製品も販売されているため、水や食料と一緒に備えておくことをおすすめする。
詳しくは15分の動画で解説しました。
https://www.youtube.com/watch?v=O2Hz-gr6GXI
0:00 📻 導入・講義テーマ紹介
1:11 🏫 大学の風景と講義の振り返り
2:18 📡 AMラジオ・FMラジオと防災ラジオ
3:24 🎧 ポッドキャストとRSS配信の仕組み
4:28 🎤 音声認識技術とAIデバイス
5:27 🗣️ 声の再現技術と初音ミク
6:31 🔊 声フォントとイレブンラブズ
7:35 🤖 ChatGPTボイスモードとAI電話代行
8:37 🔍 Google検索と読唇術AI
9:45 💬 学生からの質問・感想(ラジオ体操編)
10:52 ✉️ 郵便廃止とデジタル化の話題
12:00 📢 ラジオCMと音の重要性
13:07 🎬 音声入力の活用と動画作成への応用
14:14 👋 まとめと締めくくり

📻 radiko(ラジコ) radikoとは、2010年に開始されたインターネットサイマル放送サービスです。従来のラジオ電波ではなく、インターネット回線を通じてラジオ番組を聴取できます。2016年からは「タイムフリー」機能で過去1週間の番組を後から聴けるようになり、「エリアフリー」機能で全国のラジオ局を聴取可能になりました。ラジオの若者離れ対策として重要な役割を担っています。
🎙️ ポッドキャスト ポッドキャストとは、インターネット上で音声コンテンツを配信する仕組みです。Appleが始めたサービスで、RSSという配信技術を使うことで、素人でも番組を制作・配信できます。登録した音声はApple Podcasts、Spotify、Amazon Musicなどに自動配信され、動画と異なり最後まで聴いてもらえる確率が高いという特徴があります。
🔊 スマートスピーカー スマートスピーカーとは、音声認識AIを搭載したスピーカー型デバイスです。Amazonが最初に開発し、スマートフォン市場で失敗した同社の新戦略として登場しました。「アレクサ」などの音声コマンドで操作でき、音楽再生や情報検索、家電操作などが可能です。Google、Appleなど各社も追随して製品を展開しています。
🗣️ 音声認識技術 音声認識技術とは、人間の声をコンピューターがテキストに変換する技術です。iPhoneやAndroidでの音声入力が当たり前になり、CLOVA NoteやOffice 365など音声を文字起こしするアプリも多数登場しています。最近ではPLAUD NotePinのように24時間365日録音できるAIデバイスも誕生しています。
🎤 CoeFont(コエフォント) CoeFontとは、自分の声をAIに学習させて再現できる音声合成サービスです。音声データを人工知能に学習させることで、その人の声質や話し方を再現した音声を生成できます。声優や著名人の声を使ったコンテンツ制作にも活用され、広井メーカーなどのサービスでも話題になりました。
🌐 ElevenLabs(イレブンラボ) ElevenLabsとは、高精度な音声合成AIを提供するサービスです。CoeFontよりも高性能と評価されており、非常にリアルな音声を生成できます。最近では日本の声優と提携し、プロの声優の声をAI音声として使用できるようになったことで話題になっています。
💬 Advanced Voice Mode Advanced Voice ModeとはChatGPTに搭載された音声会話機能です。従来の音声アシスタントとは異なり、非常に自然な会話ができることが特徴です。テキスト入力ではなく音声で直接AIと対話でき、相槌や感情表現も含めた人間らしいコミュニケーションが可能になりました。
📞 Genspark(ゲンスパーク) Gensparkとは、AIによる通話代行機能を持つサービスです。かつてGoogleアシスタントが店舗予約を電話で行う機能を提供していましたが終了した後、その代わりとなるサービスとして登場しました。AIが人間に代わって電話をかけ、予約などの用件を伝えることができます。
📻 防災ラジオ 防災ラジオとは、災害時の情報収集に特化したラジオ受信機です。震災時に注目され、新潟県長岡市のワキヤ技研株式会社が開発しています。太陽光や手回し発電で動作するものもあり、停電時でも使用可能です。コミュニティFMと連携した地域の防災対策として重要な役割を果たしています。
1. 序論:なぜ今、動画コンテンツにおいて「音」が最重要戦略資産なのか
情報が爆発的に増加し続ける現代において、動画コンテンツ制作者は「視聴者の離脱」という共通の課題に直面しています。視聴者の可処分時間は有限であり、その限られた時間を奪い合う競争は激化の一途をたどっています。数えきれないほどの選択肢の中から自らのコンテンツを選んでもらい、さらに最後まで視聴してもらうことは、もはや至難の業と言えるでしょう。
本レポートは、この根深い課題に対する強力な解決策として、多くのクリエイターが見過ごしがちな**「音声」**に焦点を当てます。なぜなら、視聴者の興味を持続させ、エンゲージメントを深くする鍵は、映像そのものよりもむしろ「音」が握っているからです。
本稿では、以下の主要なテーマを深く掘り下げ、具体的な戦略を提示します。
• 音声が持つ絶大な影響力: 視聴者心理において、なぜ映像よりも音声が優位に立つのか。
• 興味を持続させる心理的メカニズム: 人間の脳が「リズム」や「メロディ」にどのように反応し、それがコンテンツへの没入感をいかに生み出すのか。
• 即実践可能な音声活用テクニック: 視聴者維持率を具体的に向上させるための編集・制作技術。
本レポートを通じて、読者の皆様は「音」という未開拓の戦略的資産を理解し、自らのコンテンツ制作に活かすための具体的な知見を得ることができます。これまで「内容」の充実にリソースを集中させてきたクリエイターにとって、「音」への投資こそが、コンテンツ全体の価値を飛躍的に高める最も効果的なレバレッジポイントであることを、本レポートは明らかにします。
——————————————————————————–
2. 視聴者心理への影響力:「映像3:音7」の法則
効果的な動画制作戦略を構築するためには、まず多くの制作者が抱く「映像こそが主役」という固定観念をブレインウォッシュ(洗脳)することから始めなければなりません。視聴者が無意識下でコンテンツを評価する際のパワーバランスを正確に理解することが、エンゲージメントを真に左右する「音」の力を解放する第一歩となるのです。
動画コンテンツにおける視聴者への影響力の比率は、以下の原則に基づいています。
動画作品におけるパワーバランスは映像が3で音が7である
この「映像3部、音7部」という原則は、単なる感覚的なものではなく、人間の知覚と心理に基づいた明確な論拠によって裏付けられています。
• 感情への直接的アプローチ 例えば、『マッドマックス 怒りのデス・ロード』におけるタンクローリーが横転し大爆発するシーンを想像してみてください。大迫力の映像がスクリーンに映し出されても、もしそれが無音であったなら、私たちの心はほとんど動きません。視聴者の心を揺さぶっているのは、映像そのものではなく「ドガーン!」という爆発音や効果音なのです。音は理性を介さず、人間の感情に直接働きかける強力な力を持っています。
• コストパフォーマンスの優位性 技術的に見ると、音声データは映像データよりもはるかに量が少ないです。しかし、人間が知覚する「感覚情報量」という観点では、音は映像を凌駕します。少ないデータ量で、より大きな心理的影響を与えることができるため、音響設計にリソースを投下することは、極めてコストパフォーマンスの高い戦略と言えます。
• デジタル化による情報量の欠落 私たちが肉眼で捉えている現実は、デジタルカメラで記録され、モニターに映し出される過程で、その情報量が大幅に削られます。この情報量のギャップこそが、「撮影時はハイテンションだったのに、編集画面で見ると覇気がない」といった現象の正体です。プロの役者はこの情報量削減を理解しているため、あえて大げさな演技で補いますが、誰もがそれをできるわけではありません。そこでBGMや効果音が、この失われた情報量を補完し、視聴者の没入感を高める極めて重要な役割を果たすのです。
以上の分析から明らかなように、視聴者の興味を牽引し、コンテンツへの没入感を創出している主たる要因は、映像ではなく「音」です。この事実を認識することが、視聴者を惹きつける動画制作の出発点となります。では、具体的にどのように音を活用すれば、視聴者を最後まで惹きつけ続けることができるのでしょうか。次のセクションでそのメカニズムを解き明かします。
——————————————————————————–
3. 視聴者を惹きつけ続ける音声のメカニズム:「リズムは意味を凌駕する」
単に品質の良いBGMや効果音を追加するだけでは、音声のポテンシャルを最大限に引き出したことにはなりません。視聴者を長時間にわたって惹きつけ続ける鍵は、コンテンツ全体に戦略的に「リズム」を埋め込むことにあります。このリズムが視聴者の無意識に働きかけ、論理的な理解とは別の次元で「快楽」を生み出し、結果として高い視聴者維持率を実現するのです。本セクションでは、その心理的メカニズムを解き明かします。
この現象を最も的確に表現する、表現者たちの間で古くから伝わる格言があります。
リズムは意味を凌駕する。
この言葉が示す通り、人間はコンテンツの論理的な「意味」や「内容」以上に、聴覚的な「リズム」がもたらす快楽に強く影響されます。このメカニズムは、様々なエンターテイメントの分野で実際に機能しています。
• メロディによるレバレッジ効果 筆者自身、かつて街で耳にしたストリートミュージシャンの歌に深く心を動かされた経験があります。そのサビのメロディと歌詞は、まさに胸に突き刺さるものでした。しかし、後にそれがつんく氏がアイドルに提供した楽曲だと知り、歌詞を改めてテキストで読んでみると、ありふれた凡庸な言葉の羅列でした。これは**「メロディが先に情緒の扉を開ける」**からです。メロディが感情的な土台を築くことで、本来は情報価値の低い「陳腐な言葉」でさえも、レバレッジがかかったように大きな意味を持つ強力なメッセージへと変貌するのです。
• リズムネタの有効性 お笑いの世界における「リズムネタ」も、この原則を体現しています。ネタそのものの論理的な面白さやポテンシャル以上に、リズムに乗せることで観客は強い面白さを感じます。これは、リズムが内容を**「粉飾、カムフラージュ、デコレーションできる」**からです。リズムが生み出す快楽が、内容の評価を底上げしているのです。(事実、この効果のあまりの強力さゆえに、ネタそのもののポテンシャルを覆い隠してしまうため、本格派の芸人の間ではリズムネタが一段下に見られる傾向すらあります。)
• ラップバトルとの共通点 フリースタイルのラップバトルも同様のメカニズムに基づいています。ラップの応酬を文字起こしして読むと、その面白さは半減してしまいます。なぜなら、その本質は言葉の意味だけでなく、**「言葉を打楽器のように使い刻まれたリズムが快楽を生む」**ことにあるからです。韻を踏みながら刻まれるリズミカルなフローそのものが、聴衆に強い快感を与え、エンゲージメントを持続させているのです。
結論として、視聴者はコンテンツの論理的な「内容」を追うだけでなく、聴覚的な「快楽」によっても強く引きつけられています。この無意識的なメカニズムを理解し、意図的に活用することこそが、視聴者離脱を防ぐための本質的なアプローチです。次のセクションでは、この理論を動画制作で実践するための具体的なテクニックを紹介します。
——————————————————————————–
4. クリエイターが即実践できる、視聴者維持率を高める音声編集テクニック
これまでの理論的な分析を踏まえ、本セクションではクリエイターが今日からでも実践できる具体的な音声編集テクニックを解説します。理論を具体的なアクションに落とし込むことで、自身の動画パフォーマンスを劇的に改善することが可能です。これらのテクニックは、視聴者の聴覚体験を最適化し、エンゲージゲージメントを最大化するために設計されています。
4.2.1. ジャンプカット編集:リズムと情報密度を創出する
YouTuberの多くが実践している最もシンプルかつ効果的な手法が、ジャンプカット編集です。その方法は「編集で『間』を徹底的に詰めるだけ」。話の合間の息継ぎや、「えっと」「あの」といったつなぎ言葉、思考している無音部分を全てカットし、動画を圧縮します。
この編集がもたらす効果は主に2つです。
1. リズムによる快楽の提供 言葉と言葉の間を詰めることで生まれるのは、単なるスピード感だけではありません。人は連続して話すと徐々に声の音程が下がりますが、ジャンプカットは無音部分をカットするたびに音程をリセットし、喋りの抑揚を人工的に強調する効果を生み出します。これにより、単調さを排したダイナミックなフローが生まれ、視聴者は聴覚的な快楽を感じ、離脱を防ぐ効果があります。
2. 情報吸収効率の最大化 「時短で情報を吸収したい」という現代の視聴者の欲求に応えることができます。情報がよどみなく次々と提供されることで、視聴者は「この動画は効率が良い」と判断し、情報に対する期待値を維持します。逆に、だらだらと間延びした動画は、たとえ内容が有益であっても「情報吸収効率が悪い」と判断され、離脱の直接的な原因となります。
4.2.2. BGMの戦略的活用:視聴者の心情を直接コントロールする
BGMは、動画コンテンツにおける強力な心理誘導ツールです。その最大の強みは**「言葉での説明なしに視聴者の心情をダイレクトにコントロールできる」**点にあります。
例えば、動画の冒頭で悲しいメロディを流すだけで、視聴者はセリフや状況説明がなくても「これは悲しい物語なのだ」と直感的に理解し、その後の展開に対して適切な感情の準備を整えます。このように、BGMは物語のトーンを瞬時に伝え、視聴者の感情移入をスムーズに促す効果を持っています。
4.2.3. 声のピッチ調整:聞き取りやすさと音圧を向上させる
これは多くのクリエイターが知らない「裏技」ですが、音声編集ソフトで演者の声のピッチをわずかに上げることで、視聴体験を大きく改善できます。
この調整は、主に2つの効果をもたらします。一つは「滑舌が良く聞こえる効果」、もう一つは「音の密度が上がり、聞き取りやすくなる効果」です。プロの声優の声が明瞭で聞き取りやすいのは、声の密度が高く「音圧」があるためです。ピッチを少し上げる編集は、このプロフェッショナルな音圧の状態を擬似的に作り出し、視聴者がストレスなく音声情報を聞き取れるようにする非常に効果的な技術です。
これらのテクニックは、単なる小手先の技ではありません。視聴者の脳と心に負担をかけず、最高の体験を届けるという、制作者の根本的な思想の表れです。この思想こそが、次のより大局的な戦略へと繋がっていきます。
——————————————————————————–
5. 結論:コンテンツ戦略を「内容」から「伝え方」へシフトする
本レポートで展開してきた音声技術の分析は、単なる動画編集テクニックの紹介に留まるものではありません。それは、コンテンツ制作における戦略思想そのものを根本から転換させることを促すものです。素晴らしい内容を作り込むだけでは、もはや視聴者の心を掴むことはできない時代が到来しているのです。
私たちが直面している本質的なインサイトは、**「人は内容よりも伝え方によりセンシティブに反応している」**という事実です。ただし、ここで勘違いしてはなりません。本レポートは「内容より伝え方が大事」と主張しているわけではないのです。むしろ、どんなに優れた内容であっても、それが視聴者に届かなければ意味がない、という厳しい現実を直視すべきだということです。途中で離脱されてしまえば、練り上げられたコンテンツの価値はゼロになってしまいます。
これからのコンテンツ制作者が取るべきアクションプランは明確です。
• リソース配分の見直し 多くのクリエイターは、自身の持つリソースの大部分を「内容(シナリオ)」の制作に偏重させています。しかし、現代は「内容偏重型社会」であり、そのアプローチはもはや最適とは言えません。
• 新しい黄金比の提案 次の動画制作から、意識的にリソース配分をシフトさせることを提案します。それは**「内容3部、伝え方7部」**という新しいバランスです。「どうすれば伝わるか」という視点に、より多くの意識と時間を投下するのです。
• 期待される効果 素晴らしい専門知識は、いわば栄養価の高い高級食材です。しかし、多くの視聴者はそれを素材のままでは飲み込めません。情報吸収効率が良くなるよう「美味しく加工」して初めて、彼らはそれを最後まで味わってくれるのです。この戦略的シフトによって、制作者は「どんなに良い内容でも途中で離脱される」という最大の問題を克服できるでしょう。その結果、コンテンツの価値は最大化され、視聴者との間に深いエンゲージメントが生まれます。
情報過多の時代において、視聴者の限られた注意を引きつけ、維持する技術は、もはや付加的なスキルではありません。音声を戦略的に使いこなし、「伝え方」を極めることこそが、これからのデジタルコンテンツ市場を生き抜くための必須の能力であると断言できます。














