ChatGPT「音声で読み上げる」でText to Speech=TTS=音声合成

詳しくは15分の動画で解説しました。
https://www.youtube.com/watch?v=lWoxtzQYeuY
0:00 📱 導入とチャット音声読み上げ機能の紹介 0:25 🔊 各AIの読み上げボタンの場所(ChatGPT・Gemini・Claude・Grok) 1:35 💡 動画台本→スライド画像→音声合成でコンテンツ化の発想 2:15 🎬 実演準備:台本とスライド画像の組み合わせ 3:20 📲 ChatGPT読み上げ実演:Xの「動画にリアクション」機能解説 4:30 🎥 自分の姿を切り抜いて投稿に重ねる表示パターン 5:43 🔄 他SNSへの再利用と注意点・新機能の可能性 6:56 ✅ ChatGPT読み上げの感想とスライド連動のコツ 8:06 🤖 Gemini読み上げ実演と精度評価 9:23 🎙️ 声は変更できるか(ChatGPT・Geminiの制約) 9:30 👨 Claude読み上げ実演と話し言葉にするコツ 11:00 ⭐ Grok実演:6種類の声を切り替えられる優秀さ 11:53 🗣️ Grokの6種類の声を順番に試聴 13:50 🛠️ コンテンツ録音の注意点(OBS等の活用) 14:30 👋 まとめと締め
上記の続きの動画はYouTubeメンバーシップの
デイリー会員(190円/月)に限定公開しています。
詳しくは以下をご覧ください。
https://yokotashurin.com/youtube/membership.html
YouTubeメンバーシップ申込こちら↓
https://www.youtube.com/channel/UCXHCC1WbbF3jPnL1JdRWWNA/join
40名以上の参加ありがとうございます。
9月に続編ありますので、お楽しみに!
イーンスパイアの横田です。
https://www.enspire.co.jp/

山形県の酒田商工会議所でした。
さて、本題です。
ChatGPT・Gemini・Claude・Grokなどの対話型生成AIに搭載されたチャットの「音声読み上げ」機能を、TTS(音声合成)の無料の代用として使う方法を紹介。AIに話し言葉口調の台本と縦向きインフォグラフィック画像を生成させ、読み上げ音声と組み合わせれば動画コンテンツが作れる。ChatGPTとClaudeは比較的自然、Geminiはまだたどたどしく、Grokは唯一チャット画面から6種類の声を選べる点が優秀。録音にはOBSやスマホの画面収録を使うのがコツ。
https://www.youtube.com/watch?v=iU4152kCqgc
上記の続きの動画はYouTubeメンバーシップの
デイリー会員(190円/月)に限定公開しています。
詳しくは以下をご覧ください。
https://yokotashurin.com/youtube/membership.html
YouTubeメンバーシップ申込こちら↓
https://www.youtube.com/channel/UCXHCC1WbbF3jPnL1JdRWWNA/join
ChatGPT・Gemini・Claude・Grokに搭載された音声読み上げ機能を、TTS(Text to Speech)の代用として活用!
🤖 ChatGPT
★★★★☆
かなり自然に喋れる。「人間味(あじ)」と誤読する程度。声は変更不可(音声会話モードでは可)。
🔷 Gemini
★★☆☆☆
まだたどたどしくAIっぽい。最新TTSモデルは優秀だが搭載版は精度低め。声は変更不可。
🟧 Claude
★★★★☆
再生ボタンから起動。自然な男性の声。声は変更不可。
⬛ Grok
★★★★★
声を6種類から選べる唯一のAI!しかもチャット画面から直接切替できて便利。
普通の回答文ではなく「ちょっと待って」「これ知ってる?」など話し言葉のセリフで台本を生成すること。
- 完全無料 — 読み上げ機能だけでTTSを代用
- ワンストップ — 台本・画像・音声をAIだけで用意
- 自然な日本語 — 違和感の少ない合成音声
- 声を選べる — Grokなら6種類から最適な声を
- 多展開 — YouTube・リール・TikTokへ再利用可能
- はじめに
- 生成AIのチャットに搭載された「音声読み上げ機能」とは?
- 文字起こし台本+AI画像生成で動画コンテンツが作れる!
- ChatGPT・Gemini・Claude・Grok 4つのAIで読み上げを徹底比較
- コンテンツ化のコツと制作時の注意点
- おわりに
- よくある質問(Q&A)
はじめに
みなさん、こんにちは。ネットビジネスに関する情報を毎日生中継でお届けしています。今日もよろしくお願いします。
突然ですが、「動画コンテンツを作るのって、なんだか面倒だな」と感じたことはありませんか? 台本を考えて、声を録音して、スライドを用意して、それらを編集ソフトで組み合わせて……と、ひとつのコンテンツを完成させるまでには意外と多くの手間がかかります。だからこそ「やってみたいけど、なかなか手が出せない」という方も多いのではないでしょうか。
ところが実は、いま私たちが毎日のように使っている生成AIのチャットには、その手間を一気に省いてくれる「ある機能」がこっそり搭載されているんです。しかも、追加料金なしの完全無料で使えてしまいます。
今日は、その機能を使って動画コンテンツを作る、ちょっと面白い使い方をご紹介していきたいと思います。それでは早速、見ていきましょう。
生成AIのチャットに搭載された「音声読み上げ機能」とは?
今日ご紹介したいのは、生成AIのチャットに付いている「音声読み上げ機能」を使った面白い活用法です。これがText to Speech、いわゆるTTSによる音声合成の代用として、かなり有効なんじゃないか、というお話をしていきたいと思います。
一応これからChatGPTを使って説明していきますが、実はGoogleのGemini、そしてClaude、さらにGrokでも、同じように音声で読み上げをすることができるんですね。それぞれどこにこの機能があるのか、まずは見ていきましょう。
まずこちらがChatGPTの画面です。画面の左下にある3つの点を押してもらうと、「音声で読み上げる」という項目がありますよね。次にこちらがGoogleのGeminiですが、同じく3つの点を押してもらうと「読み上げる」というものがあります。そしてこちらがClaudeですが、Claudeの場合はここに三角の再生ボタンがありまして、これを押していくと、はい、再生できます。「再生」というボタンですね。これがいわゆる読み上げ機能です。そして最後にGrokですが、こちらも同様に3つの点を押していくと「音声読み上げ」という項目があるわけなんです。
今日はこの4つのAIについて、どのぐらい読み上げの精度が高いのか、そして日本語でどのぐらい自然に喋ってくれるのか、といったことを実際に検証していきたいなと思っています。
文字起こし台本+AI画像生成で動画コンテンツが作れる!
今回ね、僕がびっくりしたことがあるんです。僕が喋っているこの15分の動画の内容をそのままChatGPTに入れまして、こんなふうに指示してみたんですね。「この内容をショート動画で3分で解説したいので、その台本を作って」と。すると、ちゃんと台本を作ってくれるわけですよ。これ、いいですよね。
さらに、その台本を「バズりやすいような構成に変えて」とお願いすると、これもしっかり作ってくれます。これもいいですよね。そして続けて、こんな感じでお願いしてみます。「この台本通りでスライドを通して解説したいので、10枚で構成する。縦向き、16対9のインフォグラフィックを作って」と。そうすると、こうやって画像を生成してくれるじゃないですか。1枚目、2枚目、というふうに作ってくれますよね。
ということは、その内容で、あとは喋らせればいいわけです。つまり、AIが作った台本と、AIが生成したスライド画像、そしてAIの読み上げ音声、この3つを合成すれば、ひとつの動画コンテンツができてしまうんじゃないか、ということに気づいたんですね。
そして、ここがポイントなんですが、この音声合成が日本語で自然に読み上げられるからこそ、これが成り立つんです。しかもこの読み上げ機能を使えば、すべて無料なわけですよ。これはぜひやってみたいということで、今から実際に例をお見せしたいと思います。
それでは早速、ちょっと面白いやり方でいってみたいと思います。どうするかというと、こんな感じです。いま僕の手元には台本があるんですけど、これとさっき画像生成したものを組み合わせてやってみたいと思うんですね。実際に今からこれを読み上げていきますので、ここを見ていきましょう。今日はここに僕のスマホの画面を出して説明していきたいと思いますので、こんな感じでやっていきましょう。それではこれで、今からコンテンツを作っていきたいと思います。読み上げが自然に喋れるかどうかも、あわせて皆さんチェックしてもらえると嬉しいなと思います。ちょっと声を大きくしておいた方がいいかもしれないですね。大丈夫かな。では、いってみたいと思います。
ここからが、実際にAIが読み上げる台本の内容です。
「Xに、ショート動画を作る人にとって、かなり便利な新機能ができたの知ってる? その名も『動画にリアクション』。これ、Xのポストに対して、自分の顔出し動画を重ねてコメントできる機能です。しかも、ただのリアクション機能じゃありません。使い方によっては、Xだけでショート動画の素材が作れてしまいます。
やり方は簡単です。XのiOSアプリで、ポストのリポストボタンを押します。すると、『動画にリアクション』が表示される場合があります。そこを押すと、カメラが起動します。すると、自分の姿が自動で切り抜かれて、ポストの上に重なります。これが、思った以上にきれいです。背景が消えて、自分だけがポストの前に出るので、ニュース解説動画やレビュー動画みたいに見せられます。
表示パターンも選べます。自分を大きく出すモード。投稿の上に自分を小さく重ねるモード。上に投稿、下に自分を出すモード。さらに、自分の位置を動かしたり、サイズを変えたり、斜めに傾けたりすることもできます。つまり、Xの投稿を見せながら、自分の声と表情で解説できるんです。
これ、何に使えると思いますか? たとえば、自分の商品紹介。ニュース解説。音楽レビュー。イベント告知。ブログ記事の紹介。セミナーのポイント解説。お客様の声へのコメント。全部、ポストを見せながら動画で話せます。
しかも、録画時間はおそらく最大140秒。つまり2分20秒。ショート動画としては十分です。
そして、ここが重要です。投稿した動画は、ダウンロードできます。つまり、Xで作った動画を保存して、YouTubeショート、Instagramリール、TikTok、ストーリーズに再利用できる可能性があるんです。これ、かなり大きいです。
今までショート動画を作るには、素材を用意して、画面録画して、編集アプリで重ねて、字幕を入れてと、けっこう手間がかかりました。でもこの機能を使えば、まずXに投稿する。その投稿に自分でリアクションする。動画として投稿する。必要ならダウンロードして、他のSNSにも展開する。この流れが作れます。
ただし、注意点もあります。現時点ではiOS版から始まっていて、まだ全員が使えるわけではありません。無料・有料の違いというより、アカウントによって表示される場合と、まだ表示されない場合があります。なので、まずは自分のXアプリで確認してみてください。リポストボタンを押して、『動画にリアクション』が出ていたら使えます。
個人的には、この機能はかなり可能性があると思っています。なぜなら、これからのSNSでは、ただ投稿を拡散するだけでは弱いからです。そこに、自分の顔、自分の声、自分の考えを乗せることで、情報に人間味が出ます。ただの引用ポストより、圧倒的に伝わりやすい。ただのテキストより、記憶に残りやすい。そして、ショート動画として再利用しやすい。これは、SNS発信をしている人、特にビジネスでXを使っている人は、試す価値があります。
Xの新機能『動画にリアクション』は、ポストに自分の動画コメントを重ねられる新機能です。ただのリアクションではなく、ショート動画制作ツールとして使える可能性があります。まだ使える人と使えない人がいますが、表示されていたら、ぜひ一度試してみてください。あなたのポストが、そのまま動画コンテンツに変わるかもしれません。」
はい、ということですね。見ていただきましたが、いかがだったでしょうか。結構ね、1個だけ「人間味(にんげんみ)」を「人間味(にんげんあじ)」みたいに読んでましたけど、まあでもそれ以外はちゃんとできていたんじゃないかなと思うんですね。ちょっと僕のスライドをめくるタイミングがセリフと合っていなかったんですけど、これはちゃんと練習しなきゃいけないところですね。そこさえうまくいけば、このスライドに音声を被せて喋らせるというコンテンツは作れるんじゃないかなと思うんですよ。なかなか自然に喋っていましたよね。
ChatGPT・Gemini・Claude・Grok 4つのAIで読み上げを徹底比較
それでは今度は、これをGeminiの方でいってみたいと思うんですが、Geminiはちょっと声だけになりますね。どのぐらい自然に喋れているか、ちょっと見ていきたいと思います。Geminiの声を少し流してみたいと思います。読み上げる、ですね。
「Xで超やばい神機能が実装されました。これ、ただリポストするだけじゃもったいない。実は最強の無料動画作成ツールになるんです。今日もネットビジネスの最新情報をお届けします。今回紹介するのはiOS版Xでひっそり始まった『動画にリアクション』機能。使い方は簡単。リポストボタンを押すだけ。あ、ちなみにX公式さん…」
はい、どうですかね。ちょっと「Xで超やばい神機能」、ちょっとAIっぽくないですか? AIっぽいし、まだ喋り方が結構たどたどしいですね。これはあの、GoogleのGeminiの本当のTTS、最新モデルを使ってもらえば自然に喋れるんですけど、Geminiに搭載されているこの機能の中では、まだそのレベルがちょっと低いので、これは使えないかなと。まあ、この声がいいんならこれでいいと思いますけどね。
ちなみに、Geminiの場合は声を変えられないんですよ。この声になっちゃいますし、ChatGPTも多分この声しか変えられないと思うんですよね。もしかしたら、いわゆる音声会話モードの方でなら変えられるかもしれません。ChatGPTは変えられるけど、多分Geminiは変えられないと思います。
じゃあ今度は、Claudeの方にいってみたいと思います。Claudeはここにありますように、読み上げ、と書いてある再生ボタンを押してから始まりますので、やってみたいと思います。
「ちょっと待って、これ知らないと損するレベルの新機能、Xに来ました。自撮り動画をワンタップで作れちゃうんです。動画コンテンツ作るの正直めんどくさくないですか? 撮って編集して字幕入れて。でもこの機能はそれ全部すっ飛ばせます。しかも完全無料。これ、X公式が6月2日に出したばかりの新機能なんです。やり方はめちゃくちゃ簡単。どんな…」
はい、どうでしょうかね。これもまあまあ自然に喋っている男性の声じゃないかなと思うんですけど。でね、コツがあるんです。それは、喋っている口調の文章に変えること。普通の読み上げ機能って、自分が何かAIに質問して、出てきた答えをそのまま読み上げると、真面目な普通の文章になってますよね。で、これを読み上げたところで面白くないんですよ。だから、ちゃんと話し言葉で、しかも今みたいに「ちょっと待って」とか「これ」とかみたいなセリフが入っているものを生成しないと、人間っぽく自然に喋っている感じにならないので、ここだけは注意が必要なんです。
じゃあ最後に、Grokにいってみたいと思います。Grokはね、めっちゃ優秀なんですよ。何が優秀かというと、ここの音声読み上げに進んでもらうと、はい、実は声を変えられるんです。ここに声が1、2、3、4、5、6個ありますので、ここで声を変えられる。これができるのはGrokだけなんですね。ChatGPTの場合は設定の方の音声会話モードで変えることができますけど、GeminiとClaudeはできないと思います。でもGrokは変えられる。しかも個々のチャット画面から変えられるのが便利なんですよね。つまり、設定とかじゃなくて、読み上げ機能のところでそのまま変えられるというのが便利です。
じゃあちょっと、声がいっぱいあるので、順番に見てみたいと思います。1つ目からいきますね。ここはこの子です。
「Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場。これ、動画クリエイターにもネットビジネスやってる人にもマジで神機能です。今日はiOS版で実装された『動画でリアクション』を全力で紹介します。6月2日からiOSアプリでは…」
はい、これが1つ目ですね。じゃあ今度は2つ目にいってみたいと思います。こちらです。
「みんな、Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場。これ、動画クリエイターにもネットビジネスやってる人にもマジで神機能です。今日はiOS版で実装された『動画でリアクション』を全力で紹介します。6月2日からiOS…」
はい、この声もなかなかいいですね。じゃあ今度は3つ目にいきますね。3つ目の声です。
「みんな、Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場…」
はい、こんな感じです。じゃあ今度は4つ目にいきたいと思います。
「みんな、Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場…」
はい、こんな感じですね。じゃあ今度は5番目にいってみたいと思います。こちらです。
「みんな、Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場…」
はい、こんな感じですね。じゃあ最後、6番目にいってみましょう。
「みんな、Xがまたやばいこと始めました。ポストに対して自撮り動画で即リアクション&拡散できる新機能が登場。これ、動画クリエイターにもネットフリ…」
はい、こういった感じになりますね。
コンテンツ化のコツと制作時の注意点
ということで、今日はこの音声読み上げ機能を使っていくと、コンテンツが作れるというお話をしてきました。ただし、作る時の注意点があります。
僕は今OBSというもので、この動画を撮っているんですけど、このように動画とか音声とか画像とかを組み合わせることができるツールを使わないと、そもそも読み上げ機能をどうやって録音するんだ、という話になりますよね。これがひとつのポイントです。
まあこれ、スマホでやるなら、スマホの画面収録という機能を使っていけば、声もうまく取って、そしてスライドを出していくこともできるかもしれません。スライドを出した状態で、今度は音声の読み上げをバックグラウンド再生にすれば、合成してコンテンツが作れます。
なので、そう考えていくと、PCではOBSなどを使っていくとコンテンツが作りやすくなるんじゃないかなと思います。ぜひ皆さんも試してみましょう。
おわりに
今回は、ChatGPTをはじめとする対話型生成AIに搭載されている「チャットの音声読み上げ機能」を使って、TTS(音声読み上げ機能)で動画コンテンツを作る方法についてお伝えしてきました。
ポイントを振り返ってみましょう。まず、AIに15分の動画内容を入れて「ショート動画用の台本を作って」と指示すれば台本ができ、「バズりやすい構成に」「スライド10枚分のインフォグラフィックを」とお願いすれば、画像まで生成してくれます。あとはその台本を読み上げ機能で喋らせ、スライドと合成すれば、無料で動画コンテンツが完成するというわけです。
4つのAIを比較すると、ChatGPTとClaudeはかなり自然に読み上げてくれました。Geminiは現状まだ少したどたどしく、Grokは唯一チャット画面から6種類の声を選べるのが大きな強みでした。そして自然に聞かせるコツは、真面目な文章ではなく、話し言葉の台本にすること。制作の際はOBSやスマホの画面収録を活用するのがおすすめです。
AIコンテンツが本当に簡単にできますので、ぜひ皆さんも試してみてくださいね。
よくある質問(Q&A)
Q1. 音声読み上げ機能は無料で使えますか?
A. はい、ChatGPT、Gemini、Claude、Grokのチャットに搭載されている読み上げ機能は、基本的に無料で使うことができます。本来TTS(音声合成)は専用ツールを使うことが多いですが、その代用として、これらのチャット機能を無料で活用できる点が大きなメリットです。
Q2. 4つのAIの中で、読み上げが一番自然なのはどれですか?
A. 動画で検証したところ、ChatGPTとClaudeがかなり自然に喋っていました。Geminiは現時点ではまだ少したどたどしく、AIっぽさが残る印象でした。なお、本来のGeminiの最新TTSモデル自体はもっと自然に喋れますが、チャットに搭載されている読み上げ機能では、まだそのレベルに達していないようです。
Q3. 読み上げの声(ボイス)は変更できますか?
A. チャット画面からそのまま声を変えられるのはGrokだけで、6種類の声から選べます。ChatGPTは設定の音声会話モードからなら変更できますが、GeminiとClaudeは基本的に声を変えられないと考えてよいでしょう。
Q4. 自然に喋らせるためのコツはありますか?
A. 最大のコツは、真面目な文章ではなく「話し言葉の台本」にすることです。AIへの質問の答えをそのまま読み上げると堅い文章になり面白くありません。「ちょっと待って」「これ知ってる?」といった、人が実際に話すようなセリフを入れた台本を生成すると、人間っぽく自然な仕上がりになります。
Q5. 読み上げ音声をどうやって動画コンテンツにすればいいですか?
A. PCの場合は、OBSのような動画・音声・画像を組み合わせられるツールを使うのがおすすめです。スマホの場合は、画面収録機能を使い、スライドを表示した状態で読み上げをバックグラウンド再生にすれば、音声とスライドを合成してコンテンツを作ることができます。
🔊 TTS(Text to Speech) 入力したテキストをコンピューターが音声に変換して読み上げる音声合成技術のこと。本来は専用ツールや有料サービスを使うが、生成AIのチャットに付いている読み上げ機能を代用することで、無料で動画コンテンツのナレーションを作れる点が今回のポイントとなっている。
🤖 対話型生成AI ChatGPT、Gemini、Claude、Grokなど、ユーザーと会話形式でやり取りしながら文章や画像を生成するAIサービスの総称。本動画では、これら4つすべてにチャット内容を音声で読み上げる機能が標準搭載されている点が比較・検証されている。
📝 台本生成 動画やショート動画のセリフ・構成をAIに作らせること。元の動画内容をAIに入力し「ショート動画用に3分で」「バズりやすい構成に」と指示するだけで自動生成でき、さらに話し言葉口調に整えることで自然な読み上げにつながる。
🖼️ インフォグラフィック 情報やデータを視覚的に分かりやすく図解した画像のこと。AIに「縦向き16対9で10枚」などと指示して生成させ、読み上げ音声と組み合わせることで、スライド形式の解説動画コンテンツを効率よく制作できる。
🗣️ 音声読み上げ機能 AIチャットの回答テキストをそのまま音声で再生する機能。各AIのメニュー(三点ボタンや再生ボタン)から起動でき、無料で利用可能。これをナレーション代わりに使うことで、コストをかけずに動画制作ができる発想が紹介されている。
💬 話し言葉口調 「ちょっと待って」「これ知らないと損する」などの口語的な表現を含む文章のこと。AIの真面目な文章をそのまま読み上げても面白くないため、あえて話し言葉に変換することで、人間が自然に喋っているような臨場感のある音声に仕上がる。
🎙️ 声の変更(Grok) 読み上げに使う音声の種類を切り替える機能。Grokはチャット画面から6種類の声を直接選べる唯一のAIとされ、設定画面に移動せず手軽に変更できる点が高く評価されている。ChatGPTは音声会話モードで変更可能、GeminiとClaudeは固定とされる。
🎬 動画にリアクション 台本内で紹介されているXの新機能。ポストに自分の顔出し動画を重ねてコメントでき、背景が自動で切り抜かれる。最大140秒の録画とダウンロードが可能で、ショート動画の制作・再利用ツールとして使える可能性がある。現状iOS版から提供されている。
🎥 OBS 映像・音声・画像を組み合わせて録画・配信できるPC向けのソフトウェア。読み上げ機能の音声を録音し、スライド画像と合成して動画コンテンツを作る際に活用される。本動画の収録自体もこのツールで行われている。
📱 画面収録 スマホやPCの画面表示をそのまま動画として記録する機能。読み上げ音声をバックグラウンド再生しながらスライドを表示して収録すれば、PCのOBSを使わなくてもスマホ単体で音声付きの動画コンテンツを作成できる。















