ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

2026年6月27日2026年6月28日

URLをコピーしました！

ChatGPTは動画生成AIではないが、「動画を編集して」と依頼すると、添付した画像・音源・歌詞ファイルからPV動画を作成できる。投稿者は女性の写真3〜6枚と、Sunoで生成した音源のMP3、KeemunというツールでタイミングをつけたSRT形式の歌詞を添付し、スライドショー形式のMVを9秒で完成させた。スライド切替を2秒・ランダムに指定するなど工夫が必要だが、チャット依頼のみで動画生成枠を使わないため、回数制限がかかりにくい裏技として紹介している。

詳しくは15分の動画で解説しました。
https://www.youtube.com/watch?v=OJmJm1jn3iM

0:00　📱 導入：ChatGPTだけで動画生成・編集ができる衝撃 0:11　🎬 Xでバズった9秒PV生成の実演 2:23　🎸 きっかけ：ネット研究会での思いつき 3:29　✂️ 「編集して」で動画を作らせる裏技 4:28　🎵 手を生成して拍手させた合成動画の完成 5:38　📝 画像・音源・歌詞でPV作成に挑戦 6:46　⏱️ 歌詞とテロップが合わない問題 7:53　🔁 歌詞なしランダムループ動画の作成 9:00　🖼️ 写真6枚でスライドショー化 10:20　⚙️ 切り替えを2秒・ランダムに指示して改善 11:39　🔑 鍵となるSRT形式の歌詞ファイル 12:49　🎚️ SRT作成ツールの使い方を実演 13:54　🚀 チャット依頼だから無制限の可能性・まとめ

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

第８回目のAI音楽ラジオの収録でして
リニューアル後で最初のエピソード！
イーンスパイアの横田です。
https://www.enspire.co.jp/

アーカイブこちらです↓
https://www.youtube.com/watch?v=TkX8183Mr74

さて、本題です。

動画生成AIのSoraは終了したが
チャットで無制限に使える？！
https://www.youtube.com/watch?v=OJmJm1jn3iM

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

ChatGPTで動画生成・PV作成

ChatGPTが無料で動画編集！画像と音源と歌詞でPVが作れる時代

⚡衝撃の発見

画像を添付し「動画にして音源とSRT形式の歌詞でPVを作って」と頼むだけ。

9秒

ChatGPTが PV動画を自動生成。
スライドショー＋歌詞テロップが一括で完成！

これはチャットのやり取りだけ。動画生成AIの機能を使っていないのに、チャットの裏側で動画を編集してくれる──という裏技。

⬇️

🧩用意する3つの素材

🖼️

画像

ChatGPT画像生成
(GPT-Image)

🎵

音源(MP3)

Sunoで作曲
→ダウンロード

📝

歌詞(SRT)

タイミング付き
字幕ファイル

＋＝ 🎬

この3点を添付して「PVを作って」と依頼すれば完成。SRT形式の歌詞が成功のカギ！

⬇️

🔬たどり着くまでの試行錯誤

① 動画を「生成して」NG

動画生成AIではないため生成は不可。Soraも終了して断られる。

② 「動画を編集して」に言い換え突破

約2分半考えて、2画面合成＋拍手アニメ動画を編集して出力！

③ AI任せで歌詞を同期ズレる

歌とテロップのタイミングが合わない。プロンプト工夫は時間がかかる。

④ SRT形式の歌詞を使う解決

正確な字幕タイミングで歌詞ピッタリのPVが完成。

⑤ スライドショー＋切替指定最終形

「2秒ごと・ランダムに切替」と指示して、見やすい最終版に。

⬇️

🎹SRT歌詞の作り方（Keemun）

音ゲー感覚で、歌い始め〜歌い終わりに合わせてボタンを押すだけ。

📄

1. 歌詞テキストを入れる

🎧

2. 音源MP3を入れる

👆

3. 再生し、フレーズごとに押す→離す

⬇️

4. SRTをダウンロード→ChatGPTへ

🎯このやり方のメリット

高速 ── 1回の依頼で最短9秒〜数分でMVが完成
制限が緩い ── チャットのやり取りだけなので生成制限がかかりにくい
低コスト ── 動画生成AIの専用枠を消費しない
自由自在 ── スライドショーか動かすか、切替速度も指示で調整
素材も全部AI ── 曲はSuno・画像はChatGPTで完結

※無料プランはチャット回数の上限に注意。普及すると制限がかかる可能性も。

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

はじめに
バズった「9秒でPV完成」のツイートと、その衝撃の中身
きっかけはネットビジネス研究会──「動画を編集してください」という一言
SRT形式の歌詞こそが鍵──試行錯誤の末にたどり着いた最終形
チャットだけで完結するから制限がかからない──誰でもできるPV量産術
おわりに
よくある質問（Q&A）

1. はじめに

最近、「AIで動画を作る」と聞くと、なんだか専門的なソフトや高額な動画生成AIサービスが必要なんじゃないか、と身構えてしまう方も多いのではないでしょうか。SoraだのなんだのとニュースでAI動画の話題は飛び交っていますが、いざ自分でやろうとすると「結局、何を使えばいいの？」「お金がかかるんでしょ？」と二の足を踏んでしまいますよね。

ところが、実はもっと身近なツール──そう、あの「ChatGPT」を使って、画像と音源と歌詞さえあれば、わずか数秒でPV（プロモーションビデオ）が作れてしまう、という驚きの方法があるんです。しかも動画生成AIではなく、あくまで「チャットのやり取り」だけで。今回はその裏技を、実際の試行錯誤の流れに沿って、できるだけ丁寧にご紹介していきたいと思います。「自分にもできるかも」と思っていただけたら嬉しいです。それでは、さっそく本題に入っていきましょう。

2. バズった「9秒でPV完成」のツイートと、その衝撃の中身

急にライブ配信をしているので、まだ環境が全部整ってないんですけど、急遽やっています。ということで、今日はこれについてお話ししていきたいと思います。では。

まず、今こっちの方を先にご覧いただきたいと思うんですが、出ますでしょうか。これ、先ほどXに投稿したものでですね。ちょっと今バズっていますけど、こちらのものですね。これ、書いてる通りです。

チャットGPTで、添付した画像を動かして音源とSRT形式の歌詞でPVの動画を作ってと言ったら、なんと9秒で——「9S」って書いてたんで、本当に9秒で作っちゃった——で、証拠のチャット履歴はスレッドで、って書いてるんですけど、ちょっとこの映像ね、ご覧いただきたいと思います。では、再生してみたいと思います。最初イントロね。で、まもなく歌が始まると、下にテロップで歌詞が出てくると思うので、そのチェックをしてみていただきたいと思うんですけど。

これ動いてますよね。ちゃんと出てきたでしょ。「嬉しそうにしてたのは、あなたが優しく、いつでも」——でもなくスライドショーになってるから、画像が切り替わると思うんですけど——「彼氏が」。

これ変わりましたね。今ね、「あなただけ」だったり「今ならわかる気がする。ムカついてたんだね」。こんな感じで、動画編集できてしまったんですよ。で、これをね、今日はどうやってやったかって話をですね、もう書いた通りなんですけど、詳しく説明していきたいと思います。

3. きっかけはネットビジネス研究会──「動画を編集してください」という一言

では、まずこれ、昨日ですね、一昨日か、僕の会社がやってますネットビジネス研究会があって、それを元に今日のアイデアを思いついたので、その話からですね、振り返っていきたいと思います。

では、まずはこちらですね。その時の思いついたものを紹介したいと思うんですけど、こちらになります。ここにね、僕の顔写真が添付してあって、で「添付した男性がギターを弾きながら歌う女性の動画の横で拍手してる動画にして」という、以上、謎のプロンプトなんですけど。で、ここに今添付してるのが、女性がギターを弾いてる様子の動画があるんですね。

で、それを添付して、その横でこの男性が「さすがプロ」って言って拍手してるような動画にして、とちょっと無茶ブリしたわけですよ。そうすると、考えて作ろうとしたんだけど、「動画そのものを生成はこの環境できません」と。「動画生成AIじゃないからできない」って言われてSoraも終わっちゃったので、できませんっていう風に言われたんで。そこで僕はこう言ってみたんですよ。「そんなこと言わないで動画を編集してください」ってですね。

言ったら、そしたらですね、2分24秒考えて、編集しました、こちらからダウンロードできますと言って、ここに動画ファイルが出てきたんですね。で、これをちょっとご覧いただきましょう。「元動画の音声を残し、左に女性シンガーの演奏動画、右に添付写真の男性を配置して、拍手アニメーションを加えて」ということで、拍手してください、って言ったので、これはちょっとダウンロードしてみたいと思うんですけど、そうするとこんな感じになりました。っていうことで、ご覧いただきたいと思うんですが、今回はですね、せっかくなので、僕が出てるとイメージがあれなんで、16対9の画面いっぱいで説明して動画を出したいなと思っていますので、ちょっとお待ちくださいね。はい、これですね。じゃあちょっと出してみたいと思います。

では、これで再生してみますね。こんな感じでした。「今夜燃え上がれ、ギターが叫ぶ、心を解き放て、もっと高く、限界を超えろ、このステージで伝説を作ろう、永遠に輝け」。はい、ということですね。元々あった男性の画像に手がなかったので、勝手に手をですね、このようにAIが画像生成して、その手を合わせて拍手する感じにして。で、これ元々あったギターを弾いてる様子のもの、これGrokで作ったものなんですけど、これと組み合わせて動画を作ってきたんですね。

で、動画の編集ができるじゃん、ということで、これをやばいぞって話をしたんですよ。で、それがネットビジネス研究会の中で話した内容だったんですけど。で、それを今日ですね——これ僕、今毎日1日2曲、音楽を作ってさらにPVを作ってるので——PVを作り終わった時に、あれ待てよ、こんなことしなくてもChatGPTでできるんじゃないの、と思ってやってみたって話を、今からしていきたいと思うんですね。

4. SRT形式の歌詞こそが鍵──試行錯誤の末にたどり着いた最終形

で、こちら、ご覧ください。ここに今、3つ写真が添付してありますで。元々、僕の場合はこの3つの女性の写真を元にGrokでこれを動画に変えて、そしてですね、ここにいわゆる歌詞の、何分何秒から、何分何秒まで歌詞が出るよっていうSRT形式っていうのがあるんだけど、そのファイルをつけて、そしてここに音源、これSunoで生成した曲を、ダウンロードした音源のMP3ファイルをつけて、それでMVを作るんですけど。で、ここでですね、「添付した画像と音源と歌詞でPVの動画を作って」っていう風に言うとですね、そうしてできたのが、あのさっきの分なんですね。で、あんな感じでできたんですよ。

で、ここでですね、あ、さっきじゃないか、これね、ちょっとお見せしましょうか。ちょっと時系列がちゃんと分かった方がいいですね。もう1回出しますけど、こちら、これが出たんです。ちょっと再生しますね。最初あれなんで途中からやります。

「彼のことを話すたびに、嬉しそうにしてたのは」、はい、ということですね。これだとちゃんと歌とテロップの歌詞が合ってないんですよ。出ているテロップの歌詞と歌ってる内容が連動してないんですね。

ということで、これをやろうと思ったら、まあできなくはないんですけど、AIでできるんだけど、ChatGPTに頼むとちょっと時間かかりそうなので、このSRT形式っていうのを——ちょっと後で話しますけど——その形式に変換したものにした方がちゃんとできるんじゃないの、と思ったんですね。

だけど「歌詞を出すタイミングと音源を合わせるのはできますか?」って言うたら、できます、っていうことで出してきたのがあるんですけど、これSRTじゃなくてAIにちゃんとさせたやつですね。じゃ、これもどのぐらいのレベルになったか、ちょっと見てみましょうか。

はい、これ再生してますね。そうすると、こんな感じです。ちょっと先行きますね。「彼氏ができたの?って無邪気?相手が」——これ合ってないんですよ——「今ならわかる気がする」。ということで、ちょっとこれは無理かなと。

まあね、すごい考えさせたり、プロンプトを工夫すればできると思うんですけど、ちょっとこれやってると時間がもったいないので、じゃあということで考えたのが、こちらですね。今度は歌詞を出さないで、「添付した画像を動画にして、ランダムにループした形で音源入れて流すようにしてください」。ということで、歌詞は無しで、とにかくPVを作りたいので、歌詞なしで音源を作り、スライドショーの動画を作りましょうね、いう感じで依頼したものがあるんですね。で、それがこれです。これもせっかくなんで見ましょうか。

はい、そうすると、こんな感じになりました。これね、再生してみたいと思います。これ、よいしょ。こんな感じで、はい、行きます。ちょっと飛ばしますね。「踏み込まれて」ってこと?「知らないふりをしてたのは」。だって、いわゆるスライドショーにして、そこに音源が入っている動画であれば、こんな感じでできるんだけど。

でも、せっかくだったらここにテロップでちゃんと歌詞が出た方がいいじゃん、と思ったわけですね。で、そこで冒頭の分です。「添付した画像を動かして、音源とSRTの歌詞でPV動画作って」って言ったのが、今日冒頭でお見せしたXの動画になるわけですね。で、これができたわけですよ。ということで、ここまでできるんだってことが分かったので、これね、ちょっともう1回、もう1回やりますか?あ、まいっか、これですね。

で、そこで今度はですね、こういう風に指示してました。今度はちょっと写真の枚数増やしまして、6枚にしまして、で、同じようにこれですね、さっきの音源と、そしてSRT形式の歌詞を入れまして、で、同じように指示を出してみました。で、今度は「添付した画像をスライドショーにして」なんか、さっきのやつ、あの冒頭のお見せしたやつって、なんかじわじわってこう動いてるんだけど、なんかあのぐらいしか動かないんだったら、普通にスライドショーにした方が綺麗かな、ってことで、そのようにね、指示していました。

で、それできたのがこちらですね。これもね、見てもらいましょう。こんな感じになりました。ご覧ください。ちょっと飛ばしますね。「わかる気がする。ムカついてたんだね。全く気づかなかったよ。笑って許されるたびに」。それがちょっとね、スライドショーのペースが遅い。これ一応、スライドが変わるんだけど、変わるんだけど、変わるペースが遅いんですね。あ、そりゃそうだよね、って指示してないもんね。

ということで、そうかそうか、というので、今度はスライドショーは2秒ごとに切り替えてください、って言わないと、ちょっと動いてない、静止画像みたいになっちゃうので。で、これで面白くないから、切り替えを2秒にして、同じ繰り返しだと面白くないのでランダムにしてください、という感じで言って作ったのが次ですね。

はい、これもね、再生してみたいと。で、これが一応最終形になりますので、これをですね、せっかくなんで、これはまた16対9でちゃんと出していきますね。

はい、これが最終形です。ご覧ください。ちょっと飛ばして途中からいきますね。

「彼のこと話すたびに、嬉しそうにしてたのは、あなたが優しく、いつでも笑ってくれるからだよ。彼氏ができたの?って無邪気に。相手が、あなただけ」だったり。はい、ってことで、皆さん分かりましたかね?

スライドショーにしたことによって、スライドを切り替えるタイミングで字を入れなきゃいけないと思ってるので、そのうまく合う時と、2秒の間隔でうまく合わない時があるっていうのが、まあ分かったんです。この辺はまたプロンプトを工夫していけばちゃんと出せると思うんですけど、まあこのようなことができるようになったわけです。

5. チャットだけで完結するから制限がかからない──誰でもできるPV量産術

となると、今お話したように、音源はSunoから作ってくればいい。そして画像生成はChatGPTの画像生成GPT-Image2.0で作ればいい、ってことになると、このSRT形式って歌詞のファイルがちょっと鍵になるんですね。で、これはですね、僕が今使ってるのはこちらのツールなんですけど、これ後でリンクを貼っときますが、こちらのですね、Keemunと言うサービスを使ってるんですけど。ここのところにありますように、まずは歌詞をテキストファイルでここに入れます。

ということで、テキストファイルを入れますね。入れましたとで、入れましたら、今度はこっち側に音源を入れます。で、音源も自分のパソコンの中から音源のMP3ファイルを入れますね。そしたら、音ゲーみたいな感覚なんだけど、ここで再生ボタン押してもらうと、そうすると、曲が始まります。で、そのタイミングで歌い始めたとこで、これを押して、歌い終わったところで、押したのを離すっていうのを、フレーズごとに繰り返していくんですね。で、間もなくちょっと歌が始まるのでやってみたいと思うんですけど、はい、いきますよ。

「彼の話」で、押して、終わったら離す。「嬉しそう」で、次また始まったら押す、そして離す。はい、「笑ってくれるからだよ」。で、このようにやっていきます。「彼氏ができたの」なので、押して、1つのフレーズが終わったら離すね。押して、離すってことをやっていくことができます。で、これで全部終わったら、1番下のとこにダウンロードするというボタンがあるので、ダウンロードボタンを押してもらって、1番下のとこにダウンロードボタンあるので、それダウンロードしてもらって、ChatGPTに貼り付けてもらえば、動画生成したMVができるということです。

ということで、このやり方って、そのチャットに依頼してやってるので、画像生成にチェックとかしてるわけじゃないし、動画生成はもちろんないわけなので、これでやってることってチャットのやり取りしかしてないんですね。で、チャットの向こうで動画生成をしてもらってるので、制限っていうのは多分かからないと思うんですね。で、これが、あんまり今みんながやるようになったら、なんか制限かかるかもしれませんけど、一応今日は裏技ということでお伝えしたので、今のところ多分無制限でいけるんじゃないか。

もちろん、無料プランの方とかでチャットの回数制限があるので、その回数制限かかっちゃったらダメなんだけど。でも、これを普通に1回依頼するだけでMVが作れちゃうので。なので1日何本も作らない限りは、頻繁にやり取りすることはないのでね。1回やったら、もう添付して、歌詞のSRT形式と、そして音源と、そして画像を添付してもらえれば、もうできるので。あとはスライドショーにするのか、動かすのかっていう指示を与えて皆さん、ぜひやってみてください。

6. おわりに

今回は、ChatGPTを使って動画編集、さらにはPV（MV）作成までできてしまう、という驚きの裏技についてお伝えしてきました。きっかけはネットビジネス研究会で思いついた「動画を編集してください」という一言。動画生成AIではないと断られても、「編集」という切り口で頼めば、ChatGPTは画像・音源・歌詞を組み合わせて動画ファイルを出力してくれるのです。

ポイントは、歌詞の表示タイミングを正確に合わせるためのSRT形式のファイル。Keemunというツールを使えば、音ゲー感覚でフレーズごとにボタンを押し離しするだけで、簡単にSRTファイルが作れます。あとは音源をSunoで、画像をChatGPTの画像生成で用意し、3つを添付して指示を出すだけ。スライドショーなら「2秒ごと・ランダムに切り替え」と指示すると、より自然な仕上がりになります。

何より素晴らしいのは、これがすべて「チャットのやり取り」だけで完結し、現状では生成制限がかかりにくいという点です。プロンプトを工夫すれば精度はさらに上がります。ぜひ皆さんも、自分だけのPV作りに挑戦してみてください。

7. よくある質問（Q&A）

Q1. ChatGPTで本当に動画が作れるのですか？ChatGPTは動画生成AIではないと聞きました。
A1. その通り、ChatGPT自体は動画生成AIではありません。実際に「動画を生成して」と頼むと断られます。しかし「動画を編集してください」とお願いすると、添付した画像・音源・歌詞を組み合わせて動画ファイルを作り、ダウンロードできる形で出力してくれます。つまり「生成」ではなく「編集」という切り口がポイントです。

Q2. PVを作るには何を準備すればいいですか？
A2. 必要なものは3つです。1つ目は音源（記事ではSunoで生成したMP3ファイルを使用）、2つ目は画像（ChatGPTの画像生成GPT-Image2.0などで用意）、3つ目はSRT形式の歌詞ファイルです。この3つを添付して指示を出すだけでMVが作れます。

Q3. SRT形式の歌詞ファイルはどうやって作るのですか？
A3. 記事ではKeemunというサービスを使っています。まず歌詞をテキストファイルで入れ、次に音源のMP3を入れます。あとは音ゲーのような感覚で、再生しながら歌い始めで押して、歌い終わりで離す、という操作をフレーズごとに繰り返すだけ。最後にダウンロードボタンを押せばSRTファイルが完成します。

Q4. スライドショーがうまく動かない・歌詞が合わないときはどうすればいいですか？
A4. スライドの切り替えが遅い場合は「2秒ごとに切り替えてください」と指示しましょう。また、同じ繰り返しだと単調なので「ランダムに切り替えて」と加えると自然になります。歌詞と歌のタイミングが合わない場合は、SRT形式を使ったり、プロンプトをさらに工夫することで精度を高められます。

Q5. 動画をたくさん作ると利用制限がかかりませんか？無料プランでも使えますか？
A5. この方法はチャットのやり取りだけで完結するため、現状では動画生成のような制限はかかりにくいと考えられます。ただし無料プランにはチャット回数自体の制限があるため、それに達するとできなくなります。とはいえ1本作るのに依頼は基本1回で済むので、1日に大量に作らない限り、頻繁に制限にかかることはないでしょう。

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

🤖 ChatGPT
OpenAIが開発した対話型AIサービス。本来は動画生成AIではないが、画像・音源・歌詞ファイルを添付して「動画を編集して」と依頼すると、内部処理でPV動画を作成して出力できる。チャットのやり取りだけで完結するため、動画生成専用の制限枠を使わず作業できる点が特徴として紹介されています。

📝 SRT形式
動画の字幕やテロップを表示するためのファイル形式。「何分何秒から何分何秒まで、どの歌詞を表示するか」という時間情報を記述する。これを添付することで、歌の音声とテロップの歌詞を正確に同期させたPV動画を作れるため、MV制作の鍵となるファイルとして位置づけられています。

🎵 Suno
テキストから楽曲を自動生成するAI音楽サービス。投稿者はSunoで作った曲のMP3ファイルをダウンロードし、PV動画の音源として活用している。1日2曲の音楽制作にも使われており、PV作成ワークフローの音声素材を担う中核ツールとして登場します。

🎬 PV / MV
プロモーションビデオ／ミュージックビデオのこと。楽曲に映像と歌詞テロップを組み合わせた動画作品を指す。本来は専門ソフトでの編集が必要だが、ChatGPTに画像・音源・歌詞を渡すだけで、1回の依頼でMVを完成させられるようになった点が今回の主題となっています。

🖼️ 画像生成（GPT-Image 2.0）
ChatGPTに搭載された画像生成機能。テキスト指示から画像を作成でき、元画像に存在しなかった「手」を生成して拍手アニメーションを合成するなどにも使われた。Sunoの音源とこの画像生成を組み合わせることで、素材集めから動画化までAIで完結できると説明されています。

🎞️ スライドショー
複数の静止画像を順番に切り替えて見せる動画形式。投稿者は画像をじわじわ動かす方式より綺麗だと考え採用した。ただし切替ペースが遅い問題があり、「2秒ごとに切り替え」「ランダムに」と具体的に指示することで、より見やすいPVに仕上げられると解説しています。

💬 プロンプト
AIに作業を指示するために入力するテキスト。「添付した画像を動かして音源とSRTの歌詞でPV動画を作って」のように依頼する。歌詞と音声を合わせるには工夫が必要で、指示の精度しだいで仕上がりが変わるため、プロンプトの工夫が品質向上の要だと繰り返し述べられています。

🛠️ Keemun（キームン）
歌詞と音源のタイミングを合わせてSRT形式を作るためのツール。歌詞テキストと音源MP3を入れ、音ゲーのように歌い始めでボタンを押し、歌い終わりで離す操作をフレーズごとに繰り返す。完成したファイルをダウンロードしChatGPTに貼れば、歌詞同期のMVが作れます。

🚫 制限（回数制限）
AIサービスで利用回数や生成回数に設けられる上限のこと。今回の方法はチャット依頼のみで動画生成枠を使わないため制限がかかりにくいが、無料プランのチャット回数制限には注意が必要。多用が広まれば将来的に制限される可能性もあると注意喚起されています。

✋ 拍手アニメーション
画像内の人物に動きを加える映像演出の一例。元画像に手がなかったため、AIが手を生成して合成し、男性が拍手するように見せた。女性のギター演奏動画と並べて配置するなど、複数素材を組み合わせた動画編集がChatGPTで可能だと示す象徴的な事例です。

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

ChatGPTは無料で動画生成･編集OK:画像･歌詞･音源でPV作成も

ChatGPTで動画は本当に作れるのか?最新事情を整理

ChatGPT単体での動画生成と「チャット経由の編集」の違い

「ChatGPTで動画を作れるのか」という問いに対して、多くの解説記事は「ChatGPT単体では映像そのものを生成できない」と説明しています。実際、ChatGPTは文章や画像を生成する能力はありますが、動画の編集やモーション、時間軸の調整といった、動画特有の複雑な処理を行う機能は標準搭載されていないとされてきました。動画生成に特化したSoraなどは別サービスとして位置づけられ、ChatGPT本体は台本作成や構成設計、字幕テキストの作成といった言語ベースの工程支援が中心、というのが一般的な理解です。 Money Forward

ところが、ここで紹介する手法はその常識を一歩踏み越えます。ポイントは「動画を生成して」と頼むのではなく、「すでにある素材を編集して」と依頼する点です。動画生成AIではないと断られた状況でも、「そんなことを言わずに動画を編集してください」と伝えると、ChatGPTがバックエンドのコード実行環境で素材を組み合わせ、編集済みの動画ファイルを出力してくれるケースがあります。実例では、女性がギターを弾く動画の横に男性の写真を配置し、拍手アニメーションを加えるという無茶な依頼に対し、2分24秒で編集を完了し、ダウンロード可能なファイルを返してきました。

つまり「ゼロから映像を生成する」のではなく、「手持ちの画像・音源・歌詞を素材として与え、それらを合成・編集してもらう」というアプローチです。表向きは画像生成や動画生成の機能を呼び出しているわけではなく、あくまでチャットでのやり取りだけで完結しているのが特徴です。この違いを理解しておくことが、本記事の手法を使いこなす最初の鍵になります。

必要な素材は「画像」「音源」「SRT形式の歌詞」の3点

この手法でPVを作るために用意するのは、基本的に3種類の素材だけです。1つ目は画像で、ChatGPTの画像生成機能(GPT Image系)やGrokなどで作ったものを複数枚用意します。実例では女性の写真3枚や6枚を使い、それを切り替えるスライドショー形式のPVに仕上げています。

2つ目は音源です。音楽生成AIのSunoで生成した楽曲をMP3形式でダウンロードして使います。Suno AIは月8ドルで商用利用も可能とされ、ChatGPTなどと組み合わせれば、作詞から作曲、映像化までをほぼAIだけで完結できる環境が整いつつあります。 WEEL

3つ目が最大のポイントとなるSRT形式の歌詞ファイルです。SRTとは、字幕とその表示開始・終了時刻が記載された字幕ファイル形式で、動画編集ソフトによっては、SRTファイルをドラッグ&ドロップするだけで、動画に字幕を付けてくれるという汎用性の高さがあります。歌詞をただテキストで渡すだけだと、歌声とテロップのタイミングがずれてしまいます。実際に試した例でも、AIに任せて歌詞のタイミングを合わせさせると「出ているテロップと歌っている内容が連動しない」結果になりました。そこで、あらかじめ正確なタイミング情報を持つSRTファイルを用意しておくことで、歌声と字幕が一致したクオリティの高いPVが完成します。この3点を揃えることが、安定した仕上がりへの近道です。 Mochiki-aiart

実際の作成手順を5ステップで解説

ステップ別の流れと「依頼するだけ」の手軽さ

この手法の実際の流れは驚くほどシンプルです。まず素材を準備します。Sunoで楽曲を生成してMP3をダウンロードし、ChatGPTやGrokで画像を複数枚生成し、後述するツールでSRT形式の歌詞ファイルを作成します。次に、これら3点をChatGPTのチャット欄に添付し、「添付した画像を動かして、音源とSRT形式の歌詞でPVの動画を作って」と一文で依頼するだけです。

この手法の本当の強みは、ユーザー側の操作が「チャットで依頼する」だけで済む点にあります。画像生成モードに切り替えたり、動画生成機能のチェックを入れたりする必要はなく、純粋なテキストのやり取りだけで動画ファイルが返ってきます。実例では、X(旧Twitter)に投稿された事例として、添付画像を動かして音源とSRT歌詞でPVを作るよう依頼したところ、わずか9秒で動画が完成しています。イントロが流れ、歌が始まると画面下部に歌詞テロップが表示され、画像がスライドショーのように切り替わる、完成度の高いPVが出力されました。

仕上がりの調整も会話で行えます。最初の出力ではスライドが切り替わるペースが遅く、ほぼ静止画のように見えてしまうことがありました。これは切り替えタイミングを指示していなかったためです。そこで「スライドショーは2秒ごとに切り替えて」「同じ繰り返しだと面白くないのでランダムに」と追加で伝えることで、テンポよく画像が切り替わるPVに改善できました。このように、一度の依頼で大枠を作り、あとは会話ベースで微調整していくスタイルが、専門的な編集スキルを持たない人でも扱いやすい理由です。

SRTファイルを作る「Keemun」などのツール活用法

この手法で品質を左右するSRTファイルですが、これを手作業でゼロから作るのは大変な労力です。動画を再生しながら歌声に合わせて一フレーズずつタイミングを記録していく作業は、地味ながら時間がかかります。そこで、専用ツールを活用するのが現実的です。

実例で使われていたのは「Keemun」というサービスで、音ゲーのような感覚で直感的にSRTを作成できます。使い方は、まず歌詞をテキストファイルとして読み込ませ、次に楽曲のMP3音源を読み込ませます。あとは再生ボタンを押し、歌い始めたタイミングでボタンを押し、フレーズが終わったら離す、という動作を曲の最後まで繰り返すだけです。すべて入力し終えたら、画面下部のダウンロードボタンからSRTファイルを書き出し、それをChatGPTに添付すれば完成です。

SRTを自動生成するアプローチは他にもあります。たとえばOpenAI Whisperを用いた音声認識モデルを採用したツールでは、MP3やWAVなどの音声ファイルから自動でSRT字幕を生成できます。また、音声ファイルの文字起こしには、無料で使えるGoogle AI Studioを利用する方法も知られています。ただし、現状では音楽生成AIでSRT字幕のダウンロードに正式対応しているものはありませんという制約があるため、こうした外部ツールを併用するのが定石です。手動入力のツールは精度が高く、自動生成は手間が少ないという特性があるので、楽曲の長さや求める精度に応じて使い分けるとよいでしょう。 Note + 2

このワークフローを支えるAIツールの組み合わせ

音源生成「Suno」と画像生成の役割分担

このPV作成術が成立するのは、各工程を得意とするAIを役割分担させているからです。音源生成を担うのがSunoです。テキストから楽曲を生成でき、歌ありにも歌なしにも対応しており、歌詞はAIに書かせることも自分で用意することもできます。近年は機能も進化を続けており、One-Shot／Loopの選択、BPM（テンポ）、Key（調）を指定でき、ドラムやギターリフなどの音源を作成できるSoundsという新機能も追加されました。PV用のBGMやループ素材を細かく作り込みたい場合にも対応できる環境が整っています。 Yokotashurin

画像生成は、ChatGPTの画像生成機能やGrokが担います。実例ではGrokで生成した女性のギター演奏動画や、ChatGPTの画像生成で作った複数枚の写真を素材として活用しています。手元に動かしたい人物や情景の画像があれば、それをそのままPVのビジュアル素材に転用できます。

そして、これらをつなぐ字幕情報がSRTファイルです。つまり「音はSuno」「絵はChatGPTやGrok」「歌詞同期はSRT」「最終的な合成と編集はChatGPT」という分業体制が、このワークフローの骨格になります。それぞれのツールが最も得意な部分だけを担当するため、専門ソフトを何本も使いこなさなくても、一定品質のPVが完成します。AIを「万能な一台」として使うのではなく、適材適所で組み合わせる発想が、効率と品質を両立させる秘訣です。

CapCutやFlexClipなど他ツールとの使い分け

ChatGPT経由での編集は手軽ですが、より凝った演出や細かいタイムライン編集をしたい場合は、専用の動画編集ツールと組み合わせるのも有効です。たとえばFlexClipは、ブラウザ上で動作する無料で使えるオンライン動画編集ソフトで、AI動画生成やAI自動字幕起こし、AI画像生成などのツールが統合されています。Sunoで作った楽曲を取り込み、歌詞をペーストすると、ストック素材と組み合わせて自動でMVを生成する機能も備えています。 Learning-animal

字幕焼き付けに特化したワークフローも知られています。ある事例では、ChatGPTに日本語の歌詞と英語訳を渡し、仮のタイムスタンプ入りの.srtファイルを作ってもらい、無料ソフトのHandBrakeを使い、完成した.srtファイルの歌詞を動画(.mp4)に焼き付けたと報告されています。日英併記の字幕を多言語展開したい場合などに有効な手法です。 Note

CapCutも定番の選択肢ですが、注意点としてCanvaやCapCutなどのプラグインを利用する際には、ChatGPT Plus以上の有料プランへの加入が必要です。これらを踏まえると、「とにかく素早く一本仕上げたい」ならChatGPT経由の直接編集、「演出を凝りたい・多言語展開したい」ならFlexClipやCapCut、HandBrakeといった専用ツール、という使い分けが見えてきます。目的とこだわりの度合いに応じて、最適なルートを選ぶのが賢い進め方です。 Ai-skill

無料で使う際の制限と注意点

無料プランの回数制限と「裏技」が制限される可能性

この手法の魅力は、特別な有料機能を使わずに動画編集ができる点にあります。前述の通り、画像生成や動画生成の専用機能を呼び出しているわけではなく、純粋にチャットのやり取りだけで完結しているため、動画生成特有の利用制限がかかりにくいと考えられます。バックエンドで動画の合成処理が行われているものの、ユーザーから見れば「依頼を一度送る」だけなので、頻繁にやり取りをしない限り制約に引っかかりにくいわけです。

ただし、無料プランには根本的な回数制限があります。無料プランでは一定時間あたりのチャット回数に上限があるため、その制限に達してしまうと依頼自体ができなくなります。とはいえ、一度に1回依頼するだけでPVが作れるため、1日に何本も量産しない限りは制限内で十分に運用できるでしょう。素材であるSRT形式の歌詞、音源、画像をあらかじめ揃えておけば、添付して一文依頼するだけで動画が完成します。

注意しておきたいのは、この「チャット経由で動画編集をさせる」手法はあくまで現時点での裏技的な使い方であり、利用者が増えれば将来的に制限がかかる可能性がある点です。AIサービスの仕様は頻繁に変わるため、今は無制限に近い形で使えても、それが恒久的に保証されているわけではありません。実際に試す際は、各サービスの最新の利用規約やヘルプセンターを確認したうえで活用することをおすすめします。

商用利用・著作権で押さえておくべきポイント

PVをYouTubeなどで公開したり、ビジネスで活用したりする場合は、商用利用と著作権の確認が欠かせません。ChatGPTで生成した動画について、ChatGPTの動画の商用利用は可能です。これは、OpenAIの利用規約に以下のような記載があるためとされていますが、利用規約は更新されることがあるため、公開前に最新の規約を確認するのが安全です。 AI 研究所

GPTsを利用する場合はさらに注意が必要です。ChatGPTのGPTsには営利目的での使用を禁止している場合があります。ビジネスにおいてChatGPTの利用を検討している方は、GPTsの利用規約も確認するべきだとされています。使うツールごとに条件が異なるため、一括りに考えないことが大切です。 Japan-ai

音源についても留意点があります。Sunoは商用利用可能なプランを提供している一方で、生成物が既存の楽曲と類似するリスクがあるため、商用利用時は法的リスクを十分に確認する必要があり、2024年6月には主要音楽レーベルがSuno, Inc.を著作権侵害で提訴した事例も報告されています。AI生成物をめぐる法的環境はまだ流動的です。さらに、AI動画は技術が進化したとはいえ完璧ではなく、人間の手指の本数が不自然になる、映像内の文字が意味不明になる、影の方向や反射が不自然になるといった破綻が起きることもあります。公開前には必ず内容を人の目でチェックし、誰が承認して公開するかという運用フローを決めておくことが、トラブルを避けるうえで重要です。 WEEL Genai-ai

まとめ:画像・歌詞・音源があれば誰でもPVが作れる時代へ

今日から試せる最短ステップとこれからの可能性

ここまで見てきたように、ChatGPTは「動画を生成するAI」ではないものの、画像・音源・SRT形式の歌詞という3つの素材を渡して「編集して」と依頼するだけで、歌詞テロップ付きのPVを作り出せます。専用の編集ソフトを習得する必要も、複雑なタイムライン作業も不要で、チャットでの会話だけで仕上げから微調整まで完結する手軽さが最大の魅力です。

今日から試すなら、最短ステップはこうです。まずSunoで好きな楽曲を生成してMP3をダウンロードし、ChatGPTやGrokでPVに使いたい画像を複数枚用意します。次にKeemunのようなツールでSRTファイルを作成し、これら3点をChatGPTに添付して「添付した画像をスライドショーにして、2秒ごとにランダムで切り替え、音源とSRTの歌詞でPVを作って」と依頼します。これだけで、歌声と字幕が同期したPVが手に入ります。スライドの切り替え間隔やアニメーションの有無は、後から会話で自由に調整できます。

この分野は進化が非常に速い領域です。ChatGPTに動画生成AIや編集ツールを組みあわせれば、専門知識がない初心者でも簡単に高品質な動画作成が可能になり、企画から公開後の分析までをまとめて効率化できる時代になりました。音楽も映像も字幕もAIが担い、人間はアイデアと最終チェックに集中する。そんなワークフローが、もはや特別な人だけのものではなくなっています。まずは一本、自分だけのPVを作ってみることが、この新しい制作スタイルを体感する最良の方法です。 Ai-skill