Google AI Studioで歌詞をLRC形式⇒CapCutで自動字幕の方法

AIによる音楽の可能性を探るトーク番組
「AI音楽ラジオ」の第5回が配信です!
イーンスパイアの横田です。
https://www.enspire.co.jp

後半では、まさかの放送事故?
詳しくは以下よりご視聴ください。
https://www.youtube.com/watch?v=3ltgBgI7pPI
さて、本題です。
Google AI Studioで歌詞と音源からLRC形式に変換して
CapCutのローカルキャプションで自動で歌詞を表示する
方法についてライブ配信でデモしてみました。
https://www.youtube.com/watch?v=hw_ayCDzbNk
上記の続きの動画はYouTubeメンバーシップの
デイリー会員(190円/月)に限定公開しています。
詳しくは以下をご覧ください。
https://yokotashurin.com/youtube/membership.html
YouTubeメンバーシップ申込こちら↓
https://www.youtube.com/channel/UCXHCC1WbbF3jPnL1JdRWWNA/join
ちなみにこの手法で歌詞に自動で字幕表示して
作ったAI音楽のPVを、ご視聴ください。
ときめきの周波数
https://www.youtube.com/watch?v=zbYehgRZV5Q
KI RA KI RA with Milia
https://www.youtube.com/watch?v=whRSofvsRsU
生成AIによる動画・音声・スライド・カルーセル・図解による解説は無料
動画解説
https://www.youtube.com/watch?v=xJ5b9pzBMpE
音声解説
https://www.youtube.com/watch?v=YTN5TcyyWwo
スライド解説
https://www.youtube.com/watch?v=BCY_J-OwfS8
リアル対話解説
https://www.youtube.com/watch?v=ez3-KysXJn8
キャラ対話解説
https://www.youtube.com/watch?v=Zl2zIMhTc1M
スライド
https://www.docswell.com/s/6534747/5WRWMR-2026-04-08-033816
カルーセル
https://www.instagram.com/p/DW10IV2D54b/
漫画

インフォグラフィック解説

マインドマップ

Google AI Studioで歌詞をLRC形式⇒CapCutで自動字幕の方法
Sunoで作った楽曲のMV(ミュージックビデオ)に
歌詞字幕を自動配置できるようになった!
従来は手作業で1行ずつ字幕を配置する必要があり非常に手間だった
Google AI Studioで歌詞+音源 → LRCファイルに変換し、CapCutのローカルキャプションで読み込む
一般的な字幕形式
開始〜終了時間+テキスト
🎬 動画向き
音楽用歌詞形式
開始時間+歌詞テキスト
🎵 今回はコレ!
高機能字幕形式
装飾・エフェクト対応
🎨 高解像度向き
テキストだけだとタイミングが適当。MP3添付でも若干ズレる
精度不足音声を正確に聞けないと自ら回答。途中で切れる問題も
非対応歌詞テキスト+音源の同時入力で高精度に変換成功
最適解!CapCutの自動キャプションは歌の音声をほとんど文字起こしできない。話し声は認識できるが、歌声は認識精度が非常に低い
- Sunoで歌詞コピー + MP3ダウンロード(無料OK)
- AI Studioに歌詞+音源を両方添付してLRC変換(精度◎)
- メモ帳でUTF-8+.lrc拡張子で保存
- CapCutのローカルキャプションからインポートで自動配置
- ChatGPT・Geminiでは精度不足 → AI Studio一択
🚀 効果:MV制作の字幕作業が手動1行ずつ → ほぼ全自動に!
音楽をAIで作っている人には非常に大きな時短ノウハウ
Google AI Studioで歌詞をLRC形式⇒CapCutで自動字幕の方法
Google AI Studioを使って、Sunoで作った音楽のMV(ミュージックビデオ)に自動で歌詞字幕を付ける方法の解説です。MP3音源と歌詞テキストをAI Studioに渡すと、各歌詞が何分何秒から歌われているかを示すLRCファイルを高精度で生成できます。ChatGPTやGeminiでは精度が不十分でしたが、AI Studioなら正確です。生成したLRCファイルをCapCutのローカルキャプション機能でインポートすれば、手作業で一つずつ歌詞を配置する手間がなくなり、MV制作が大幅に効率化されます。

- はじめに
- AI音楽制作の悩み──歌詞付きPVを作るのが大変すぎる問題
- ChatGPTやGeminiでは精度が出ない?──LRCファイル変換の試行錯誤
- Google AI Studioが救世主!──高精度なLRCファイルを一発生成する方法
- CapCutで仕上げ──ローカルキャプションで歌詞を自動配置する手順
- おわりに
- よくある質問(Q&A)
はじめに
AIを使って音楽を作る人がどんどん増えてきていますよね。Sunoのようなサービスを使えば、誰でも手軽にオリジナルの楽曲を生成できる時代になりました。しかし、せっかく素敵な曲ができても「歌詞付きのミュージックビデオ(MV)を作りたい」と思った途端、途方もない手間が待ち受けていることに気づいた方も多いのではないでしょうか。歌詞のタイミングを一つひとつ手作業で合わせていく作業は、まさに骨が折れる作業です。「もっと簡単にできる方法はないの?」と感じている方にこそ、今回の記事はぜひ読んでいただきたい内容になっています。この記事では、GoogleのAI Studioを活用して歌詞のタイミング情報を含んだLRCファイルを高精度で自動生成し、それをCapCutに取り込んで歌詞付きMVをサクッと作る方法を、ステップバイステップで丁寧に解説していきます。AI音楽クリエイターの皆さんにとって、まさに朗報となるノウハウですので、ぜひ最後までお付き合いください。

1. AI音楽制作の悩み──歌詞付きPVを作るのが大変すぎる問題
Sunoで作った音楽をPVにしたい
今日はAIを使って音楽を作っている方に朗報となるお話をお届けします。テーマは「Google AI Studioで歌詞と音源からLRCファイル(Lyric形式)に変換して、CapCutのローカルキャプションから自動字幕に歌詞を配置する方法」ということになります。非常に長い内容になっているのですが、簡単に言うとこういうことです。
実際のPVはこんな感じ
最近よく作っているPVを少しご覧いただきたいのですが、Sunoを使って音楽を作る時にPVとして動画ファイルをダウンロードすることができるんですね。そこに歌詞が自動的にスクロールするという形のものができるのですが、それと左にあるショート動画用の動いている縦向き動画をくっつけて、横向きの16対9の動画を作っているだけなんです。つまり、この「歌詞を動かす」というものを作るのがすごく大変なんですよ。なので、こういう裏技を使ってPVまで作ってきたのですが、これがもっと楽になる方法を今日は説明していきたいと思います。
まずはSunoで音源と歌詞を準備する
まずSunoの方で音楽を作りましたら、当然このように歌詞が入った状態になっていると思います。この状態でまずは歌詞をコピーします。歌詞をコピーしますね。そしてここの右上の点々とかを押してもらうとダウンロードに進みます。MP3 Audioというのでダウンロードしますね。

MP3音源は無料プランでもダウンロード可能
今回はビデオではなくてMP3音源の方で大丈夫です。ビデオの方はProプランでなければダウンロードできないのですが、MP3の音源であれば無料プランの方も使えますね。これをダウンロードします。

2. ChatGPTやGeminiでは精度が出ない?──LRCファイル変換の試行錯誤
SRT・LRC・ASSファイルの違いを知ろう
さて、今度どうするかと言うと、これを変換しなければいけないのですが、ちょっと僕の試行錯誤をご覧いただきたいと思います。まずファイル形式にはSRTというものとLRCというものとASSというものがあるのですが、この違いをちょっと見せてみるとこんな感じですね。
一般的な字幕はSRTファイルというものを使って、「何分何秒から何分何秒までこれを表示していますよ」という形で出すのが普通の字幕なんですけど、音楽の場合はLRCファイルというものを使うそうなんですね。「何分何秒からこういう言葉を歌いますよ」という形で出てくるものなんですが、さらにASSファイルというのはもうちょっと高解像度のものを作ることができるというものになっています。音楽の場合はこの真ん中のLRCで十分だと思います。

ChatGPTに変換を頼んでみた結果
じゃあこれを例えばChatGPTにテキストファイルを入れて、「これをLRCファイルに変換して」と言うと、適当に「何分何秒からこれになります」と出してくれるのですが、当然AIは音を聞いているわけではないので適当なわけですよ。これではダメですよね。これは適当すぎますよね。
今度はMP3ファイルを添付しまして、「この内容からLRCファイルに変換して」と言ってみると、なんか一応音楽を聞いているっぽいのですが、これが違うんですよ。若干ずれているんですね。ということで精度がこれだとまだまだ低いんです。これを使って微調整を自分でやるのであればこれでもいいと思うのですが、ちょっとだけ精度が低い。
Geminiにも試してみたが……
じゃあ今度はGoogleのGeminiを使いまして、同じように音源ファイルを入れて「添付ファイルをLRCファイルに変換して」と言ってみると、同様にこのように出てくるのですが、最初に1分ぐらいしか出なくて、「それもっと長いよ」という風に聞いてみたら、「あ、失礼しました」ということで。ただこの内容を見ていると、「私AIはアップロードされた音声ファイルを人間のように聞いて、全体の尺やメロディの展開をミリ秒単位で正確に把握することはできません」と書いているので、なるほどGeminiには音を正確に読むことが今はできないんだということがこれで分かったんですね。

3. Google AI Studioが救世主!──高精度なLRCファイルを一発生成する方法
Google AI Studioなら音源を正確に聴き取れる
ChatGPTでもGeminiでも精度が出なかったので、今度はGoogleのAI Studioに行きました。これが一番最新のAIモデルが使えるので、Google AI Studioの方で今度はどうしたかという話をしたいと思います。
まず音声ファイルをここに添付しまして、「添付ファイルの曲の歌詞を聞いて、LRCファイル形式に変換して」と言うとですね、当然これをAIが曲を聴くわけですよね。聞いて、いわゆる文字起こしを「何分何秒ぐらいにこう歌ってるよ」とやるのですが、その時に聞き間違いというのがどうしてもあるわけですよ。なので、実は最初「パステル」という歌詞なのに、「愛音」という風に間違っていたりするんですね。他にもしかしたら間違っている部分があるかもしれません。
歌詞テキストも一緒に添付するのがコツ
ということなので、これをどうしたかと言うと、今度は歌詞も一緒に添付しました。「ちなみにこの歌詞ですので参考にしてください」ということで、歌詞を添付した状態で音声ファイルを添付して、「この添付した歌詞に対して、何分何秒から何分何秒でこの内容を歌っていますよ」という指示を与える形の変換に変えたわけですね。
そうするとこんな感じで、「13秒から15秒までこの歌詞ですよ」という形で出てくるわけです。この内容をコピーするわけですね。
実際にGoogle AI Studioで操作してみよう
では具体的にやっていきたいと思います。GoogleのAI Studioを開きまして、開いてもらったら一番下のところですね。ここに入れるわけなのですが、先ほどの歌詞ですね。歌詞の部分をまずここから持ってきます。コピーします。コピーしたらAI Studioのところにこれをそのまま添付で貼ります。
今度はさらに添付でパソコンの方からMP3ファイルをアップロードして添付します。添付しましたら、ここのところで指示を与えてみたいと思います。「以下の歌詞を歌っている音源を添付したので、音楽を聴いて」、そこでLRCファイル形式ですね、「これに変換して」という風に言います。「変換して」と。という形で指示を与えましたら、画面の下のところのRunボタンですね、これを押していきます。
約10秒で高精度なLRCデータが完成!
Runボタンを押しましたら、ちゃんと歌詞があるのでさっきのように聞き間違いにはならないでいいですね。今考えています。ということで、10秒、12秒ぐらい待つとできましたね。これがダーっと出てくるわけです。ちゃんと「何分何秒からこれ歌ってますよ」という形で入っていると思うんですね。そうするとさっきみたいにちゃんと反映したものができるという風になるわけです。

LRCファイルとして正しく保存する方法
この内容をコピーしてしまうとテキストファイルでコピーされてしまうので、例えばメモ帳かなんかに貼り付けるわけなのですが、そうするとメモ帳の種類にもよるのですが、今僕が使っているメモ帳ではこの下のところを見てもらうと分かるのですが、UTF-8という文字コードになっています。
このUTF-8という文字コードを使わないとできないので、このモードにしてもらいます。これでただ保存してしまうとテキストファイルで保存されてしまうので、保存する時に名前を付けて保存しますね。ここのところを.txtではなくて.lrcですね。.lrcという名前にしまして、これで保存します。そうするとこの形式になるのですが、最初のちょっといらないところを削除して、これで保存します。

4. CapCutで仕上げ──ローカルキャプションで歌詞を自動配置する手順
CapCutを開いて準備する
さて、ここからCapCutの出番ですね。CapCutを開きまして、今CapCutには僕が実際に作ったものがもう入っているのですが、ここには音源が下にずっと入っています。音源の下にずっと入っていて、それに合わせて上に映像がループする形でずっと入っています。だけど、ここに歌詞はまだ入っていない状態になっていますね。ここで歌詞を入れます。
「ローカルキャプション」からLRCファイルをインポートする
ここのところを見てもらうと分かるのですが、テキストのタブに進みます。普通皆さんが使うのはおそらく自動キャプションというもので、喋った内容の文字起こしに使うと思うのですが、AIがやってくれますよね。これではなくて、この1つ下のですね、ローカルキャプションというところに行きます。
ここに行きましたら、さっきのようにファイルをインポートというのがありますので、ここのところで今であれば「自動字幕対応」というファイル名、これは今作ったものなのですが、これをここにインポートで入れます。こんな感じで入れますね。

カーソルを最初に合わせてインポート
入れましたらこれを最初から始めなければいけないので、最初のところにカーソルを合わせていただいて、これでインポートします。そしてここに今こんな感じで入ったと思うのですが、そうすると長い部分とか短い部分とかありますよね。この長さでちゃんと入っているような気がしますよね。終わりも綺麗に、最後ちょっとはみ出している気がするけど、まあまあうまくいっているのではないかなと思います。

フォントやサイズを微調整する
じゃあこれで少し聞いてみたいと思うのですが、ここに字幕が入っているのですが、ちょっと字幕のフォントが白いと見づらいので、もうちょっと字幕の字を大きくしましょうか。これは小さいのでもうちょっと大きくしますね。大体入っているかな。あとちょっと微調整しますけど、一応これの横幅をもうちょっと広げたいのですが、後で直しましょうかね。ちょっと大きすぎですね。もうちょっと小さくていいかな。ちょっと後で微調整しますが、こんな感じでちょっと聞いてみたいと思います。
実際に再生して確認してみよう
ちょっとこれを拡大しますね。この辺でいいかな。ここで今歌詞が出ますので見ていただきたいのですが、ちょっとこれでご覧いただきたいと思います。流しますね。最初からいきますよ。
今歌詞が出ていますよね。「パステルの空」になりましたね。次行きますよ。変わりましたね。次行きますよ。「こんな世界」。こんな感じで完璧にできているのではないかなと思います。
自動キャプションでは歌詞の文字起こしはできない
なお、これを今のようにせずに普通に自動キャプションでやったらどうなるかという話なのですが、音源を入れた状態にして、この状態で自動キャプションで生成と押してみると、実はね、全然このくらいしか文字起こしできないんですね。だから全然この歌っている内容をAIが文字に起こすということはできないんですよ。なので、このモードだったら喋っているやつはできるのですが、歌う音源は全然できないんです。なので今のようなやり方をしないとできないので、だから今まではこのテキストを1個1個貼っていくという作業だったのですが、これはさすがに骨が折れます。しかし今みたいな形をしてもらうと自動で字幕を入れるということができるのではないかなと思います。
今日のポイントをまとめると
ちょっとまとめますけど、このGoogleのAI Studioを使って歌詞を元に音源からLRCファイルに変換してもらう、ここがミソですね。ちなみにChatGPTやGeminiではこの精度は出なかったということです。
CapCutに入れましたら、ローカルキャプションというのがテキストのところからありますので、そこを開いてもらって、テキストのところのローカルキャプション、ここに行ってもらって、先ほどのものをインポートすると。その時にはファイル形式が非常に重要なので、先ほど紹介したように、まず文字コードですね。文字コードがUTF-8の文字コードにしまして、テキストファイルではなくて.lrcという拡張子で保存すると。それをCapCutのテキスト、ローカルキャプションからインポートしましたら、それが歌詞の入った状態で曲に反映するという形になっていますので、ぜひ皆さんもやってみてください。
MVがこれで相当楽になると思いますので、僕もこれでやっていきたいのですが、それでも時間がないのでどうするかまだ迷っていますけど、ぜひ皆さんも使ってみましょう。
おわりに
今回は、AIで作った音楽に歌詞付きのミュージックビデオ(MV)を効率よく作成する方法をご紹介しました。ポイントは、Google AI Studioに「歌詞テキスト」と「MP3音源」の両方を添付して、LRCファイル形式に変換してもらうという点です。ChatGPTやGeminiでは音源のタイミングを正確に読み取ることが難しく、精度の高いLRCファイルを生成することができませんでしたが、Google AI Studioの最新モデルであれば約10秒ほどで高精度な変換が可能でした。生成されたLRCデータをメモ帳でUTF-8の文字コードで保存し、拡張子を.lrcに変更した上で、CapCutのローカルキャプション機能からインポートすれば、歌詞が自動的にタイムラインに配置されます。これまで1つ1つ手作業で歌詞テキストを貼り付けていた作業が一気に自動化できるようになりましたので、AI音楽を作っている方はぜひこの方法を試してみてください。MVづくりが格段に楽になるはずです。
よくある質問(Q&A)
Q1. Google AI Studioは無料で使えますか?
A1. はい、Google AI Studioは基本的に無料で利用することができます。Googleアカウントがあればアクセスできますので、追加の課金なしで今回紹介したLRCファイルの変換作業を行うことが可能です。
Q2. Sunoの無料プランでもこの方法は使えますか?
A2. はい、使えます。今回の方法ではMP3音源をダウンロードして使いますが、MP3のダウンロードはSunoの無料プランでも対応しています。ビデオのダウンロードにはProプランが必要ですが、音源だけであれば無料プランで問題ありません。
Q3. CapCutの自動キャプション機能では歌詞の文字起こしはできないのですか?
A3. できません。CapCutの自動キャプション機能は、話し言葉(スピーチ)の文字起こしには対応していますが、歌っている音源に対しては正確に文字起こしをすることができません。そのため、今回紹介したようにLRCファイルを別途作成し、ローカルキャプション機能からインポートするという方法が必要になります。
Q4. LRCファイルを保存する時に気をつけるポイントは何ですか?
A4. 2つの重要なポイントがあります。1つ目は文字コードをUTF-8にすることです。メモ帳の場合は保存時に文字コードを確認してください。2つ目はファイルの拡張子を.txtではなく.lrcにして保存することです。この2つを守らないとCapCutで正しく読み込むことができません。
Q5. ChatGPTやGeminiではなく、なぜGoogle AI Studioを使うのですか?
A5. ChatGPTにMP3ファイルを添付してLRC変換を試みると、タイミングにずれが生じて精度が低くなります。またGeminiに関しては、音声ファイルを人間のように聴いてミリ秒単位でタイミングを正確に把握することができないと明言しています。一方、Google AI Studioでは最新のAIモデルが使えるため、音源を正確に聴き取り、歌詞とのタイミングを高精度でマッチングしてくれます。そのため、現時点ではGoogle AI Studioが最も適しています。
詳しくは15分の動画で解説しました。
https://www.youtube.com/watch?v=U4Om631plIc
0:00 👋 導入・挨拶
0:20 🎵 Google AI Studioで歌詞をLRCファイルに変換しPVに字幕を付ける方法の概要
0:55 🎬 SUNOで作ったPVの現状と課題
1:31 📋 SUNOから歌詞コピーとMP3ダウンロード
2:08 📂 字幕ファイル形式の違い(SRT・LRC・ASS)
2:54 🤖 ChatGPTでLRC変換を試すも精度が低い
3:36 🔍 Geminiでも試すが音声の正確な把握は不可能
4:05 🧪 Google AI Studioで歌詞+音源を使いLRC変換に成功
5:23 💾 LRCファイルの保存方法(UTF-8・拡張子変更)
6:39 ✂️ CapCutでローカルキャプションからLRCをインポート
8:10 🔊 実際に再生して字幕の表示を確認・微調整
10:04 📝 具体的な手順をGoogle AI Studioから実演
12:20 ⚠️ CapCutの自動キャプションでは歌詞の文字起こしができない問題
13:26 📌 まとめ:手順の振り返りとポイント整理
14:41 🎤 締めの挨拶
上記の続きの動画はYouTubeメンバーシップの
デイリー会員(190円/月)に限定公開しています。
詳しくは以下をご覧ください。
https://yokotashurin.com/youtube/membership.html
YouTubeメンバーシップ申込こちら↓
https://www.youtube.com/channel/UCXHCC1WbbF3jPnL1JdRWWNA/join
Google AI Studioで歌詞をLRC形式⇒CapCutで自動字幕の方法

🎵 LRCファイル LRCとはLyricの略で、音楽の歌詞と再生時刻を紐づけた字幕ファイル形式です。「何分何秒からこの歌詞が始まる」という情報を記録しており、音楽プレーヤーやCapCutなどの動画編集ソフトで歌詞を自動表示させるために使われます。一般的な動画字幕に使うSRTファイルとは異なり、音楽専用に設計されています。
🧪 Google AI Studio Googleが提供するAI開発・実験用のWebプラットフォームで、最新のGeminiモデルを無料で利用できます。音声ファイルを直接アップロードして内容を解析できるのが特徴で、今回のようにMP3を聴かせて歌詞のタイミングを特定しLRCファイルに変換するといった高度な処理が可能です。
🎬 CapCut ByteDance社が提供する無料の動画編集ソフトです。自動キャプション機能やローカルキャプション機能を備えており、字幕ファイルをインポートして動画に歌詞テロップを配置できます。直感的な操作で本格的な動画編集ができるため、MV制作にも広く使われています。
📝 ローカルキャプション CapCut内のテキスト機能の一つで、外部で作成した字幕ファイル(LRC・SRTなど)をインポートして動画に反映させる機能です。自動キャプションがAIによる自動文字起こしなのに対し、ローカルキャプションはユーザーが用意したファイルをそのまま読み込むため、歌詞のような正確なテキストを配置するのに適しています。
🎤 Suno AIを使って楽曲を自動生成できるサービスです。テキストで指示を与えるだけでボーカル付きの音楽が作れ、歌詞付きのPV動画やMP3音源のダウンロードも可能です。無料プランでもMP3のダウンロードができるため、AI音楽制作の入門ツールとして人気があります。
🔤 UTF-8 世界中の文字を扱える文字コード(エンコーディング)の標準規格です。日本語の歌詞をLRCファイルとして保存する際、UTF-8を指定しないと文字化けが起きてCapCutで正しく読み込めません。メモ帳で保存する際に画面下部から文字コードを確認・変更できます。
📂 SRTファイル SubRip Subtitleの略で、動画の一般的な字幕形式です。開始時刻と終了時刻、表示テキストをセットで記述します。映画やYouTube動画の字幕に広く使われていますが、音楽の歌詞表示にはLRC形式の方が適しているため、今回の用途ではLRCが推奨されています。
🎥 MV(ミュージックビデオ) 楽曲に合わせた映像作品のことです。今回の手法では、Sunoで生成した音楽にショート動画素材と歌詞字幕を組み合わせて、横向き16:9のMVを作成しています。従来は歌詞を手動で一つずつ配置する必要がありましたが、LRCファイルの活用で制作工程が大幅に短縮されます。
🤖 自動キャプション CapCutに搭載されたAIによる音声文字起こし機能です。話し声の文字起こしには高い精度を発揮しますが、歌声の認識には対応しきれず、歌詞をほとんど正しく起こせません。そのため音楽用途ではローカルキャプションとLRCファイルの併用が必要になります。
🔁 ファイル形式変換 あるデータ形式を別の形式に変えることです。今回はテキストの歌詞とMP3音源をAI Studioに渡してLRC形式に変換し、さらにメモ帳で拡張子を.txtから.lrcに変更して保存するという二段階の変換を行っています。正しい形式で保存しないとCapCutが認識できないため、手順の理解が重要です。
超要約1分ショート動画コチラ↓
https://www.youtube.com/shorts/IZundlsM-80
Google AI Studioで歌詞をLRC形式⇒CapCutで自動字幕の方法












Google AI Studioを使ったLRC変換が音楽MV制作を変える理由
AI音楽制作で最大の壁だった「歌詞字幕の配置」問題とは
SunoなどのAI音楽生成ツールの普及によって、誰でも手軽にオリジナル楽曲を制作できる時代が到来しました。しかし、楽曲を作ったあとにミュージックビデオ(MV)を制作しようとすると、大きな壁にぶつかります。それが「歌詞字幕の配置」です。通常、MVに歌詞をシンクロさせて表示するには、楽曲を何度も聴きながら、何分何秒にどの歌詞が歌われているかを手作業で記録し、動画編集ソフト上で一つひとつテキストを貼り付けていく必要があります。この作業は3分の楽曲であっても1時間以上かかることが珍しくなく、AI音楽制作のスピード感を大きく損なう要因となっていました。特に個人クリエイターにとっては、楽曲制作よりもMV制作のほうが何倍も時間がかかるという本末転倒な状況が生まれていたのです。こうした課題を根本から解決するのが、Google AI Studioを活用したLRCファイル自動生成という手法です。AIが楽曲の音声を直接解析し、歌詞と時間軸を正確に紐づけることで、手作業では実現できなかったスピードと精度を両立させることが可能になりました。
ChatGPTやGeminiではなくGoogle AI Studioが最適な理由
歌詞と音源からLRCファイルを生成するという発想は多くのクリエイターが持っていますが、実際に試してみるとAIツールによって精度に大きな差があることが分かります。たとえばChatGPTにMP3ファイルと歌詞テキストを渡してLRC変換を依頼すると、一見それらしいタイムスタンプ付きの歌詞データが出力されます。しかし実際に楽曲と照合すると、タイミングが数秒単位でずれていることが多く、実用レベルには達しません。ChatGPTは音声ファイルを人間のように聴いて解析する能力が限定的であるため、タイムスタンプの精度が安定しないのです。同様に、GoogleのGeminiアプリで試した場合も、音声ファイルのアップロードには対応しているものの、ミリ秒単位での音声解析は現時点では難しいと公式に回答されるケースがあります。一方、Google AI Studioは開発者向けに最新のGeminiモデルを直接利用できるプラットフォームであり、音声ファイルの解析能力が格段に優れています。歌詞テキストと音源ファイルを同時に入力することで、AIが「この歌詞がいつ歌われているか」を高精度で判定し、実用レベルのLRCファイルを生成できるのです。
LRCファイルとは何か?字幕ファイル形式の基礎知識
SRT・LRC・ASSの違いと音楽MVに最適な形式
動画に字幕を表示するためのファイル形式にはいくつかの種類がありますが、代表的なものとしてSRT、LRC、ASSの3つが挙げられます。SRTファイルは最も一般的な字幕形式で、映画やYouTube動画のテロップに広く使用されています。開始時間と終了時間を指定し、その間に表示するテキストを記述するシンプルな構造が特徴です。LRCファイルは音楽の歌詞表示に特化した形式で、各行の歌詞に対して開始時間のみを記述します。音楽プレイヤーでカラオケのように歌詞をスクロール表示する際に使われるのがこの形式です。ASSファイルはより高度な字幕表現が可能な形式で、フォントの色やサイズ、表示位置、アニメーション効果まで細かく指定できます。音楽MVの歌詞字幕として使用する場合は、LRCファイルが最もバランスのとれた選択肢です。SRTほど冗長ではなく、ASSほど複雑でもないため、作成と編集が容易でありながら、CapCutなどの動画編集ソフトにもスムーズにインポートできます。
LRCファイルの構造と文字コードの注意点
LRCファイルの基本構造は非常にシンプルです。各行が「[mm:ss.xx]歌詞テキスト」という形式で記述されており、たとえば「[00:13.50]パステルの空が広がる」のように、何分何秒からその歌詞が始まるかを角括弧内に記述します。この形式により、音楽プレイヤーや動画編集ソフトは各行の歌詞をどのタイミングで表示すべきか正確に把握できるのです。LRCファイルを作成する際に特に注意が必要なのが文字コードの設定です。日本語の歌詞を扱う場合は必ずUTF-8エンコーディングで保存する必要があります。Windowsのメモ帳を使用する場合、画面下部に表示されるエンコーディング表示が「UTF-8」になっていることを確認しましょう。Shift-JISやANSIなどの文字コードで保存してしまうと、CapCutにインポートした際に文字化けが発生する原因になります。また、ファイルの拡張子を「.txt」ではなく「.lrc」に変更して保存することも重要なポイントです。メモ帳の「名前を付けて保存」ダイアログで、ファイル名の末尾を「.lrc」に手動で書き換えることで正しい形式のファイルが完成します。
Google AI StudioでLRCファイルを生成する具体的な手順
音源と歌詞を同時に入力して精度を最大化するプロンプト設計
Google AI StudioでLRCファイルを生成する際に最も重要なのが、音源ファイルと歌詞テキストの両方を同時に入力するという手順です。音源だけを入力した場合、AIは音声認識で歌詞を書き起こそうとしますが、歌唱中の発音は話し言葉とは異なるため、聞き間違いが頻繁に発生します。たとえば「パステル」が「愛音」と誤認識されるようなケースが実際に起こり得ます。この問題を回避するために、まずSunoなどの音楽生成ツールから歌詞テキストをコピーし、Google AI Studioのチャット欄に貼り付けます。次に、同じチャット内でMP3音源ファイルを添付します。そして「以下の歌詞を歌っている音源を添付したので、音楽を聴いてLRCファイル形式に変換してください」というプロンプトを入力し、Runボタンを押します。この方法により、AIは歌詞の内容を事前に把握した状態で音声を解析するため、聞き間違いが排除され、各歌詞行が何分何秒から開始されるかを正確に判定できるようになります。処理時間は楽曲の長さにもよりますが、概ね10〜15秒程度で完了します。
生成結果の確認とLRCファイルとしての保存方法
Google AI Studioがプロンプトを処理すると、チャット画面に「[00:10.20]最初の歌詞」「[00:13.50]二番目の歌詞」といった形式でLRCデータが出力されます。この出力結果を確認する際は、元の歌詞テキストと照合して、すべての歌詞行が漏れなく含まれているかをチェックしましょう。稀にAIが楽曲の間奏部分で歌詞の一部をスキップすることがあるためです。確認が完了したら、出力されたテキスト全体をコピーします。次にパソコンのメモ帳(Windows)またはテキストエディット(Mac)を開き、コピーした内容を貼り付けます。この際、AI Studioの出力にはLRCデータ以外の説明文が含まれていることがあるため、角括弧で始まるタイムスタンプ行のみを残し、それ以外のテキスト(たとえば「以下がLRCファイルの内容です」などの前置き文)は削除します。そして文字コードをUTF-8に設定した状態で「名前を付けて保存」を選び、ファイル名を「楽曲名.lrc」として保存すれば、CapCutにインポート可能なLRCファイルの完成です。
CapCutのローカルキャプション機能で歌詞字幕を配置する方法
CapCutに音源と映像を配置してMVの土台を作る
LRCファイルの準備ができたら、次はCapCutで動画編集の土台を構築します。まずCapCutを起動し、新規プロジェクトを作成します。最初にMVの映像素材をタイムラインにインポートしましょう。Sunoで生成した動画付き楽曲を使用する場合はそのままインポートできますが、音楽と映像を別々に用意している場合は、映像ファイルを先にタイムラインに配置し、その下のオーディオトラックにMP3音源を配置します。映像素材が楽曲よりも短い場合は、映像をループさせて楽曲全体をカバーするように調整します。具体的には映像クリップをコピー&ペーストで繰り返し配置し、音源の終了位置に合わせて余分な映像をカットします。MVのアスペクト比は一般的なYouTube向けであれば16:9を選択し、ショート動画向けであれば9:16を選択しましょう。映像と音源の位置が正しく配置できたら、歌詞字幕を入れる前の土台が完成です。
ローカルキャプションからLRCファイルをインポートする手順
CapCutに歌詞字幕を配置する際に使用するのが「ローカルキャプション」機能です。この機能は自動キャプション機能とは異なり、あらかじめ用意した字幕ファイルをそのまま読み込んでタイムラインに反映させるものです。操作手順としては、まずCapCutの編集画面上部にある「テキスト」タブをクリックします。すると「自動キャプション」と「ローカルキャプション」の2つのメニューが表示されるので、「ローカルキャプション」を選択してください。ここで注意すべきなのが、自動キャプション機能は音声を自動で文字起こしする機能であり、歌唱音声の認識精度は非常に低いという点です。実際にAI生成楽曲に対して自動キャプションを試みても、歌詞のごく一部しか認識されないケースがほとんどです。ローカルキャプション画面で「ファイルをインポート」ボタンをクリックし、先ほど保存した「.lrc」ファイルを選択します。インポートする前にタイムラインのカーソルを楽曲の冒頭に合わせておくことが重要です。インポートが完了すると、各歌詞行がタイムスタンプに従って自動的にタイムライン上に配置されます。
歌詞字幕のデザイン調整と仕上げのポイント
フォント・サイズ・カラーを調整して視認性を高める方法
LRCファイルのインポートが成功すると、タイムライン上に歌詞テキストが自動配置されますが、デフォルトの状態では文字が小さかったりフォントが地味だったりすることがあります。MVとしてのクオリティを高めるには、字幕のデザイン調整が欠かせません。まずテキストトラック上の字幕クリップをクリックして選択し、右側のテキスト編集パネルでフォントを変更します。日本語歌詞のMVでは、ゴシック系の太字フォントが視認性に優れていておすすめです。フォントサイズは映像の解像度やアスペクト比に応じて調整が必要ですが、フルHD(1920×1080)の場合は40〜60ポイント程度が目安となります。文字カラーについては、映像の背景色との対比を意識しましょう。暗い映像には白系の文字、明るい映像には黒やダークブルーの文字が効果的です。さらにテキストに縁取り(ストローク)やドロップシャドウを追加することで、どのような背景でも歌詞が読みやすくなります。CapCutでは「スタイル」タブからこれらのエフェクトを簡単に適用できます。
タイミングのズレを微調整して完成度を上げるコツ
Google AI Studioで生成したLRCファイルは高精度ですが、それでもコンマ数秒程度のタイミングのズレが生じることがあります。特にテンポの速い楽曲やラップ調のパートでは、歌詞の切り替わりが実際の歌唱タイミングとわずかにずれることがあるため、最終的な微調整は手動で行うことをお勧めします。CapCutのタイムライン上で各字幕クリップの左右の端をドラッグすることで、表示開始タイミングと表示終了タイミングを個別に調整できます。調整の際は楽曲を再生しながらリアルタイムで字幕の表示タイミングを確認し、歌い出しのタイミングと字幕の出現が一致するように合わせていきましょう。また、歌詞と歌詞の間に不自然な空白期間がある場合は、前の字幕の表示終了時間を延長するか、次の字幕の表示開始時間を前倒しにすることで滑らかな表示遷移を実現できます。すべての調整が完了したら、楽曲を最初から通して再生し、全体を通じて字幕の流れが自然であることを確認してからエクスポートに進みましょう。
まとめ|AI活用で音楽MV制作を劇的に効率化しよう
従来の手作業と比較した時間短縮効果
今回紹介したGoogle AI StudioとCapCutを組み合わせた歌詞字幕の自動配置ワークフローは、従来の手作業と比較して圧倒的な時間短縮を実現します。従来の方法では、3〜4分の楽曲に対して歌詞テキストを1行ずつ手動配置し、タイミングを調整する作業に1〜2時間以上を要していました。特に歌詞の行数が多い楽曲では、各テキストの開始位置と終了位置を一つひとつ設定する必要があり、集中力の持続も大きな課題でした。一方、今回の方法ではGoogle AI StudioでのLRC生成に約1分、ファイルの保存と整形に約5分、CapCutへのインポートに約1分、デザイン調整と微調整に約15〜20分と、トータルで30分以内にMVの歌詞字幕を完成させることが可能です。この時間短縮により、クリエイターは楽曲制作や映像演出といったよりクリエイティブな作業に時間を集中させることができ、MVの全体的なクオリティ向上にもつながります。AI音楽制作とAI字幕生成を組み合わせることで、個人クリエイターでもプロ品質のMVを短時間で量産できる時代が到来しているのです。
さらに発展させるための応用テクニックと今後の展望
Google AI StudioとCapCutの連携によるLRC歌詞字幕の自動配置は、基本的なMV制作だけでなくさまざまな応用が可能です。たとえば多言語の歌詞字幕を複数トラックに配置することで、日本語と英語の二言語字幕付きMVを制作できます。この場合、各言語のLRCファイルを別々に生成し、CapCutのタイムライン上で異なる位置(画面上部と下部など)に配置すれば実現可能です。また、歌詞字幕のスタイルをサビとAメロで変えるといった演出も、CapCut上で該当箇所の字幕クリップを個別にカスタマイズすることで実装できます。今後はAIの音声解析精度がさらに向上することで、LRCファイルの生成精度も高まっていくことが期待されます。現時点でもGoogle AI Studioは無料で利用でき、Sunoの無料プランでもMP3音源のダウンロードは可能であるため、コストをかけずに高品質なMV制作環境を構築できるのが大きな魅力です。ぜひこのワークフローを取り入れて、あなたの音楽クリエイション活動をさらに加速させてみてください。
#CapCutローカルキャプション #CapCut自動字幕 #横田秀珠 #CapCutセミナー #CapCutコンサルタント #CapCut講座 #CapCut講習 #CapCut講演 #CapCut講師 #CapCut研修 #CapCut勉強会 #CapCut講習会
















