今日は、久しぶりに「Gladia」(グラディア)を使って動画の文字起こしをしようと思ったのですが、サイトを開いてみたら、UI(画面のデザイン)がすっかり変わっていて、最初からつまずいてしまいました。
「Gladia」とは、AIを活用した高精度な文字起こしツールで、音声や動画ファイルを素早くテキスト化してくれるお役立ちツールです。
OpenAIの「Whisper」を基盤にしており、日本語を含む多言語に対応しています。
ただ「Gladia」は2024年〜2025年にかけて何度か大きなアップデートを行っており、2025年9月頃に音声モデルの変更とUIの刷新が行われたそうです。
そこで、あまりにも使い勝手が悪くなり、使い方がわからないユーザーが多いようで、X(旧Twitter)上でも次のような声が増えていました。
・「UIが変わって操作がわからなくなった」
・「以前は動画ファイルをポンとアップするだけで高精度
だったのに、今は認識がガタガタ」
・「APIキーの設定が必要になったっぽいけど、よくわからない」
・「無料枠でもモデルが変わって、前より正確じゃない」
しかも、どうも最近の「Gladia」では、MP4ファイルではうまく文字起こしができないケースが増えているようなのです。
私は昨年から使い始めましたが、その頃から10分以上の動画では文字起こしに失敗することが多かったため、あらかじめ8分くらいに動画を編集してから文字起こしをしていましたが、これは新しく変わった「Gladia」でも同じでした。
でも、新しい「Gladia」では最初から8分くらいにしていても失敗したため、これはおかしいと思って、Xの記事を参考にして、MP3にしてやってみました。
すると成功する確率が増えたのですが、MP3なら10分くらいの音声でも文字起こしできるかもと思ってやってみましたが、それでもやっぱりダメだったので、容量よりも音声の長さが関係しているのかなと思いました。
ただこれはあくまで私の環境でというだけなので、実際はどうかはわかりません。
ですが私の場合はMP3にすることで無事に文字起こしができたので、これが原因だったのかなと思いました。
ちなみに、まだネットではあまり新しい「Gladia」の使い方の記事がなかったため、メモ代わりとして残しておこうと思います。
■Gladia新バージョンでの文字起こし手順とエクスポート形式の違い■
「Gladia」の「非同期文字起こし(Async transcription)」を使って、動画ファイルから文字起こしを行う際の基本的な手順です。
【重要:事前準備】MP3への変換
スムーズなアップロードのために、動画ファイル(MP4など)から音声ファイル(MP3形式)を事前に書き出すことを推奨します。
MP4でエラーが出た場合は、動画編集ソフトや変換ツールで動画から音声(MP3形式)を書き出すことで解決できることがあります。
【ステップ1】ファイルのアップロードと設定画面の表示
「Gladia」にログインし、左メニューから
「Async transcription」(非同期文字起こし)を選択します。
画面中央のアップロードエリアに、MP3ファイルをドラッグ&ドロップするか、選択してアップロードを開始します。
進捗が100%になり、画面右下に赤いエラーメッセージが表示されていないことを確認します。
【ステップ2】文字起こしオプションの設定(最重要)
ファイルアップロード完了後、画面右側で以下の設定を必ず行います。
・Language(言語)
推奨設定:プルダウンから「Japanese」(日本語)を選択
目的:文字起こし精度を最大限に高めます。
・Diarization(話者分離)
推奨設定:ON
目的:複数の話者(会議など)を自動で区別し、
テキストに話者名(Speaker 0, Speaker 1など)を付けます。
・Enhanced punctuation(句読点)
推奨設定:ON
目的:より高度な句読点(、や。)を正確に挿入します。
【ステップ3】文字起こしの実行
設定を確認した後、画面右下の紫色のボタンをクリックします。
「Continue to transcription」(文字起こしに進む)を押すと、
画面が「Transcribing your file...」に切り替わり、処理が
開始されます。
【ステップ4】結果の確認とエクスポート
左メニューから「Transcriptions」(文字起こし)をクリックし、ファイルの状態を確認します。
ステータスが「Completed」(完了)になったファイル名をクリックして、結果画面を開きます。
画面右上の「Export」ボタンをクリックし、用途に合わせて以下のファイル形式のいずれかを選択してダウンロードします。
【エクスポートファイル形式の違い】
・Plain text (.txt)
特徴:タイムスタンプや話者情報を含まない最も
シンプルなテキスト
用途:議事録の素案やメモなど、純粋な文章として
使いたい場合に最適
・SRT (.srt)
特徴:タイムコードとテキストがセットになった
字幕ファイル形式
用途:動画編集ソフトで字幕(テロップ)を自動生成する
際に最適
・VTT (.vtt)
特徴:Webサイトでの表示に適した字幕ファイル形式
用途:HTML5動画プレイヤーなどで字幕を表示する際に使用
・JSON (.json)
特徴:タイムスタンプ、話者ID、言語検出結果など、
すべての詳細情報を含むデータ形式
用途:開発者やデータ解析を行う場合に最適
久しぶりにやる気を出して勉強のために文字起こしをしようと思いましたが、まさかの事態ですっかりやる気がなくなってしまいました。
ですが、MP3で短時間に編集したものを「Gladia」で文字起こししてみると、MP4でやるよりも容量が軽いおかげか短時間で文字起こしができるようになったので、私にはありがたかったです。
すっかり「Gladia」の使い方を調べるための作業に手間取ってしまって、まだ文字起こしの確認まではできていませんが、やっと「Gladia」のおかげで少し作業が進んだので、また夜から確認作業などを始めたいと思います。
最後までお読みいただき、ありがとうございました。