TransPocket
TransPocket は、動画や音声ファイルを素早くテキストに変換する無料のオンラインツールです。主に OpenAI の Whisper モデルをコア AI 技術として使用しており、有料サブスクリプションなしで利用でき、隠れた費用は一切ありません。さらに、YouTube 動画の URL を貼り付けるだけで、直接文字起こしに変換できます。全体的に速度が速く、精度が非常に高く、10以上の言語をサポートしています。
TransPocket を使用する前に、アカウントを登録する(無料)か、Google アカウントでログインする必要があります。中国語を含む複数の言語インターフェースが内蔵されています。注意点として、このサービスは1日あたり120分の変換量のみを提供しており、それを超えると翌日まで待つ必要があります。現在、有料アップグレードのオプションはまだありません。
このサービスは、文字起こしが必要な作業者に特に適しています。授業内容の録音を文字起こしに変換したり、会議中に録音したものをテキスト出力したりするのに非常に便利です。文字起こし関連の補助ツールが必要な場合は、「無料文字起こしソフト:録音ファイル・音声をテキストに変換する10のツール推薦」で紹介されているサービスも参考にしてください。
TransPocket が認識できるファイル形式には、MP3、M4A、WAV、AAC、FLAC、OGG、WMA、MP4、AMR、WebM、AIFF、CAF などがあり、リアルタイム音声録音、YouTube 動画のインポート、翻訳機能も備えています。このサービスの認識精度は非常に高く(説明によると平均エラー文字数は5.8%)、変換後は DOCX、CSV、SRT、VTT などの形式でエクスポートできます。興味のある方は試してみてください。
サイト情報
サイト名:TransPocketAI
サイトリンク:https://transpocket.com/
使用チュートリアル
TransPocket サイトにアクセス
TransPocket にアクセスすると、サイトのホームページから特徴や機能の紹介を確認できます。このサービスの背後で使用されている AI 技術は OpenAI Whisper モデルです。「Start Free」をクリックして使用を開始します。
アカウント登録またはログイン
使用前にアカウントを登録する(無料)必要があります。Google アカウントでログインすることもできます。

コントロールパネルの機能を理解する
ログイン後、TransPocket のコントロールパネルが表示されます。右上には音声録音、アップロード、インポートの3つの主要なインポート方法があります。左下には本日の使用量が表示され、1人あたり1日120分の認識時間を使用できます。それを超えると、翌日のリセットを待つ必要があります。

ファイルをアップロードして文字起こし
まず「アップロード」機能から始めましょう!クリックすると、ドラッグ&ドロップやファイルアップロードのフィールドが表示されます。MP3、MP4、WAV、M4A などの形式をサポートしており、動画や音声の両方を認識できます。デフォルトでは Turbo 文字起こしモデルが使用され、速度が速く、ほとんどのシナリオに適しています。より正確な認識モデルが必要な場合は Large-v3 を選択できます。処理速度は少し遅くなりますが、精度がより高くなります。
文字起こし前に、ターゲット言語と話者数を選択します。アップロードしたコンテンツが中国語でない場合、TransPocket を使用して認識されたテキストコンテンツを中国語に翻訳することもできます。この部分は非常に便利で、手動翻訳の時間を節約できます。

転写する音声の話者数がわかっている場合は、認識前に選択できます。TransPocket は自動的に異なる人の声を認識します。もちろん「自動検出」を選択することもできますが、それほど正確ではなく、時には同じ人の声を異なる人として誤ってマークすることもあります。
ファイルのアップロードが完了したら、右下の「文字起こし開始」をクリックすると処理が開始されます。

文字起こし結果を確認
TransPocket の文字起こし速度は非常に速く、ステータスが「完了」と表示されたら、ファイル名をクリックすると結果が表示されます。
認識後に簡体字中国語で表示される場合は、Google 翻訳やその他の翻訳ツールを使用して繁体字中国語に変換できます。
文字起こしには各話者の番号、タイムスタンプ、テキストコンテンツが含まれ、クリックすると特定の段落に素早くジャンプできます。

YouTube から動画をインポート
次に、TransPocket の YouTube 動画インポート機能をテストしてみましょう。コントロールパネルのホームページで「インポート」をクリックすると画面が表示されます。動画のリンクをコピーして貼り付けます。動画は公開権限である必要があることに注意してください。同様に、文字起こしモデル、言語、話者数を選択できます。
インポートプロセスは、TransPocket コントロールパネルのホームページで進捗を確認できます。完了後、ファイル名をクリックすると内容を確認できます。
実際、TransPocket が素早く認識した内容は必ずしも100%正確ではありません。よく見ると、まだいくつかの問題があり、一部の段落には句読点が含まれていないため、手動で校正する必要があります。ただし、最初から最後まで自分で文字起こしをするよりも、はるかに時間を節約できます。
文字起こし結果をエクスポート
最後に、右上の「エクスポート」からテキストコンテンツを DOCX、TXT、CSV、SRT、または VTT 形式で保存できます。
私の感想
TransPocket は OpenAI Whisper AI モデルを通じて、音声認識をより速く、より正確にします。会議の録音をテキストに変換したり、YouTube 動画の文字起こしを生成したりするのが非常に簡単です!また、多くの時間を節約できます。結果の部分ではまだ校正に時間をかける必要がありますが、認識速度と精度はすでに評価に値し、無料で使用できるため、ぜひ試してみることをお勧めします。