OpenAI「Whisper」をベースにした新モデル「Whisper-Medusa」が登場
========
「Whisper-Medusa」は、OpenAIの高精度文字起こしツール「Whisper」をベースに開発された新しい音声認識モデル。
このモデルは、Whisperの精度を維持しながら、認識速度を大幅に向上させることを目的としています。
・マルチヘッドアテンションアーキテクチャ:
Whisper-Medusaは、Whisperに追加のアテンション・ヘッドを導入することで、一度に多くのトークンを予測する「マルチヘッドアテンション」アーキテクチャを採用しています。これにより、処理速度が大幅に向上します。
・速度の向上:
Whisper-Medusaは、ベースラインのWhisperモデルに比べて約50%高速です。具体的には、1つのテキストを1.9秒で処理するのに対し、ベースラインのWhisperは4秒かかります。
・精度の維持:
マルチヘッドアテンションアーキテクチャを採用しているにもかかわらず、Whisper-Medusaは精度をほとんど損なうことなく、文字誤り率(WER)の劣化が小さいままです。
・オープンソース:
Whisper-MedusaのコードとウェイトはMITライセンスの下でオープンソース化されており、誰でも利用可能です。
音声の書き起こしがめちゃくちゃ効率化されますね
人気の記事