OpenAI「Whisper」をベースにした新モデル「Whisper-Medusa」が登場

OpenAI「Whisper」をベースにした新モデル「Whisper-Medusa」が登場
========

「Whisper-Medusa」は、OpenAIの高精度文字起こしツール「Whisper」をベースに開発された新しい音声認識モデル。

このモデルは、Whisperの精度を維持しながら、認識速度を大幅に向上させることを目的としています。

・マルチヘッドアテンションアーキテクチャ:
Whisper-Medusaは、Whisperに追加のアテンション・ヘッドを導入することで、一度に多くのトークンを予測する「マルチヘッドアテンション」アーキテクチャを採用しています。これにより、処理速度が大幅に向上します。

・速度の向上:
Whisper-Medusaは、ベースラインのWhisperモデルに比べて約50％高速です。具体的には、1つのテキストを1.9秒で処理するのに対し、ベースラインのWhisperは4秒かかります。

・精度の維持:
マルチヘッドアテンションアーキテクチャを採用しているにもかかわらず、Whisper-Medusaは精度をほとんど損なうことなく、文字誤り率（WER）の劣化が小さいままです。

・オープンソース:
Whisper-MedusaのコードとウェイトはMITライセンスの下でオープンソース化されており、誰でも利用可能です。

音声の書き起こしがめちゃくちゃ効率化されますね

『AI 100講座会員特設サイト無料招待キャンペーンやっています』ソルト(@saltygelicita）です。 70万円相当の【AI 100Tips/講座特設サイト】無料招待キャンペーンやっています申し込みは下の…

ameblo.jp

『OpenAIがハリウッドへ動画生成AI『SORA』を売り込み』 AI情報が３つ届くLINE オープンチャットグループと、2025年以降を幸せに生き抜くためのfacebookグループです。ご参加ください！オープンチャ…

ameblo.jp

『OpenAIが公開した動画生成AI「Sora」が凄すぎる』ソルト(@saltygelicita）です。 ChatGPTのOpenAIが、Text to Videoの動画生成AI「Sora」公開・60秒の動画を…

ameblo.jp