OpenAI「Whisper」をベースにした新モデル「Whisper-Medusa」が登場
========

「Whisper-Medusa」は、OpenAIの高精度文字起こしツール「Whisper」をベースに開発された新しい音声認識モデル。

このモデルは、Whisperの精度を維持しながら、認識速度を大幅に向上させることを目的としています。

・マルチヘッドアテンションアーキテクチャ:
Whisper-Medusaは、Whisperに追加のアテンション・ヘッドを導入することで、一度に多くのトークンを予測する「マルチヘッドアテンション」アーキテクチャを採用しています。これにより、処理速度が大幅に向上します。

・速度の向上:
Whisper-Medusaは、ベースラインのWhisperモデルに比べて約50%高速です。具体的には、1つのテキストを1.9秒で処理するのに対し、ベースラインのWhisperは4秒かかります。

・精度の維持:
マルチヘッドアテンションアーキテクチャを採用しているにもかかわらず、Whisper-Medusaは精度をほとんど損なうことなく、文字誤り率(WER)の劣化が小さいままです。

・オープンソース:
Whisper-MedusaのコードとウェイトはMITライセンスの下でオープンソース化されており、誰でも利用可能です。

音声の書き起こしがめちゃくちゃ効率化されますね

 

 

 

人気の記事