神経科学:音声を作る神経機能代替技術に向けて少し前進 | Just One of Those Things

Just One of Those Things

Let's call the whole thing off

前回に引き続き、2019年度のネイチャー17号目のハイライトより。

 

今回は「神経科学:音声を作る神経機能代替技術に向けて少し前進」についてです。

 

----------------------------------------------------------
神経科学:音声を作る神経機能代替技術に向けて少し前進
Nature 568, 7753
2019年4月25日


脳の聴覚信号から耳で聴いた音声を解読する技術は、アルゴリズムと電気生理学測定技術の向上とともに進歩してきた。しかし、言葉で意思を伝えられない人が話そうと意図した文章を解読することは、まだできていない。しかし今回、E Changたちは、大脳皮質の直接記録を声道の運動に変換し、その後、それを聴こえる音声に変換できるアルゴリズムを報告している。この過程にはまだ誤りもあり、文章も単純だが、これらの知見は、音声機能代替技術の将来の改良に向けた基盤を築くものである。


NEWS & VIEWS p.466
ARTICLE p.493
----------------------------------------------------------
 

 

この論文は、ネイチャーのニュースにも取り上げられました。

 

日本語版本誌では、「神経科学:思っていることを音声にする脳インプラント」と題されました。

 

見出しにおいては、「今回、唇、舌、喉頭、顎の動きを制御する神経信号を用いて音声を合成する脳–コンピューターインターフェースデバイスが実現された。これは、話すことができない人の発話機能を回復させる足掛かりになる可能性がある。」と取り上げられました。

 

フルテキストを直訳しますと・・・

 

あなたがあなたの心を話すことを可能にする脳インプラント
 

となります。

 

見出しを直訳しますと・・・

 

ブレイン・コンピューター・インターフェース・デバイスは、唇、舌、喉頭、顎の動きを制御する神経信号を使用して音声を合成し、話すことができない個人の音声機能を回復するための足がかりになる可能性があります。
 

となります。

 

本文を直訳しますと・・・

 

話すことは楽な活動のように思えるかもしれませんが、それは私たちが実行する最も複雑な行動の1つです。それには、声道の関節構造(唇、舌、喉頭、顎)の筋肉の正確で動的な調整が必要です。脳卒中、筋萎縮性側索硬化症、またはその他の神経障害の結果として発話が途絶えると、コミュニケーション能力の喪失は壊滅的なものになる可能性があります。 Natureの論文で、Anumanchipalli et al.[1]は、音声機能を回復できるブレイン・コンピューター・インターフェース(BCI)に私たちを近づけています。

ブレイン・コンピューター・インターフェースは、脳から直接意図を「読み取り」、その情報を使用して外部デバイスを制御したり、麻痺した手足を動かしたりすることで、麻痺のある人を支援することを目的としています。コミュニケーションのためのBCIの開発は、主に脳制御タイピング[2]に焦点を合わせており、麻痺のある人は1分あたり最大8語を入力できます[3]。このレベルの機能を回復すると、深刻なコミュニケーション障害を持つ人々の生活が変わる可能性がありますが、タイピングベースのBCIは、平均して1分あたり約150語の自然な音声の流動的なコミュニケーションを実現する可能性は低いです。 Anumanchipalli etal。ディープラーニング手法を使用して、脳の信号から口頭文を生成するアプローチを開発しました。

研究者たちは、てんかんの治療の一環として電極を使用して脳の活動を監視する頭蓋内モニタリングと呼ばれる手順を受けていた5人のボランティアと協力しました。著者らは、高密度皮質脳波検査と呼ばれる手法を使用して、ボランティアが数百の文を話しているときに、発話と咬合器の動きを制御する脳の領域の活動を追跡しました。脳信号を直接音声信号に変換するのではなく、音声を再構築するために、Anumanchipalli etal。最初に神経信号を声道調音器の動きの表現に変換し、次にデコードされた動きを話し言葉に変換する2段階のデコードアプローチを使用しました(図1)。これらの変換は両方とも、リカレントニューラルネットワークを使用しました。これは、複雑な時間構造を持つデータの処理と変換に特に効果的な一種の人工ニューラルネットワークです。

てんかんのある病院で働く場合、これらの動きを直接測定することは困難であるため、脳信号が声道調音器の動きにどのように関連しているかを学ぶことは困難でした。代わりに、著者は以前に開発したモデルからの情報を使用しました[4]。このモデルは、人工ニューラルネットワークを使用して、録音された音声をそれを生成した声道調音器の動きに変換します。このモデルは主題固有ではありません。むしろ、以前の研究参加者から収集されたデータの大規模なライブラリを使用して構築されました[4]。録音された音声から声道の動きを推定するモデルを含めることにより、著者は、動き自体を直接測定することなく、脳の活動を声道の動きにマッピングすることができました。

いくつかの研究では、深層学習法を使用して、脳信号から音声信号を再構築しています(たとえば、参考文献5、6を参照)。これらには、スピーチを制御する脳領域から直接話された単語(主に単音節)を合成するためにニューラルネットワークが使用されたエキサイティングなBCIアプローチが含まれます[6]。対照的に、Anumanchipalliらは、デコードアプローチを2つの段階(1つは声道調音器の動きをデコードし、もう1つは音声を合成する)に分割し、音声関連の脳領域での活動が動きにより密接に対応するという以前の観察に基づいています。スピーチ中に生成される音響信号よりも声道調音器の[4]。

著者の2段階のアプローチでは、音響特性の直接デコードで発生するよりも著しく少ない音響歪みが得られました。多種多様な音声条件にまたがる大規模なデータセットが利用可能である場合、直接合成はおそらく2段階のデコードアプローチに匹敵するか、それを上回ります。ただし、実際に存在するデータセットの制限を考えると、デコードの中間段階があると、声道調音器の通常の運動機能に関する情報がモデルに取り込まれ、評価する必要のあるニューラルネットワークモデルの可能なパラメータが制約されます。 。このアプローチにより、ニューラルネットワークはより高いパフォーマンスを実現できたようです。最終的には、通常の運動機能を反映した「生体模倣」アプローチが、自然な発話に典型的な高速で高精度のコミュニケーションを再現する上で重要な役割を果たす可能性があります。

研究間で意味のある比較を可能にする堅牢なメトリックの開発と採用は、音声BCIの初期の分野を含むBCI研究における課題です。たとえば、元の音声を再構築する際のエラーなどの指標は、BCIの機能的パフォーマンスとほとんど対応していない可能性があります。つまり、聞き手が合成された音声を理解できるかどうかです。この問題に対処するために、Anumanchipalli等。音声工学の分野から取られた、人間の聴取者のための音声了解度の簡単に複製可能な尺度を開発しました。研究者はクラウドソーシングマーケットプレイスのAmazonMechanical Turkでユーザーを募集し、合成音声から単語や文を特定するように依頼しました。再構成エラーや以前に使用された自動了解度測定[6]とは異なり、このアプローチは、元の話し言葉と比較する必要なしに、人間の聴取者に対する音声の了解度を直接測定します。

Anumanchipalliと同僚の結果は、音声再構成の精度と、生成された単語や文を分類するリスナーの能力の両方の観点から、音声合成BCIの説得力のある概念実証を提供します。ただし、臨床的に実行可能な音声BCIへの道には多くの課題が残っています。再構成された音声の了解度は、自然な音声の了解度よりもはるかに低かった。より大きなデータセットを収集し、基礎となる計算アプローチを開発し続けることによってBCIをさらに改善できるかどうかはまだ分からない。皮質脳波検査で記録されたものよりも局所的な脳活動を記録する神経インターフェースを使用することにより、さらなる改善が得られる可能性があります。たとえば、皮質内微小電極アレイは、一般に、BCI研究の他の分野で皮質脳波検査よりも高い性能をもたらしました[3,7]。

音声デコードの現在のすべてのアプローチのもう1つの制限は、発声された音声を使用してデコーダーをトレーニングする必要があることです。したがって、これらのアプローチに基づくBCIは、話すことができない人々に直接適用することはできませんでした。しかし、Anumanchipalliらは、音声のデコードの精度は大幅に低下しましたが、ボランティアが音声を出さずに音声を模倣した場合でも、音声合成が可能であることを示しました。音声関連の動きを生成できなくなった個人が音声合成BCIを使用できるかどうかは、今後の研究の課題です。特に、健康な動物の腕と手の動きを制御するためのBCIの最初の概念実証研究の開発後、麻痺のある人々におけるそのようなBCIの適用可能性について同様の質問が提起されました。その後の臨床試験では、これらのBCIを使用して、迅速なコミュニケーション、ロボットアームの制御、および麻痺した手足の感覚と動きの回復が説得力を持って実証されています[8,9]。

人間の音声生成を動物で直接研究することはできないことを考えると、過去10年間のこの研究分野の急速な進歩は、音声関連の脳領域の組織を調査した画期的な臨床研究[10]から概念実証音声合成BCI6までです。本当に注目に値する。これらの成果は、脳神経外科医、神経科医、エンジニア、神経科学者、臨床スタッフ、言語学者、コンピューター科学者を組み合わせた学際的な共同チームの力の証です。最新の結果は、神経科学や神経工学に広く応用されているディープラーニングや人工ニューラルネットワークの出現なしには不可能だったでしょう[11–13]。

最後に、話すことができない個人における音声合成のこれらの説得力のある概念実証のデモンストレーションは、上肢麻痺のある人々のBCIの急速な進歩と相まって、言語障害のある人々を含む臨床研究を強く検討する必要があると主張しています。継続的な進歩により、言語障害のある人が自由に心を話し、周囲の世界と再びつながる能力を取り戻すことを期待できます。
 

となります。

 

フルテキストは下記です。

Full Text:NEWS & VIEWS p.466

Brain implants that let you speak your mind

 

 

本論文においては、日本語版本誌では、「神経科学:話された文章の神経表現を解読して音声を合成する」と題されています。

 

フルテキストを直訳しますと・・・

 

話された文の神経解読からの音声合成

 

となり、Abstractを直訳しますと・・・

 

神経活動を音声に変換するテクノロジーは、神経障害の結果としてコミュニケーションをとることができない人々にとって変革をもたらすでしょう。話すには声道調音器の非常に正確で迅速な多次元制御が必要であるため、神経活動から音声を解読することは困難です。ここでは、人間の皮質活動にエンコードされた運動学的表現と音声表現を明示的に活用して可聴音声を合成する神経デコーダーを設計しました。リカレントニューラルネットワークは、最初に直接記録された皮質活動を調音運動の表現にデコードし、次にこれらの表現を音声音響に変換しました。クローズドボキャブラリーテストでは、リスナーは皮質活動から合成された音声を簡単に識別して転写することができました。中間調音ダイナミクスは、限られたデータでもパフォーマンスを向上させました。デコードされた調音表現はスピーカー間で高度に保存されており、デコーダーのコンポーネントを参加者間で転送できるようになりました。さらに、参加者が黙って文章を模倣したときに、デコーダーは音声を合成することができます。これらの調査結果は、音声コミュニケーションを復元するために音声神経補綴技術を使用することの臨床的実行可能性を前進させます。
 

となります。

 

フルテキストは下記です。詳細が必要な方はご購入をお願いいたします。

Full Text:ARTICLE p.493

Speech synthesis from neural decoding of spoken sentences

 

Data availabilityによりますと・・・

 

この研究の結果を裏付けるデータは、リクエストに応じて対応する著者から入手できます。
 

Code availabilityによりますと・・・

 

すべてのコードは、対応する作成者に連絡することにより、非営利目的で自由に入手できます。
 

 

究極に溜まりにためりまくっているネイチャー。次回は、「微生物学:ヒト腸内微生物相の構成をこれまでにない分解能で明らかにする」を取り上げます。

 

 

≪natureの論文より≫
コロナウイルス:SARS-CoV-2スパイク変異株はウイルス複製を増強する
コロナウイルス:慢性COVID-19患者におけるSARS-CoV-2の進化
コロナウイルス:バイオンテック社/ファイザー社製ワクチン候補BNT162b1とBNT162b2の前臨床開発
コロナウイルス:南アフリカでのSARS-CoV-2変異株のゲノム疫学

コロナウイルス:モデルナ社製とファイザー社製のSARS-CoV-2 mRNAワクチンによって誘導される抗体応答の解析

コロナウイルス:SARS-CoV-2の現在拡散中で懸念されている変異株に対する中和活性

コロナウイルス:BNT162b2ワクチンによって誘発されたSARS-CoV-2中和抗体に対するB.1.1.7変異株の感受性

コロナウイルス:回復期血漿を用いたSARS-CoV-2変異株の交差中和

コロナウイルス:SARS-CoV-2の新しい変異株に関連した死亡リスクの上昇

コロナウイルス:安価なハンセン病薬がSARS-CoV-2に対する広域スペクトルの抗ウイルス薬となる

コロナウイルス:SARS-CoV-2に対するヒト由来のIgG様二重特異性抗体

コロナウイルス:COVID-19の肺の地図

コロナウイルス:SARS-CoV-2スパイクを介した細胞間融合に関わる機構

コロナウイルス:SARS-CoV-2が宿主の遺伝子発現を遮断する仕組み

コロナウイルス:SARS-CoV-2感染のマルチオミクス像

コロナウイルス:アジュバントによるワクチンの増強

コロナウイルス:COVID-19の長く残る症状を詳しく描写

コロナウイルス:デジタル接触追跡の効果

コロナウイルス:多量体フェリチンナノ粒子ベースの汎ベータコロナウイルスワクチンの候補の開発

コロナウイルス:単一細胞レベルで見たCOVID-19

 

 

ここで、ips細胞の生みの親の山中伸弥教授のお願いです。

再生医療の普及に挑戦する「iPS財団」に継続的なご支援を

 

続きましては、熱海の土砂災害に関連するご支援の依頼です。

【熱海土石流災害】

 

 

※体調を確保しながらなので、更新等が滞ることもあるかと思いますので、申し訳ないと思っております。主治医の指示に従っておりますので、ご安心くださいませ。まずは取り急ぎに取り上げます。

政宗(いぬのきもち・ねこのきもちのデータベース)つついては、体調をみながら随時、最終更新日から取り上げています。癒し&知識の増強にお役立てくださいませ。

 

※ここ数日、体調維持が出来ずに休んでおり、ほとんどブログ活動ができておらず、巡回等もほとんどできておらず申し訳ございません。取り急ぎの取り上げです。

 

※感染拡大地に住んでいる母のワクチン接種がお流れになっていた

第1回目のワクチンを無事終了しました。2回目接種、安定まで、気の抜けない対処となりましたので、ブログ活動が停滞することもあるかもですが、頑張っているところです(-_-;)

 

※梅雨入りしてから体調が思わしくないので、休むことが多いですが、取り急ぎ取り上げさせていただきました。申し訳ないです。

 

※県では高齢者以下の接種や職域接種が進んでいますが、私が住んでいる市は高齢者以外はまだ接種券を発送されていないので、発送されてくるのを待機待ちしています。父の夫婦墓の引き渡しに父の遺骨も埋葬、いつになるのか、現在のところ未定です。

 

※我が家のニャンコが元気ですが、蚊のアレルギーによる治療でやっと診察時間と重なり、本日夕方からの受診することが無事完了しました。後は様子見です。状況によっては、またブログ活動がと土光ることになると思います。申し訳ありません。