宇野ポテト

VRで「何聞いてるの？」と聞かれた話

昨日、ONWARDで遊んでたら、

「何聞いてるの？」って聞かれた。

例えば、

この音声が
「Quest2 のスピーカー」から「流れて」
「Quest2 のマイク」が「拾った」
「マイクが拾った」から、ゲームに「音声が流れた」

みたいに、同じことを繰り返して説明してる。

普通なら、

「いや、もうわかったよ」

ってなると思う。

でも、人によっては、

「どこから音が出て、どこで拾って、どう相手へ届いたか」

を順番に分けないと、途中でわからなくなることがある。

だから私は、あえて分解して話す。

私が聞いてたのは、翻訳というより「要約した音声」。

例えば翻訳って、

「愛してる」を翻訳してください
↓
「I love you」

みたいな感じ。

相手に「I love you」と伝える。

でも返事は、

「I love you too」

より、

「me too」

の方が多い。

「I love me too」になると、自分大好きな人になる。

聞き慣れた言葉なら、

「I love Japan」

みたいに、「I love」の後ろには国名とか固有名詞が入る。

つまり翻訳って、基本は一対一。

言葉を置き換えるだけ。

でも昨日、私が聞いてたのは少し違う。

部屋には10人いる。

全員が喋ってるわけじゃない。

スペイン語の少年もいる。
英語を話す人もいる。
私は日本語。

全員が英語なら、日本語へ置き換えるだけだから簡単。

でも現実の会話って、そんな単純じゃない。

人間には、

「聞きたくないと思えば聞こえなくなる」
「聞きたくないのに聞こえてしまう」

という、かなり曖昧な構造がある。

耳では聞こえてる。
でも、心で聞いてない。

そういう心理フィルターがある。

翻訳というより「要約した音声」というのは、例えるとこんな感じ。

1秒1音。

「あ」「い」「う」みたいな、ひらがな一文字が1音。

個人が発した言葉を、

「ワットアワモリマツヤニゴウカウケツケジケンユキユカシタホタルケーキ」

みたいに、10×10のマスへ書き加えていく。

そして、その表からタテヨコで単語を探す。

見つかった言葉は、

アワモリ
ワット
マツヤニ
ゴウカ
ウケツケ
ジケン
ユキ
ユカシタ
ホタル
ケーキ

そこから、

「この人たちは何の話をしてるんだろう？」

を考える。

A：？
B：？
C：？
D：？
E：？

答えは、

A：コ
B：ン
C：サ
D：ー
E：ト

つまり、

「コンサート」

私が昨日聞いてたのは、こんな感じ。

「この人たちはコンサートの話をしています」

という内容を、要約した音声で聞いてた。

その音声が Quest2 のスピーカーから流れて、Quest2 のマイクが拾った。

マイクが拾ったから、ゲーム内へ音声が流れた。

たまに、

「ワードが見つかりませんでした。違う言葉を使ってください」

と言うのも同じ。

言葉は聞こえた。
でも意味の形まで繋がらなかったんだと思う。

ただ、これは機械がやってるから私は認めてる。

人がやったら嫌い。

私は昔から、いわゆる「告げ口」が嫌い。

「誰々さんが、あなたの事“嫌い”って言ってたよ」

いや、お前に聞かされたくないわ。

本人に直接言って来いって伝えとけ。

これが私のリアル。

でもVRは少し違う。

VRの世界。
VRの空間。
VRの私は、世界とつながる。

それがテーマ。

現実なら「ツゲ口太郎」でも、VRでは「ようやく小太郎」。

小太郎がいるから、言葉の違う相手とも話ができる。

英語を勉強したことある人なら、なんとなくわかると思う。

単語は知ってる。
知識もある。

でも発音に自信がない。

相手がアメリカ人だと緊張する。

すると、人は相手の言葉へ合わせようとする。

でも、それをやりすぎると、自分が相手に持っていかれる。

だから私は、日本語と翻訳後の音声を両方流してる。

日本語で感情を伝える。
翻訳音声で意味を伝える。

例えば外国でトラブルになった時。

スリとか盗難とか。

（追いかけたらダメだよ）

片言の現地語だけで話すと、舐められることがある。

でも日本語、それも関西弁で怒鳴ると、意味が全部わからなくても、勢いや迫力で相手は委縮する。

笑えば和む。
怒鳴れば緊張する。

これは、どの国でもだいたい同じ。

言葉だけが通信じゃない。

感情も通信なんだと思う。

Google翻訳や、Windowsの言語パックをダウンロードするというのは、

「ようやく小太郎」に辞書をあげるのと同じ。

毎回ネットで言葉を調べるより、辞書を渡して覚えさせた方が話が速い。

最後だけ少し仕事の話。

私は通信業なので、技術的に見ると面白い。

複数人同時音声翻訳って、

「混ざった通信の中から、意味を復元している」

感じに近い。

もちろん、攻撃とか解析の話ではない。

でも通信の世界には、

暗号化
辞書
パケット
復元

みたいな考え方がある。

言葉も通信。

複数人の会話は、ある意味「暗号化された空気」みたいなもの。

そこから意味を拾い、要約している。

だから私は、

「翻訳」というより、
「空間を理解する補助」

として見てる。

この友達には、こういう技術的な話を書いても理解できないと思う。

だから実際には、もっと簡単に説明した。

でも、VRで世界とつながるって、こういう事なんだと思う。