UnoPoteto翻訳

― ゲームを壊さない翻訳の設計思想と検証記録

  1. はじめに(目的の明示):
  2. 大前提:規約と設計倫理について:
  3. 翻訳は「暗号」に見えるという話:
  4. 環境について:やらないことを決める:
  5. 音声経路について:
  6. なぜ歌って検証しているのか:
  7. 同時発話の誤解:
  8. UnoPoteto翻訳の核心:
  9. まとめ:

0. はじめに(目的の明示)

このドキュメント/動画は
翻訳精度を比較・評価するものではありません。

本資料の目的は次の3点です。

  • 同時会話を翻訳するとはどういうことか
  • ゲーム体験を第一優先にした翻訳設計とは何か
  • なぜ「やらないこと」を先に決めているのか

以降、
DeepL vs Google
翻訳精度ランキング
といった話は扱いません。


1. 大前提:規約と設計倫理について

1.1 結論から

Quest本体の内部経路には、システムとして絶対に入りません。

これは

  • 技術的に出来る/出来ない
  • 工夫すれば可能かどうか

の話ではありません。

設計として「やらない」と決めていることです。


1.2 規約についての立場

  • ゲーム内で翻訳を使うこと
  • 音声を翻訳して出力すること
  • 翻訳した音声・文字をプレイヤーが聞く/見ること

これらは 利用規約違反ではありません

私は

  • 利用規約を読んだ上で
  • 規約に反しない範囲で
  • やって良いことだけをやっています。

もし違反だと判断されるなら
それは 運営・プラットフォームが判断することです。

ユーザーがやるべきことは
規約を読み、守ることだけです。


1.3 なぜ「入ってはいけない領域」なのか

Quest内部の音声・処理経路は:

  • ゲーム体験の責任主体
  • 想定された負荷と挙動
  • 不具合時の切り分け境界

これらが 明確に定義された領域です。

そこに翻訳・実験・検証を
システムとして割り込ませることは、

  • ゲーム体験を壊す可能性
  • 責任境界を曖昧にする
  • 機器に想定外の負担をかける

だから私は 最初から近づきません

違反しないようにしているのではない
入ってはいけない場所に
最初から入っていない

これが立場です。


2. 翻訳は「暗号」に見えるという話

同時発話を翻訳する側から見ると:

  • 誰の声かわからない
  • 順番が壊れている
  • 文脈がまだ存在しない

つまり
そのままでは読めない情報です。

これは
暗号を解析して復号する感覚に近い。


2.1 パリティビットという言葉について

パリティビットという言葉の
意味を理解する必要はありません

この言葉は:

  • 機器が「これ以上は無理」と言っている声
  • 負担や限界を知らせる目印
  • 思いやりを持って設計するための合図

知ろうとする姿勢そのものが大切だと思っています。


3. 環境について:やらないことを決める

3.1 単体構成を選ばない理由

理論上:

  • 単体で完結させることは可能かもしれない

しかし私は:

  • Quest内部にシステムを入れない
  • 翻訳は外部に逃がす
  • 人間側で完結させる

という設計を選びます。

理由は単純です。

混ぜると
どっちも壊れる


3.2 リアルタイム翻訳の形

英和・和英 共通

  • 音声入力 → 翻訳 → 音声出力
  • 音声入力 → 翻訳 → 文字出力
  • 音声入力 → 翻訳 → 音声+文字出力

PTT入力中の音声は
ゲームには流しません


3.3 個別翻訳(ロビー想定)

  • 相手に音声を聞かせる
  • 「翻訳アプリ使ってるな」と分かってもらう
  • 会話の心理的ハードルを下げる

※ 現時点では
PTT制御は設計に含めていません。


4. 音声経路について

4.1 Questを使う/使わない

  • 単体起動は物理的にマイク割り込みが必要
  • 骨伝導・耳掛けスピーカーなどは
    人間側の工夫

英和音声出力は:

  • 指向性不要
  • LR不要
  • スマホスピーカーで十分

5. なぜ歌って検証しているのか

5.1 理由

  • 同じテンポ
  • 同じ歌詞
  • 再現性が高い
  • 日本語/英語が混在

朗読は:

  • 面白くない
  • 続かない
  • 検証にならない

5.2 音程と感情について

  • 音程は精度に関係ない
  • 精度は 1音のリズム
  • 感情をメロディに乗せると
    翻訳精度は落ちる

不必要なのは:

  • 言葉を伸ばすこと
  • メロディに引っ張られる感情

5.3 検証に使った楽曲

  • スモーキーラガ
  • 青春
  • 胸がドキドキ
  • Tears
  • WEEK END
  • Joker

6. 同時発話の誤解

「同時」とは
100m走のスタートではありません。

会話の同時性とは:

  • 誰かの話を軸に
  • 被りながら
  • 議論が進むこと

7. UnoPoteto翻訳の核心

7.1 Poteto翻訳とUnoPoteto翻訳

  • Poteto翻訳は耳を傾けない
  • マイクを近づけない
  • 操作しない

第一優先はゲーム

Uno=1
だから ウ~ノ


7.2 ポケベル入力の例え

同時発話は
順番に処理しないと意味を持たない。

So / Th / I␣ / Su / So
→ SoThI SuSo

順番に並べ直せば:

So, yes, let's try to embrace all the good things.
This person, when I go to my princess...

翻訳は
壊れているのではなく、並び替え前

S o , y e s , l e t ' s t r y t o e m b r a c e a l l t h e g o o d t h i n g s .
T h i s p e r s o n , w h e n I g o t o m y p r i n c e s s , I g o t o m y p r i n c e s s , I g o t o m y p r i n c e s s . . .
I t h i n k a t w o - b l o c k h a i r s t y l e i s e i t h e r 2 o r 3 .
S u p e r b u s y . T h e r e a r e a l o t o f p e o p l e .
S o m e p e o p l e a r e b u y i n g t h a t .

ポケベル入力アルファベット版
一桁目A-Z
二桁目A-Z

順番で処理します
1音
ユーザー1:So
ユーザー2:Th
ユーザー3:「I 」←半角スペースがあります
ユーザー4:Su
ユーザー5:So

2音
ユーザー1:「, 」
ユーザー2:is
ユーザー3:th
ユーザー4:pe
ユーザー5:me

ユーザー1:「So,」
ユーザー2:This
ユーザー3:「I th」
ユーザー4:Supe
ユーザー5:Some

を繰り返せば下記になる

So, yes, let's try to embrace all the good things.
This person, when I go to my princess, I go to my princess, I go to my princess...
I think a two-block hairstyle is either 2 or 3.
Super busy. There are a lot of people.
Some people are buying that.


8. まとめ

  • Poteto翻訳 × Google翻訳
  • vs ではない
  • ゲームを壊さないための設計
  • 規約を守るためではなく
    境界を守るため

面白くない検証から
面白い製品は生まれない


補足A:この動画で「知ってほしいもの/知らなくていいもの」

A-1. 知ってほしいもの(名前と役割だけでいい)

この動画で知ってほしいのは、次の3つだけです。

● Voicemeeter Potato

  • 音声を振り分けるためのミキサー
  • ゲーム音・マイク音・翻訳音を分ける
  • Questに余計な仕事をさせないための土台

● VBAN TALkie

  • PTT(押して話す)用のアプリ
  • 翻訳用の音声を
    👉 ゲームに流す/流さない
    を人間が選べる
  • 会話の主導権を人間側に戻す

 

● Google翻訳(エミュレータ版)

  • 精度のためではなく役割分担
  • ロビーや説明用
  • 「翻訳アプリ使ってるな」と相手に伝えるための存在
 

A-2. 知らなくていいもの(説明しません)

次のものは この動画では説明しません

  • Visual Studio Code
  • Python
  • chatGPT
  • Whisper(仕組み・中身)

理由は単純です。

  • 説明しても
    👉 知ったふりになる
  • 本人も
    👉 分かったと言わないといけなくなる
  • 年齢的に
    👉 素直になれないのは普通

これは知識の問題ではなく、人としてしんどい

分からないままでいいこともある
説明しないのは配慮

だから ここは触れません

 


Whisper_2O_V2 plus Launcher について

なぜこれは説明するのか

Whisper_2O_V2 plus Launcher は、
  • 黒い画面じゃない
  • マウスで操作できる
  • 項目が見える

 


これは「アプリ」である

● Direction

  • 翻訳の向き

  • どっちからどっちへだけ

● Model

  • 賢さの種類

  • 速さと精度のバランス

● Compute

  • 計算する場所

  • Questにはさせない(重要)

 


● Input

  • どの音を聞くか

by Name

  • デバイス名で選ぶ

  • 人に優しい

by Index

  • 番号で選ぶ

  • 機械寄り

List Devices

  • 今つながってる音声デバイス一覧

  • 確認用


● block-sec

  • まとめて聞く時間

  • 短い=速い/長い=安定

● min-interval

  • 次に聞くまでの間

  • 無駄に忙しくならないための間隔


● caption

  • 文字を出すかどうか

  • 音声+文字の切り替え


実際に使うボタン(ここだけ見ればいい)

▶ 翻訳系

  • EN→JA (B2) 開始

  • JA→EN (B3) 開始

👉 押すだけ
👉 話すだけ

 


▶ 文字起こし

  • 文字起こし(JA)

  • 文字起こし(EN)

  • 文字起こし(AUTO)

翻訳しないで
文字だけ欲しい時


▶ 制御

  • すべて停止

  • Start

  • Stop

迷ったら
👉「すべて停止」