UnoPoteto翻訳
― ゲームを壊さない翻訳の設計思想と検証記録
- はじめに(目的の明示):
- 大前提:規約と設計倫理について:
- 翻訳は「暗号」に見えるという話:
- 環境について:やらないことを決める:
- 音声経路について:
- なぜ歌って検証しているのか:
- 同時発話の誤解:
- UnoPoteto翻訳の核心:
- まとめ:
0. はじめに(目的の明示)
このドキュメント/動画は
翻訳精度を比較・評価するものではありません。
本資料の目的は次の3点です。
- 同時会話を翻訳するとはどういうことか
- ゲーム体験を第一優先にした翻訳設計とは何か
- なぜ「やらないこと」を先に決めているのか
以降、
DeepL vs Google
翻訳精度ランキング
といった話は扱いません。
1. 大前提:規約と設計倫理について
1.1 結論から
Quest本体の内部経路には、システムとして絶対に入りません。
これは
- 技術的に出来る/出来ない
- 工夫すれば可能かどうか
の話ではありません。
設計として「やらない」と決めていることです。
1.2 規約についての立場
- ゲーム内で翻訳を使うこと
- 音声を翻訳して出力すること
- 翻訳した音声・文字をプレイヤーが聞く/見ること
これらは 利用規約違反ではありません。
私は
- 利用規約を読んだ上で
- 規約に反しない範囲で
- やって良いことだけをやっています。
もし違反だと判断されるなら
それは 運営・プラットフォームが判断することです。
ユーザーがやるべきことは
規約を読み、守ることだけです。
1.3 なぜ「入ってはいけない領域」なのか
Quest内部の音声・処理経路は:
- ゲーム体験の責任主体
- 想定された負荷と挙動
- 不具合時の切り分け境界
これらが 明確に定義された領域です。
そこに翻訳・実験・検証を
システムとして割り込ませることは、
- ゲーム体験を壊す可能性
- 責任境界を曖昧にする
- 機器に想定外の負担をかける
だから私は 最初から近づきません。
違反しないようにしているのではない
入ってはいけない場所に
最初から入っていない
これが立場です。
2. 翻訳は「暗号」に見えるという話
同時発話を翻訳する側から見ると:
- 誰の声かわからない
- 順番が壊れている
- 文脈がまだ存在しない
つまり
そのままでは読めない情報です。
これは
暗号を解析して復号する感覚に近い。
2.1 パリティビットという言葉について
パリティビットという言葉の
意味を理解する必要はありません。
この言葉は:
- 機器が「これ以上は無理」と言っている声
- 負担や限界を知らせる目印
- 思いやりを持って設計するための合図
知ろうとする姿勢そのものが大切だと思っています。
3. 環境について:やらないことを決める
3.1 単体構成を選ばない理由
理論上:
- 単体で完結させることは可能かもしれない
しかし私は:
- Quest内部にシステムを入れない
- 翻訳は外部に逃がす
- 人間側で完結させる
という設計を選びます。
理由は単純です。
混ぜると
どっちも壊れる
3.2 リアルタイム翻訳の形
英和・和英 共通
- 音声入力 → 翻訳 → 音声出力
- 音声入力 → 翻訳 → 文字出力
- 音声入力 → 翻訳 → 音声+文字出力
PTT入力中の音声は
ゲームには流しません。
3.3 個別翻訳(ロビー想定)
- 相手に音声を聞かせる
- 「翻訳アプリ使ってるな」と分かってもらう
- 会話の心理的ハードルを下げる
※ 現時点では
PTT制御は設計に含めていません。
4. 音声経路について
4.1 Questを使う/使わない
- 単体起動は物理的にマイク割り込みが必要
- 骨伝導・耳掛けスピーカーなどは
人間側の工夫
英和音声出力は:
- 指向性不要
- LR不要
- スマホスピーカーで十分
5. なぜ歌って検証しているのか
5.1 理由
- 同じテンポ
- 同じ歌詞
- 再現性が高い
- 日本語/英語が混在
朗読は:
- 面白くない
- 続かない
- 検証にならない
5.2 音程と感情について
- 音程は精度に関係ない
- 精度は 1音のリズム
- 感情をメロディに乗せると
翻訳精度は落ちる
不必要なのは:
- 言葉を伸ばすこと
- メロディに引っ張られる感情
5.3 検証に使った楽曲
- スモーキーラガ
- 青春
- 胸がドキドキ
- Tears
- WEEK END
- Joker
6. 同時発話の誤解
「同時」とは
100m走のスタートではありません。
会話の同時性とは:
- 誰かの話を軸に
- 被りながら
- 議論が進むこと
7. UnoPoteto翻訳の核心
7.1 Poteto翻訳とUnoPoteto翻訳
- Poteto翻訳は耳を傾けない
- マイクを近づけない
- 操作しない
第一優先はゲーム
Uno=1
だから ウ~ノ。
7.2 ポケベル入力の例え
同時発話は
順番に処理しないと意味を持たない。
So / Th / I␣ / Su / So
→ SoThI SuSo
順番に並べ直せば:
So, yes, let's try to embrace all the good things.
This person, when I go to my princess...
翻訳は
壊れているのではなく、並び替え前。
S o , y e s , l e t ' s t r y t o e m b r a c e a l l t h e g o o d t h i n g s .
T h i s p e r s o n , w h e n I g o t o m y p r i n c e s s , I g o t o m y p r i n c e s s , I g o t o m y p r i n c e s s . . .
I t h i n k a t w o - b l o c k h a i r s t y l e i s e i t h e r 2 o r 3 .
S u p e r b u s y . T h e r e a r e a l o t o f p e o p l e .
S o m e p e o p l e a r e b u y i n g t h a t .
を
ポケベル入力アルファベット版
一桁目A-Z
二桁目A-Z
順番で処理します
1音
ユーザー1:So
ユーザー2:Th
ユーザー3:「I 」←半角スペースがあります
ユーザー4:Su
ユーザー5:So
2音
ユーザー1:「, 」
ユーザー2:is
ユーザー3:th
ユーザー4:pe
ユーザー5:me
ユーザー1:「So,」
ユーザー2:This
ユーザー3:「I th」
ユーザー4:Supe
ユーザー5:Some
を繰り返せば下記になる
So, yes, let's try to embrace all the good things.
This person, when I go to my princess, I go to my princess, I go to my princess...
I think a two-block hairstyle is either 2 or 3.
Super busy. There are a lot of people.
Some people are buying that.
8. まとめ
- Poteto翻訳 × Google翻訳
- vs ではない
- ゲームを壊さないための設計
- 規約を守るためではなく
境界を守るため
面白くない検証から
面白い製品は生まれない
補足A:この動画で「知ってほしいもの/知らなくていいもの」
A-1. 知ってほしいもの(名前と役割だけでいい)
この動画で知ってほしいのは、次の3つだけです。
● Voicemeeter Potato
- 音声を振り分けるためのミキサー
- ゲーム音・マイク音・翻訳音を分ける
- Questに余計な仕事をさせないための土台
● VBAN TALkie
- PTT(押して話す)用のアプリ
- 翻訳用の音声を
👉 ゲームに流す/流さない
を人間が選べる - 会話の主導権を人間側に戻す
● Google翻訳(エミュレータ版)
- 精度のためではなく役割分担
- ロビーや説明用
- 「翻訳アプリ使ってるな」と相手に伝えるための存在
A-2. 知らなくていいもの(説明しません)
次のものは この動画では説明しません。
- Visual Studio Code
- Python
- chatGPT
- Whisper(仕組み・中身)
理由は単純です。
- 説明しても
👉 知ったふりになる - 本人も
👉 分かったと言わないといけなくなる - 年齢的に
👉 素直になれないのは普通
これは知識の問題ではなく、人としてしんどい。
分からないままでいいこともある
説明しないのは配慮
だから ここは触れません。
Whisper_2O_V2 plus Launcher について
なぜこれは説明するのか
- 黒い画面じゃない
- マウスで操作できる
- 項目が見える
● Input
-
どの音を聞くか
by Name
-
デバイス名で選ぶ
-
人に優しい
by Index
-
番号で選ぶ
-
機械寄り
List Devices
-
今つながってる音声デバイス一覧
-
確認用
● block-sec
-
まとめて聞く時間
-
短い=速い/長い=安定
● min-interval
-
次に聞くまでの間
-
無駄に忙しくならないための間隔
● caption
-
文字を出すかどうか
-
音声+文字の切り替え
実際に使うボタン(ここだけ見ればいい)
▶ 翻訳系
-
EN→JA (B2) 開始
-
JA→EN (B3) 開始
👉 押すだけ
👉 話すだけ
▶ 文字起こし
-
文字起こし(JA)
-
文字起こし(EN)
-
文字起こし(AUTO)
翻訳しないで
文字だけ欲しい時
▶ 制御
-
すべて停止
-
Start
-
Stop
迷ったら
👉「すべて停止」












