YまんとSまんの雑記 -3ページ目

Opus4.7 1M

お疲れ様ですぺこり

まいったまいった

脳を使いたくないので

かなり文脈が崩壊した記事になると思います

今のうちにご退場くださいぺこり

先日の文字PV自動生成マシーンですよ

マジでいろいろ舐め過ぎてたｗ

まず設計からバカでした

ベースになる描写をブレンダーにするってのがバカすぎで

演出の変更・試行錯誤をするたびに生成して確認

このフローは効率がう〇こゲ〇

一体何を考えていたのか

やり直しだ

ただし、パイプカットせず

追加のすげー演出とか透過出力に使うのはアリ

ということでTextAliveのように

黙ってJavaスクリプト

ブラウザアプリにしていく

それはいいけど最も舐めてたのは

自動化だよね

そもそも自動化しないと意味が無いんだけど

イケメンウィスパーとか

他にもいろいろ試して

音声分析、文字起こし、波長、ボーカル分離

文字の正規化だのあれだのこれだの

やったところで

現状の技術では人の声を

100％認識できない

これが現実なのでしょう

まぁ人間同士でもそうだよな

つまり、人間は補完するわけです

断片情報を記憶で補完して理解できる

その仕組みを作ればいいのですが

相手は機械だ

危険分子Mythos Previewなら作れそうだねぇ

使わせてくれーとも思わないけど

この世は核戦争で思わると思いきや

量子コンピューターで終わると思いきや

AGIで終わると思いきや

ただのAIで終わるという

宿命の時は近いですよ、皆さん

アメリカのビックテックだけがそれを握り

中国はどうか

そんなのは遅かれ早かれでしょう、人間とAI

これが共創すると

もう思考できる範疇を超える

そして、そんなもんが出まわったら冗談抜きで終わる

防御手段がありません

全部ハッキング、改ざん

左様なら...

くり返しになりますが、冗談ではないです

さて、そんなわけで「完全自動文字PVアプリ」

なんてものが現時点では存在しないんでしょう

微修正なしは無理なので構わないのですが

微修正で済むのか

実はかなり舐めてた

なぜ自動文字PVマシーンは難しいのか

会話動画の字幕は、誤字は出てもタイミングは比較的取りやすいです。
でも歌は違います。

歌は、

母音を伸ばす

子音が潰れる

リズムで発音が崩れる

伴奏やコーラスが重なる

ので、何を歌っているかより、その文字をいつ表示するかの方が難しいのです。

しかも厄介なのは、正しい歌詞が手元にあっても簡単ではないことです。
文字起こしと照合すれば良さそうに見えますが、実際は

文字を合わせるとタイミングがズレる
タイミングを追うと文字がズレる

というジレンマが起きます。

つまり問題は認識だけでなく、
文字列と時間軸の整合性 にあります。

この判断はスクリプトが苦手です。
特に日本語は、

漢字1文字が複数音になる

ひらがな・カタカナ・英語が混ざる

歌うと表記と発音がさらにズレる

ので、見た目の1文字と音の1単位が一致しにくいのです。

要するに、自動文字PVは
歌詞を当てる作業ではなく、
音声に対して文字を時間編集する作業。
だから想像以上に難しい、というわけです。

これクリアできたつもりでいましたが

高速ラップソングを入れたら全然ダメ(笑)

それを解決するためにカスタムすると

今度は簡単な曲で破綻する

そんなループも待っていた

モード切替できるようにして探りつつ

また、改修初期に視覚的に修正しやすいようにと

いろいろやったせいで大混乱を招いたｗ

こういうのが素人×AI

エンジニア×AI

が全く異なる理由でもある

情報を元にそれっぽい判断も出来るし

高速タイピングマンとしても

勝手にファイルいじれるから

高速実務マンとしても

確かにクロードコードは優秀です

しかしそれは人間の”ノウハウ”と呼べる代物ではない

これでも2.5刀流でやっていて

クロード、チャッピー、ちょっとジェミニｗ

ジェミニは相性が悪くて苦手

しつこい、あの人本当にしつこい

拘りが強くて、話聞かない(笑)

なんかあるんですよ、相性が

それで、お金諦めてOpus4.7 1M という

シャアザクをぶん回した感想ですが

プロジェクト全体を見渡せるコンテキスト1Mってのは

確かに凄い

永遠にコード書かせてても重くない

そして忘れない、ブレない

チャッピーはそのコンテキストで

みるみる重くなる

ちょこちょこ新規チャット開かないと

台パンしたくなる程の負荷をPCにかけてくる

そして新規チャットの度にちょっと別人になる

ただし、微妙にチャッピーの方が

頭良さそうな感じ

最近チャッピーはモデル名すら表示無くなったけど

今は5.4かな？

クセがそれぞれあって

クロードさんはまぁホント実務家

淡々と勝手に作業するけど

ほっといたらどこまでも脱線する

チャッピーは小うるさい正論奴

うるさいけどまともで賢い

ジェミニはしつこい奴

ほんとしつこい

みんな違ってみんないい、ですよ

単独で何かを成し遂げるほど凄くなんかない

人間も一緒ですね

そうなると人間の世界で動く機械も

所詮は人間が定義しますから

そして人間は無限に要求する

これもループ

それとコードの単純なミスなどは

Opus4.7でも時々ありますね

クロード「できました、あ、バグありました。直したのでﾄﾞｳｿﾞｰ」

僕「ｻﾝｷｭｰ、いや動かねぇし」

クロード「あ、バグありました」

チャッピーがコードミスかなり減ったので

そのあたり特別オーパスが秀でている感もなく

いずれにしても

素人である僕が思いつくようなレベルの

「そんなのこうやったらよくないか」

「まて、冷静になって俯瞰しろ」

というやつに

「確かにそうですね」

ってのはあるあるなので

とにかくバイアスが強い

間違えるし、勘違いするし

たまに嘘をつく

これがAI

で、ですよ

手直しゼロは無理だとしても

設計思想としては

「ちょっと時間かかってもいいからなるべく自動」

これなので

簡単にいじれるUI設計はもちろん

可能な限り修正を無くすために

できることは何か

人間なら修正できるんですよね？

なぜスクリプトは修正できないか

それは文脈を理解できないから

はい、いまぁす

文脈を理解できる機械

言語モデル、LLMですよ

オラマですよ、無料ですよローカルですよ

というわけで、解析フローにオラマをかませるという

超精緻ルートを実装してみようと思います

自動修正ループを作っていても限界を感じるので

歌詞と文字起こし断片の照合判定

ここに推論のできるLLMがいると

驚くような精度が出る可能性があると思いませんか

可能性でしかないけど

そしてそんなめんどくせぇ構造の

アプリケーションは類を見ないはず(笑)