よくある言い訳の様な話だけれど…
今日、妻と車に乗って買い物に行った。
妻と話をしている最中、ブログネタが浮かんだんだ。
妻は話すのが不得手な部族なので、話をすると言っても、思いついた話題が頭に浮かんだ時、唐突に話しかけてきてオチもなく唐突に終わる。
出てきた話題についてツッコミを入れようが、質問をしようが、「そう言えばさ」と話を広げようとしてもその多くの試みは失敗するかな。
コミュ障?かもしれないけれど、何が正解なんてないよな。
若い頃は(いや、今でも)その要領の得ない話(主語述語修飾語だの文法なんて全て無視して、自分の頭の中に浮かんだ光景のうち思いついたことをぽつりぽつりと口にするので、人間の脳という高性能のコンパイラに結婚ン10年と言う経験からくるオプティマイズ(最適化)を施してもコンパイル途中にエラーで落ちることの方が多く、何百行にもわたるエラーリストが羅列される事)に対しイライラして「ナニヲイッテイルノカワカリマセン」と答える事に不快を感じていたのだけれど、最近ようやく「これも楽しめばいいんだよな」と思える様になってきた。
歳をとるっていい事だよねと思える事象の1つだ。
訳のわからない話を聞かされたら「謎解きパズルを貰えた」と思えば良い。
何かを頼んで、思っていたことと見当違いの結果になっている時は「指示の仕方が曖昧だった。妻にも分かる様説明できなかった」と反省すれば腹も立たない。当たり前のことだわね。
うん、妻は経験値爆上げ請負人なのだ。
目指せレベルカンスト
いや、今日のネタは妻の話じゃない。
閑話休題
もう一度書くけど、その妻と話をしている時ブログネタが浮かんだんだ。
いつもならほぼ単発のやり取りで終わる話がその時は珍しく数往復するほど弾んでいた(?)
頭の中では浮かんだブログネタに対し「これは話が膨らみそう」「いいネタを思いついた」と思いつつも、珍しい妻のノリノリにも耳を傾けて話のキャッチボールを楽しんだ。もしかしたらこのキャッチボールは今年最後の幸運かもしれない。いや、人生最後かもしれないから噛み締めよう…そんな覚悟をするくらい珍しいことなんだよ。
で、妻との会話が終わった時、先のブログネタが頭からすっぽり抜け落ちていた。
どこを捻ってもどんなネタだったか思い出せない。
まあ、妻との会話ができたから、それくらいは惜しくない…と言い切りたいけれど、忘れてしまったことなので定かではないけれど、捨てるには惜しいと後悔できるネタだった様に思える(釣り人の「逃した魚は1m以上の大魚だった(実際は30cm?)」と同じ感覚かな)
こんな時、何度も頭を過ぎるのが「ボイスレコーダーがほしい」と言うことなんだよな。
先日ハードオフに行ったら安いのが2,500円くらいで陳列されていた。
新品でも数千円で売られている。
自分の独り言を記録できれば良いので何万円もする高級機を買うことは無用だろう。
でも、買うとなればそれなりに良いものを買いたい気持ちもある。
これが貧乏のデススパイラルとわかっていても、ついつい無駄な使いもしない機能に金を捨てたがる。
何より、買えば買ったで「使うの面倒くさい」とお蔵入りさせてしまうんだよな。
今時はiPhoneやiPadの音声入力はかなり優秀なので、ボイスレコーダーを買うよりそんな機能を使えば良いんではないかとも思う。
と言いつつも、その音声入力でさえ使うとなれば「めんどくせー」と使わないんだろうなとも思う。
ってか、iPhonなりiPadを起動して日本語入力状態になっているならともかく、ポケットにしまってある状態からのスタートだとしたら、起動して(うちのiPhoneはFaceIDの認識率が極端に悪く改善の見込みが今のところほぼないので、何度かFaceID認識に失敗した後、手動でパスを入力をし)、ブラウザなりメモ帳を開いて、音声入力ボタンを押して…これが面倒でなくてなんだと言うんだよ。
それならまだボイスレコーダの方がポケットから取り出して、録音ボタンを押しての2アクションで録音できる。こちらの方が良かろう。でも、その2アクションでさえ「めんどくせー」なんだよな。
では「電子なんちゃら」を捨てて、昔ながらのペンと紙にするか。
いや、そんな嵩張る物を常に手元に持ち歩くなんてごめんだ。
うん、いつものお出かけセットの中にはペンとノートは常備されている。
でも、それは常にバッグの中であって、決して手元では無いのだ。
もしiPadProが常に持ち歩く物であったなら、GoodNoteとApplePencilでと言うのもありかもしれない。けれど50kg100kgだよな。大抵変わらん(すげー違うと思う表現だけれど)。出して用意するのがめんどくせー。
こんな「のめしこき(田舎の方言「怠け者」の意)」はどうしたらいいの?
そんな「のめしこき」が使うとしたら、多分iPhoneにMagSafeでくっついてくれるようなやつではなかろうか。
そう思って検索してみたら1つヒットした。
MagSafeでiPhoneにくっついていて、ただ1つあるボタンを操作する事ですぐに録音ができる。ボイスレコーダ機能の他、電話(LINEなども含むらしい)の通話を録音する機能もある。
ただ、録音した音声を聴くためにはケーブルを接続して再生するしか無いらしい。
今録音した内容をすぐに確認したい場合にはちょっとイライラする仕様かも知れない。
後ろ髪を引かれるところはあるのだけれど価格が19,800円。
ちょっとメモを取りたいと言うだけでこの金額は如何なものかという気持ちと、やはり録音した物をすぐに再生できないというところがネックで「思わずポチっ」とはいかず躊躇してしまう。
もし、中古屋さんなどで手頃な価格にこなれた物を見つけた時には手に取ってしまうかもしれないかなぁ。
そういえば、最近クラウドファンディングなどで「AI (Artificial Intelligence)搭載、自動文字起こし」などをうたい文句としたボイスレコーダを見かけた。ChatGPTを利用したというのもあったような…
ラジオの収録のお手伝いをしている身としては、そういう収録内容を勝手に文字起こししてくれる機能はあれば嬉しい。
けれど、この手の機能は多分、まだまだ実用的では無いように思う(←あくまでも個人的感想。偏見?)。
スキャナを購入すると、文字認識してPDFファイルを作成するようなアプリが付いてくることも多い。
そんなアプリでなくても、例えばレシートを読み込んで家計簿にしてくれるアプリとかさまざまな「文字認識」機能を有したアプリがある。じじいもその一部(レシートを読み込んで文字起こしをしてくれるアプリ)を使っている。
で、結果としては「maruetsu」は高確率で「maruelsu」と起こされるし、結構読み間違いが多い…いや、間違うのは全体の数%程度。それを多いと思うか少ないと思うかは使う人次第だね。
「1文字でも間違っていたら役に立たない」と思うか、「こんなに多くの入力の中でこの程度しか間違っていないなら優秀じゃない?」と思うかだ。
文字起こしについてじじいは「十分優秀」と思っている。
少なくとも数多くのレシートを自分で1枚1枚手入力で家計簿に起こすよりは、多少間違いがあっても自動で入力してくれる今の機能を捨てるつもりには到底なれない。
ありがたやありがたやと思いつつ使わせていただいている次第だ。
まぁ「より正確に読み取れるようになってほしい」とは常に思っているけれど、それはあくまでも希望、願望であって、「今」を否定する材料では無いということだ、
特にこの業界の10年前、20年前の状況を知っているから、今は本当に進化したなぁと感慨せざるを得ないというのもある。
翻って「音声認識」は最近注目されてきた機能かな。
文字認識よりは新しい機能。
当然ながら同じ時期から「あったらいいな」とは思われていたはずだけれど、ハードウェアの制限から実現できなかったんだと思われる。
そう、パソコンが世の中に普及し始めた1980年代は日本語入力は単漢字変換だったんだよ。「われわれは」うちゅうじんである」と入力して「我々は宇宙人である」と変換してくれるようになったのはしばらく後。「われ」と入れて「我」、(色々入れ方あるけれど)「どう」と入れて「々」、「は」といれて無変換、「う」といれて「宇」と都度変換が必要だった。
今の人から見れば「めんどくせー」「信じらんない」かもしれないけれど、それまでの環境しかなかった人には「画期的」「すげー」機能だったんだ。
それが「単語変換」(われわれと入力して「我々」と変換してくれる)「単文節変換」(われわれはと入力して「我々は」と変換してくれる)「文節変換」(われわれはうちゅうじんであると入力して「我々は宇宙人である」と認識してくれる)と進歩していった背景には、ソフトウェアの進歩もあるけれど、そのソフトウェアのプログラム及びデータの容量を格納するメモリ、変換するための処理速度の向上などさまざまなハードウェア要件が重要なんだ。
じじいが当時関わった話として、某コンビニのPOSシステムの話がある。
今はバーコードを読んで会計をするのが極々普通だけれど、じじいが当時携わったのは「バーコードを読み込んで値段を計算するシステムの検討」…そう、そのPOS (Point Of Sales)の始めだった。
何をするかっていうと、ある店舗に設置したPOS端末でバーコードを読み込む。そしてそれを通信回線を通して他所のサーバー上にある商品データを検索して該当する価格をPOS端末に表示させる。そのシステムは現状で実現可能か?というお話。
当時は16ビットパソコンで64kbytesのメモリを積んでいたら贅沢もんと言われた時代(MegaでもGigaでもないからな)。プログラムの変数の文字数がメモリを圧迫するから、なくなく「a」とか「b」とか「c」なんて変数名をつけざるを得なくて、後から「このaって変数はなんに使っているんだよぉぉぉx」と泣く姿が一般的だった時代だ。
回線速度だって1024bps (1kbps…単位を最近に合わせるなら0.001Mbpsだ)が最新だった時代かな。
そんなハードウェア環境だったので、店舗からどこかにあるサーバーにアクセスして値段を引っ張ってくるだけで数秒を要してしまう。
バーコードを読み込んで値段をレジに表示するまでのレスポンスが0.5秒以上かかると客はイライラするので、それより高速にしたいという案件だったけれど「現状のハードウェア構成及び予算では無理」と答えざるを得なかった。
個人的にはまだ一太郎(前身のjx WORD太郎も含め)が世に出る前の時代に、じじいもワープロのような物を作っていた。
当時のパソコンは1画面が640×480ドットで構成されていて(NECのPC-98シリーズな)、1文字が縦16ドット横8ドット構成だった。
日本語入力の日本語変換機能は他の人に任せ、じじいはそこでお絵描きをする機能を考えていたんだ。初期の頃はマウスなんてなくてCUI(CharacterUserInterface)だったのでカーソルを任意の位置に持っていくためにはカーソル移動キーしかない。
それを640×480全画面で操作しようとすると時間ばかりがかかってしまう。なので、大きい移動はキャラクタ(16×8ドット)単位で、任意の位置に来た時にあるキーを押下すると画面に別画面として16×8ドットの拡大画面)が開いて、それ以降はカーソル移動キーでそのドットの特定位置を選べる。そして決定キーを押したらまた次の操作をして別の場所に移動して…そんな操作をすることで任意の図形を描けるようにしようとしていた。
当時そんなアプリは存在していなかったので、もしそれを製品化できていたら多分一儲けできていたかもしれない。うん「たられば」の話な。
それ以外にもDIO (Digital I/O)ポートにセンサーを繋げてホームセキュリティシステムを試作していたりもした。
もし製品化していたら今現在大手となっているホームセキュリティ会社と競合していたのかもしれない。たらればだけれどな…
話が逸れてるな
閑話休題
兎にも角にも、そんな感じでハードウェアが制約となってやりたいことができないってことは多々あった。
文字認識はそれこそ16×8ドットの中のドットのON/OFF認識に始まり数千種類しかない文字の称号でしかなく、その先の意味を汲み取るところまで行くと面倒ではあるけれど、認識だけなら当時のハードでも可能ではあったが、音声となると難しさは格段にあがる。
「あ」と発音して「あ」と認識するためには、その音声を細かく数千数万の時間に区切って、その区間での音声の有無をサンプリングしてそれを照合してとか、さまざまな難しい照合処理が必要となる。
それはその当時のハードウェア環境では不可能だったんじゃないかな。
前にも書いているけれど、その当時から10年くらい経過した頃に登場したJPEG(Joint Photographic Experts Group)の640×480ドットの画像を表示しようとすると、当時の最新パソコンでさえ表示を開始してから風呂に入ってきて、さらにタバコを一服してようやく表示処理が終わるかどうかという長閑な時代だったんだからな。
なので「音声認識」が実用化されるのはもう少し後の時代だったと思う。
音声認識さえされてしまえば、それ以降のツールは文字認識と共用できるのかもしれない。であるなら、精度は文字認識と似たり寄ったりなのかな。その辺りはもうじじいは前線から退いているので預かり知らぬことだけれど、後から出てきた技術なら熟成ももう少しかかるんじゃね?と思っちゃう訳だ。
特にChatGPTなどという新しい技術は胡散臭いよなぁ。
いや、結構実用的で、もっともらしい役にたつ技術だとは思うんだけれど、時々とんでもない的外れなデータを引っ張ってくるのが怖いんだよ。
「そのデータをどう使うかは利用する側の責任」だからこそ、安易に信用しちゃあならねぇと思っちゃう。
とりあえず引っ張って来させて、後で精査すればよかっぱいというのは真っ当な意見だと理解しているのだけれど、ついつい躊躇しちゃうのがじじいなんだ。
そんな訳で、積極的に「AI」とか「ChatGPT」をうたう製品を買いたいと思わないんだよ。
あ、そうそう「AI」ってさ、今はオブジェクト指向プログラムっていうのが普及しているから多少は変わってきているのかもしれない。けれど、じじいの時代は「FortranでAIプログラムを組む」っていう無謀なプロジェクトがあったんだよ。
AIとは…if文の塊でしかない。
それがFortran AIプログラムで得た結論だ。
多分、それはどんな言語を使っても変わらないと思う。
コンパイル時点で如何にその無駄部分を最適化できるか、コンパクトにできるかの違いでしかなかろう(それが大きいんだけれど)。
そんな経験も「AI?んで?」と鼻を広げて疑ってしまう一因だろうな。
いつかGay Deceiver(The Number of the Beast/R.A.Heinlein)が現実のものとなってくれることを切に願っている。
AIやChatGPTで楽に文字起こしといううたい文句自体には魅力を感じつつ、疑いの目で見てしまうようなじじいに、それを買う勇気はない。
となれば、やはり何の機能もない数千円のボイスレコーダ、手軽に録音して、手軽に再生できるものを買うのが一番あっているのかな。
今回のジャンルは「駄文」だからね。
長く買いた割に中身がないのはいつものことと笑って許してくれることを切に願う。