yatosan-55の雑記帳

前ページ
次ページ

かたより探偵ロト ― 組み合わせを「読む」ための確率分析エンジン

ロト6/7がなかなかあたらない、というよりも、なにを買えばよいかわからず、誕生日とか好きな数字とかそいうものを毎回選んではずしてばかり。そこで、当選番号を分析して買う数字を選ぶと違うかもと思い、これまでの当選番号を解析してみた。

ロト6は2050回開催していて、そこからまずそれぞれの出目の出現数を纏めてみた。

全開催でみると若干、出目の出現回数の差があるが、おそらくこれから開催回数が増えると、その差もなる＝ランダムに偏りがないということだろう。そこで、直近から100回分についてしらべてみると

全開催よりもばらつきがみえてくる。では、各出目ではなく、2つの組み合わせではどうか？よく出る組み合わせ（HOTペア）とあまり出ない組み合わせ（RAREペア）の出現率、それらの頻度比を高低で整理してみると、

このグラフから、

HOTペア率はW=100→800でやや上昇（~0.20 → ~0.27）、W=1250で再び低下（~0.20）。
→ 古い履歴を混ぜるほど“HOT同士の結びつき”は薄まる。W=800±200がHOTペア活用の甘い帯。
RAREペア率はW=200で最大（~0.33）→その後0.13付近へ沈静、W=1000で少し戻って再び低下。
→ 短い窓だけで“レア同士の同時出現”が立ちやすい。ギャンブルならW≦400。
高頻度比（HOTの比率）はW=600で最大（~0.50）、W≧800で~0.17へ減速。
→ “HOT寄せで組む”ならW=400–600が効く。W≧800はバランス寄り。
低頻度比（RAREの比率）はW=100で高い（0.5）→~0.33で横ばい→W=1000で0.17へ低下、W=1250で0.33に戻る。
→ W=1000前後はレア比率が最も低く、構成が安定。超長期にするとレアが戻りやや拡散。

ということが見える。この結果から、

目的	推奨Lookback	期待される構成傾向	パラメータの勘所
安定・バランス重視（既定）	800–1000	HOTペア率は高め安定／RARE比率は低下	Pair Bayes 6–10、block_mode prefer_full、min_hamming 1–2
HOT偏重で押す	400–600	高頻度比ピーク（~0.5）→“最近HOT”を取り込みやすい	streak_bonus やや上げ、wave_weight 0.25–0.35
攻め（ボラ取り／ギャンブル枠）	200–400	RAREペア率が高い→“レア同士”注入が起きやすい	Pair Bayes 2–4、ギャンブル枠注入確率 +0.1、block上限少し緩め
長期平均に寄せる	≥1200	HOTペア率/高頻度比が希釈、RARE比率が戻る	Pair Bayes 8–12、波フレーバー弱め

直近から400回までのデータを使って、解析をするとロトの揺らぎ（かたより）を捕まえることができるのではないかと思って、それらのデータを可視化し、組み合わせを考えるうえで上グラフの様な情報を可視化できるアプリを作成した。

以下は、そのアプリかたより探偵ロトの説明です。

🔮 はじめに

「当てる」ためではなく、選ぶためのAI。

かたより探偵ロト（KATAYORI DETECTIVE LOTO） は、ロト抽選における組み合わせの選択支援を目的とした
データ解析型エンジンです。予測（prediction）は手段のひとつに過ぎず、本質は「データに基づいて構造を読む」ことにあります。

💡 コンセプト：「偶然の中の構造を読む」

ロトの数字列は完全なランダムではなく、わずかな**統計的ゆらぎ（fluctuation）**が含まれています。
それは物理的な要因でもあり、人間の選択傾向や抽選履歴の非対称性でもあります。

かたより探偵ロトは、その“ゆらぎ”を定量的に可視化し、「選ぶための判断材料」を提供します。

🧩 システムの構成

かたより探偵ロトは、統計（Stat）・波動（Wave）・機械学習（ML） の三つの視点をもつ確率解析エンジンです。

分析系統	主な役割	技術的基盤
統計（Stat）	出現頻度やペア傾向から偏りを測定	Zスコア・ベイズ縮約
波動（Wave）	出現周期やリズムの傾向を抽出	FFT・Welch・STFT
機械学習（ML）	統計では捉えきれない非線形構造を補完	回帰・クラスタリング・特徴スコア合成

⚖️ 他の「予測アプリ」との違い

多くのロト系アプリは「当たりやすい数字を予測する」ことを目的にしています。一方、かたより探偵ロトは「どのように選ぶか」を設計するツールです。

観点	従来の予測アプリ	かたより探偵ロト
目的	当選数字の予測	組み合わせ構築支援
出力	「当たりそうな番号」	「統計的に整合性の高い組み合わせ構造」
評価基準	過去一致率や確率スコア	統計整合度・周期一致・分布重心
手法	回帰・NNなどのブラックボックス予測	統計＋波動＋MLの透明なハイブリッドモデル
メリット	直感的・即効的	解釈可能・再検証可能・理論的根拠あり
デメリット	分析根拠が不明瞭・再現性低	結果を理解するために分析知識が必要 GPUがないと解析速度が落ちる

🔍 要点:
かたより探偵ロトは「数字を当てる」のではなく、「数字がどのように整っているか」を明らかにする。
そしてその理解をもとに、ユーザー自身が組み合わせを「設計」するツールです。

🎛️ GUIとワークフロー

タブ	目的
結果	統計・MLスコアに基づく提案生成
任意チェック	手動組み合わせの分析・照合・再評価
グラフ	出現頻度・Z値・波動パワースペクトル表示
波動注目	周期的傾向と現在の位相を視覚化
部分選択／未発火	まだ出ていない“潜在数字”を抽出
バックテスト	提案セットの再現性を検証

🧮 「探偵」的推論プロセス

観察：過去データを統計化し、偏りを測定
仮説：ベイズ縮約と波動解析で構造を推定
推理：MLスコアで非線形関係を補正
再検証：バックテストで再現性を確認

🔁 この循環こそが、「偶然を読む」ための科学的推論サイクル。

🧠 開発哲学：「データは詩になる」

ロトの数字は偶然の羅列ではない。
そこには人の思考と確率の呼吸が重なっている。

“Numbers do not predict —
they compose a pattern.”

このアプリは「予測AI」ではなく、
「確率の詩学」を可視化するための道具です。

⚙️ 技術基盤

領域	実装
統計解析	SciPy, NumPy によるZスコア／ベイズ補正
波動解析	FFT, Welch, STFT による周期評価
学習補完	scikit-learn回帰・スコアキャッシュ最適化
UI	Tkinter + Matplotlib
ドキュメント	Markdownビューワ連携（HELPメニュー統合）

🚀 今後の展望

バージョン	内容
v1.015	Adaptive Wave（自己学習型周期分析）
v1.016	組み合わせ重心マップ／確率ヒートビュー

🔖 結語

かたより探偵ロトは、偶然を支配するためのツールではなく、偶然を理解するための知的補助装置です。

「当てる」のではなく「読む」こと、その読み方を深めることで、選択の意味が変わります。

確率は冷たい。だが、整う瞬間には美がある。

UI：

次回予測　（自動推定機能より）

2 8 13 18 22 32

8 13 18 32 37 43

Seshat Editor

今年に入って作り続けている歴史文書・多言語資料のOCRを目的として製作したSeshatは、やっとUIとなるSeshat Editorが完成。

古書・中世活字・多言語混在資料では既存 OCR の誤りが多く、しかも誤りは系統的である。ユーザの修正知見をモデルに即時還元する仕組みが乏しいため、Seshat Editorは修正結果の即時活用とUnicode 全域を対象にした学習を中核要件に据えた OCR → 人手修正 → 継続学習をローカルで反復運用するためのデスクトップアプリとして開発された。

Tkinter 製の軽量 GUI、Tesseract による全文 OCR、Hugging Face/ByT5 による文字体系非依存のポスト校正モデルを統合し、「直した結果がそのまま次回の精度向上に効く」自己学習型の校正環境を提供する。

画像/PDF を読み込み、ページ全体または任意範囲をドラッグして OCR する。
左ペインでテキストを編集・校正（特殊文字パネルつき）する。
ボタン一発で教師サンプル（画像＋修正後テキスト）を保存する。
「学習実行」でローカル学習を回し、新しい校正モデルを得る。

次回以降は自動補正を掛け、人手は微修正に集中できる。すべてローカル完結であり、研究データの外部持ち出しを要しない。

Unicode 完全対応の校正モデル（ByT5）

バイトトークナイズにより、ギリシャ語（現代/古典）、長い s（ſ）、合字、濁点・アキュートなど特殊字形を欠損なく扱える。

全文 OCR の行復元

image_to_data を用いて行単位に再構成し、--psm 6 と --psm 4 を試行、長い方を採用する戦略で段組にも実用的に対応する。

教師は“修正後”のみ

入力＝OCR 生、教師＝修正後全文を厳密に分離し、未修正テキストの誤学習を防ぐ。

スライディング窓で全文カバー

入力と教師を独立に分割し長文でも取りこぼさない（既定 max_len=768, stride=128）。

GPU 自動最適化

CUDA 有無を検出し bf16/fp16 を自動切替。RTX 4060 Laptop 級で現実的な学習時間に収まる。

移植性の高いパス設計

ベースディレクトリは環境変数 SESHAT_TRAIN_BASE を優先。

監査性（デバッグダンプ）

samples_debug/ に OCR 生・教師・最終ペア・メタを保存し、取り違えを可視化する。

校正支援 UI

行/範囲ハイライト、拡大縮小、スクロール、特殊文字パネル（œ, æ, ꝑ, ſ 等）を備える。

アーキテクチャ概観

GUI：Tkinter（テキストエディタ、画像キャンバス、範囲選択、ページ移動、特殊文字パネル）
OCR：Tesseract（行復元、eng+fra+lat+deu+jpn+ell+grc 等）
学習：Transformers（ByT5 small、Seq2SeqTrainer）

保存：

教師テキスト（修正後のみ）、画像、モデル、デバッグ

文字処理：

UTF-8、正規化は NFC のみ（NFKC は字形を潰し得るため不採用）

類似エディタとの比較と立ち位置

ツール	主眼	学習機能	運用形態	想定対象
Transkribus	転写・版面編集・HTR/OCR 一体化	認識器学習可	クラウド中心	大規模・協働
eScriptorium + Kraken	Web UI + HTR/OCR	認識器学習可	サーバ/オンプレ	研究機関
OCR4all（+PoCoTo）	印刷史料向けパイプライン	Calamari/Tesseract 等	ローカル/オンプレ	歴史的印刷物
gImageReader	Tesseract GUI	なし	ローカル	軽量 OCR
Seshat Editor	ポスト校正の自己学習	ByT5 による seq2seq	ローカル完結	多言語・歴史文字の校正効率化

差別化点：

ローカル完結・Unicode 安全なポスト校正の自己学習を核に据え、修正結果の即時反映を最短経路で実現する。
レイアウト・認識器学習の全部入りではないが、軽量運用で日々の修正労力を確実に減らすことに焦点を置く。

長所と短所
長所：

校正→学習→適用が単一 UI で高速反復できる。
多言語・歴史的綴り・特殊字形に強い（ByT5）。
領域単位の全文サンプル化が容易。
デバッグダンプにより監査可能。
導入が容易（Tesseract + Python、GPU でさらに高速）。

短所：

高度な版面アノテーションは最小限である。
認識器（OCR 本体）の学習は別工程となる。
評価自動化は簡易（CER/WER の定常評価は運用で補う）。
長文・大規模学習では VRAM に応じた調整が前提である。

導入・運用メモ

データ配置：各 PC で SESHAT_TRAIN_BASE を設定。
Tesseract 言語：英語、フランス語、ドイツ語、ラテン語、ギリシャ語、日本語。必要に応じて必要言語を追加。
命名規約：<base>.png／<base>.txt の base 名一致を徹底。
GPU 最適化：byt5-small + fp16/bf16、max_len=768、stride=128、小さめバッチ＋勾配蓄積で安定。

今後の最重要目標：

ポスト校正 × 認識器学習のハイブリッド化

同一文の再出現は稀であり、言語モデルだけでは吸収しにくい字形起因の系統誤り（ſ↔f、u↔v、ギリシャの近似字、ダイアクリティカル欠落）が残る。ゆえに、認識器（画素→文字）のドメイン適応を併用を目標としている。

目標：

OCR 単体の CER を段階的に低減。
ByT5 の負担を軽減し、文脈的補正に集中させる。
データパイプライン標準
校正後全文（教師＝修正後）
行単位 GT（1 行画像 ↔ 1 行テキスト、正規化は NFC）
評価固定：gt/val/ を初回に固定し、CER/WER を時系列比較。
認識器学習エンジン候補
Kraken（歴史資料に強い）、Calamari（エンセムブル容易）、Tesseract LSTM finetune（*.traineddata で統合容易）。

総合手順（運用像）

Seshat に GT エクスポート（行 crop＋修正行テキスト）を実装。
300–1,000 行で初回微調整、効果と手順を固める。
2,000–5,000 行で系統誤りを明確に改善。
学習済み OCR を Seshat の OCR ステップに差し替え、その上に ByT5 を継続。
固定開発セットで OCR 単体／+ByT5 の CER/WER を記録し、能動学習的にデータ追加。

リスクと回避策

行ズレ：1 行画像 ↔ 1 行テキストの厳密対応を徹底。
字形喪失：正規化は NFC、NFKC は禁止。
評価ドリフト：gt/val/ 固定・同条件で CER/WER を算出。
希少字未学習：低頻度字を意識抽出、軽い画像増強を併用。

まとめ
Seshat Editor は、ポスト校正の自己学習で即効性を得つつ、蓄積した教師サンプルから認識器を継続学習するハイブリッド戦略へ進化させることで、ローカル完結のまま精度を着実に高める基盤である。巨大クラウドに依存せず、研究現場・アーカイブ機関・個人の史料整理における日々の修正負荷を現実的に減らすことを主眼とする。今後は GT エクスポート → 認識器微調整 → 統合 → 評価の反復を定常運用とし、安定的な精度向上を実現する方針である。

ノストラダムス『予言集』における「予言の期限」の再考

本日、ノストラダムス研究室のサイトに『ノストラダムス『予言集』における「予言の期限」の再考―3797年、トリテミウス周期、そして七千年という二重構造仮説―】が公開された。テーマは、ノストラダムス研究のなかでも長年議論の的となってきた「3797年」という年号である。

3797年という「終点」の意味

『予言集』序文に「3797年まで続く永続的な予言」と記された一文がある。これは一見、グレゴリオ暦における未来年号のように読める。しかし、詩篇や序文の他の記述と突き合わせると、この「3797年」が西暦を意味するとは限らないことが浮かび上がる。むしろ、占星術的な算定や象徴体系の中で導かれた数字である可能性が高い。

トリテミウス周期と惑星支配

16世紀ヨーロッパでは、トリテミウスやその先行者イブン・エズラによる「惑星の支配周期」思想が広く知られていた。各惑星は354年4か月という期間、歴史を支配し、それが繰り返されるという枠組みである。
ノストラダムスもまた、「月に導かれている」と記すことで、この周期体系を受け継いでいる。さらに、リシャール・ルーサやピエール・チュレルの著作を参照したとみられる点も確認できる。

予言集詩篇 1巻48番の「終焉の時」

特に詩篇1巻48番は、予言の終末を示す核心的な箇所とされる。

Quand le soleil prendra ses jours lassés
Lors accomplir & mine ma prophetie.

「太陽が残された日々を受け取るとき、その時わが予言は成就し、その様相を示すであろう」と読める。この「太陽期」とはトリテミウス周期の第3期にあたり、チュレルやルーサもまた、この時代を終末の時代として意識していた。ノストラダムスの時間認識が循環時間論に基づくのであれば、素数である3979という数字をなにかしらの周期システムに組み込むことは難しい。言い換えれば、この素数を組み込むことで循環の終焉を意図していたと考えられる。

二重構造仮説

研究ノートでは、ノストラダムスの予言に二重の時間枠組みが重ねられていることを指摘した。

トリテミウス周期 ― 惑星が順に354年4か月ずつ支配し、3周で世界が終わるという体系。
七千年の周期構造 ― 「七千年」という大きな節目で歴史が切り替わるという象徴的時間観。

この二つが重層的に用いられることで、「3797年」という象徴数が導かれていると考えられる。

まとめ

本稿では「3797年」を単純な未来年号と見るのではなく、トリテミウス周期と七千年の象徴的周期という二重構造の中に位置づけ直すことを提案した。そうすることで、ノストラダムスが意図した「予言の期限」は、太陽の支配が続くあいだに訪れる「終焉の様相」であり、3797はその象徴的な数値にすぎないと理解できるのである。この研究ノートは、従来錯綜してきた「予言の期限」の議論を整理し、16世紀的な宇宙観の文脈で再考するための手がかりとなるであろう。

霊感と星の知識──ノストラダムスの予言はどのように生まれたか？

ノストラダムスの予言──霊感と星の知識
16世紀のフランスで活躍した医師・占星術師ノストラダムス。

その名は現代でも「予言者」として広く知られているが、彼自身は、自らの予言をどのように捉えていたのだろうか。

今回の研究ノートでは、『予言集』に残されたノストラダムス自身の言葉に基づき、彼が「神的霊感」と「天体の知識」という二つの力を融合させていたことを明らかにした。

彼によれば、予言は「神の霊気に触れた者だけが成しうる」ものであり、この霊感を天文学（占星術）における知識や算定と結びつけることで、初めて未来を見通す詩が可能になるとされている。

本研究は、ノストラダムスの予言詩を、単なる曖昧な未来予測としてではなく、神秘思想・占星術・詩的表現が交差する「象徴の装置」として読み解こうとする試みである。

その結果、ノストラダムスの予言が、単なる天体の配置や過去の歴史の再演ではなく、神的霊感によって場所と出来事が与えられ、天文学的算定によってその「時」が定まるという、二段階の構造を持っていることが明らかとなった。星の影響と神的霊感が一体となることにより、初めて未来を語る詩としての「予言詩」が成立するという、その本質が浮かび上がってきたのである。

平たく書くならば、ノストラダムスの予言は、直感だけで読み解くものではなく、占星術の体系から時を知る必要があるということだ。

Seshatツールズ　その２

Seshatツールとして前回作ったフォント画像の定量比較解析IRIS(Image Regression-based Inference & Similarity;
画像回帰に基づく推論および類似性評価システム)は『影印本は本当に「原本の完全な写し」なのか──Krafft版とDresden本の書体比較から見えて』で活躍してくれたが、今回は原文からSeshatでOCRした結果と原書を比較して修正するエディタを作成。

現在は単にそれぞれのファイルを読み込んで、修正するエディタなのだが、論文に引用した部分を修正するには便利なエディタだ。ルネサンス時代の特殊文字も追加できるようにしているので、OCRが読み取りミスしやすいアクセント付きあるいはチルダ付の文字や省略文字も選択して入力できる。Seshatは範囲OCRもできるので、このエディタとも相性が良いだろう。

今後は、このエディタをUIとしてSeshatの検索エンジンを組み込んで、OCR後のテキストファイルとOCRした原書のページを同時に表示させて、修正後、表示部の機械学習させる。という形にできないものかと。修正している所は原書にリアルタイムにマークできれば完璧。

1999年の予言詩の解明後は、残るのは予言の期限3797年とAnaragonique回帰の解明が残っている。

Anaragoniqueとはおそらくノストラダムスの造語であるが、これまでの研究をよんでも納得できる解釈がない。

両方ともおおむね納得できる推察ができているが、それを裏付ける文献調査にとてもSeshatは役立つ。

OCRの正解率をあげると修正が少なくなるので、調査のついでに修正して学習させるというルーチンで育てられる面白さがある。中世から近代の言語修正を支援育てるAI-OCR搭載のエディタは他にあるのだろうか？

まぁ、あまりにニッチなので売れないだろうが・・・。

前ページ
次ページ