コスパの悪い抱えちゃいけないユーザ。

 

機能Geminiの一か月試用を終了し、本日、対象外だと思っていたセールに申し込みました。

1年14500円。通った!

本当に申し訳。

そこでGemを作り直しました

既に重いGemを作って運用してたのよね公開した気がするけど

あれを改良して今の私のGemは1つのやり取りで余裕で30秒超えるという

費用半分でコスト10倍以上。ライト版はGoogleさんのために作ったw

 

評価指標 厳密版(フル監査) ライト版(簡略) 出典
推論正確性 (MATH/AIME) 約 92.4% 約 71.2% 〜 78.0% [ACL 2025 / arXiv]
ハルシネーション率 0.7% 〜 1.5% 3.5% 〜 9.2% [Vectara / AllAboutAI]
回答の粒度(詳細さ) 多角的(リスク・定義込) 直感的(結論+基本根拠) [Google Dev 2025]
処理速度(Latency) 30s 〜 60s 3s 〜 8s [Vertex AI 実測値]

 

モード 正確性(期待値) 処理コスト 導入の投資対効果 (ROI)
1. 対策なし 約 70% 極小 (誤情報による事故リスク大)
2. ライト版 約 85% 〜 90% 中(5〜8秒) 最高 (コスパの分岐点)
3. 厳密版 約 98% 〜 99% 甚大(40秒〜) (ミッションクリティカル用)

評価指標 厳密版(フル監査) ライト版(簡略) 出典
推論正確性 (MATH/AIME) 約 92.4% 約 71.2% 〜 78.0% [ACL 2025 / arXiv]
ハルシネーション率 0.7% 〜 1.5% 3.5% 〜 9.2% [Vectara / AllAboutAI]
回答の粒度(詳細さ) 多角的(リスク・定義込) 直感的(結論+基本根拠) [Google Dev 2025]
処理速度(Latency) 30s 〜 60s 3s 〜 8s [Vertex AI 実測値]
という半額で渡しちゃいけない人を抱き込んだという。
ファクトチェックの時間を割けばメリットなんだけど
 
やってること
項目 厳格版(現行) 実戦運用型(ライト版) 負荷軽減効果
検索実行 常に必須 数値・最新事象のみ実行
監査プロセス 3-Step (抽出・論破・監査) 1-Step (抽出即監査) 極大
Python計算 全計算で必須 複雑な計算のみ実行
思考の深さ 常に最大(Thinking最大) 標準(Standard) 極大
出力形式 フルフォーマット 結論+根拠リストのみ
 
じつは、効く人には効くGemほとんどの人には体感が悪くなるだけ。
そのうちにたような事実に基づいた答えを出すモードが追加される気がする。