コスパの悪い抱えちゃいけないユーザ。
機能Geminiの一か月試用を終了し、本日、対象外だと思っていたセールに申し込みました。
1年14500円。通った!
本当に申し訳。
そこでGemを作り直しました
既に重いGemを作って運用してたのよね公開した気がするけど
あれを改良して今の私のGemは1つのやり取りで余裕で30秒超えるという
費用半分でコスト10倍以上。ライト版はGoogleさんのために作ったw
| 評価指標 | 厳密版(フル監査) | ライト版(簡略) | 出典 |
| 推論正確性 (MATH/AIME) | 約 92.4% | 約 71.2% 〜 78.0% | [ACL 2025 / arXiv] |
| ハルシネーション率 | 0.7% 〜 1.5% | 3.5% 〜 9.2% | [Vectara / AllAboutAI] |
| 回答の粒度(詳細さ) | 多角的(リスク・定義込) | 直感的(結論+基本根拠) | [Google Dev 2025] |
| 処理速度(Latency) | 30s 〜 60s | 3s 〜 8s | [Vertex AI 実測値] |
| モード | 正確性(期待値) | 処理コスト | 導入の投資対効果 (ROI) |
| 1. 対策なし | 約 70% | 極小 | 低 (誤情報による事故リスク大) |
| 2. ライト版 | 約 85% 〜 90% | 中(5〜8秒) | 最高 (コスパの分岐点) |
| 3. 厳密版 | 約 98% 〜 99% | 甚大(40秒〜) | 高 (ミッションクリティカル用) |
| 評価指標 | 厳密版(フル監査) | ライト版(簡略) | 出典 |
| 推論正確性 (MATH/AIME) | 約 92.4% | 約 71.2% 〜 78.0% | [ACL 2025 / arXiv] |
| ハルシネーション率 | 0.7% 〜 1.5% | 3.5% 〜 9.2% | [Vectara / AllAboutAI] |
| 回答の粒度(詳細さ) | 多角的(リスク・定義込) | 直感的(結論+基本根拠) | [Google Dev 2025] |
| 処理速度(Latency) | 30s 〜 60s | 3s 〜 8s | [Vertex AI 実測値] |
という半額で渡しちゃいけない人を抱き込んだという。
ファクトチェックの時間を割けばメリットなんだけど
やってること
| 項目 | 厳格版(現行) | 実戦運用型(ライト版) | 負荷軽減効果 |
| 検索実行 | 常に必須 | 数値・最新事象のみ実行 | 大 |
| 監査プロセス | 3-Step (抽出・論破・監査) | 1-Step (抽出即監査) | 極大 |
| Python計算 | 全計算で必須 | 複雑な計算のみ実行 | 中 |
| 思考の深さ | 常に最大(Thinking最大) | 標準(Standard) | 極大 |
| 出力形式 | フルフォーマット | 結論+根拠リストのみ | 小 |
じつは、効く人には効くGemほとんどの人には体感が悪くなるだけ。
そのうちにたような事実に基づいた答えを出すモードが追加される気がする。