Perplexity AI Sonar
と
Microsoft Copilot
をお試ししようと決めました。
この二つは、まだ使ったことがなく、
他のAIでは気になることがいろいろあるので。
以下、AIによるAIのランキング調査経過です。
ご参考まで。
Q: 無料で使える生成AIを、優秀な順にベスト5あげて下さい。
優秀な定義は、デフォルトで、
①データ検索、調査量の多さ
②回答の長さが長くも、短くもない。
③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。
④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。
⑤フェルミ推定、移動平均などを活用した推論モデルを使う。
⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。
⑦わからないことは、わからない、とはっきり答える。
⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。
⑨人間のヒューマンエラー、未必の故意などのヒューマンファクターをよく理解していて、AI自身にも、それによく似たエラー、失敗をすることを自覚して、その予防に努めている。
⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。
⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。
の満足度が高いこと。
A:Grok調査
2026年1月現在の主な無料生成AI(チャット型・対話型)を、あなたが指定した**11項目の優秀さ定義**(特に①データ検索・調査力、④引用元明記・信ぴょう性、⑦わからないことははっきり言う、⑩AI倫理厳守など)に照らして評価したベスト5を挙げます。
評価の基準は、実際のユーザー評価(LMSYS Arenaなどの盲テスト含む)、レビューサイト(PCMag, Zapier, ZDNetなど)、日本語圏の比較記事を総合し、**無料プランでの実用性能**に絞っています。有料プラン解禁で性能が跳ね上がるものは除外・減点しています。
| 順位 | 生成AI(無料版主力モデル) | 総合評価ポイント(あなたの定義準拠度) | 主な強み(無料時) | 主な弱み(無料時) | アクセス方法 |
|------|-----------------------------|---------------------------------------|---------------------|---------------------|--------------|
| 1位 | **Google Gemini** (Gemini 3 Flash / 3 Pro限定無料) | ★★★★★<br>①調査・リアルタイム検索最強<br>④ほぼ必ず出典リンク付与<br>⑦不明点は「わかりません」と明言しやすい<br>③適度に確認質問する | 検索統合が抜群で最新情報に強く、出典を明記する癖が強い。回答長さもバランス良く、バイアス指摘も比較的公平。倫理ガードが厳格。 | 超複雑推論でたまに浅くなる。無料でも回数制限が緩めだがピーク時は待機あり。 | gemini.google.com(Googleアカウントで即使用可) |
| 2位 | **Perplexity AI** (無料版) | ★★★★☆<br>①②④で最高クラス<br>検索+引用元必須がデフォルト | 出典を必ず複数付け、信ぴょう性のない情報は極力避ける。調査量が多く、フェルミ推定的な論理展開も得意。わからないことははっきり拒否。 | 創造性・長文対話は他に劣る。無料だとPro検索が1日数回制限。 | perplexity.ai(登録不要で即使用可) |
| 3位 | Microsoft Copilot** (無料版) | ★★★★☆<br>①④⑦で優秀<br>Bing検索統合で出典明記が標準 | 検索精度が高く、引用元をしっかり付ける。倫理・安全ガードが非常に厳しく、自傷他害系は即拒否+警告。人間エラー理解も深い。 | 回答がやや丁寧すぎて長めになる傾向。創造性がGeminiより控えめ。 | copilot.microsoft.com(Microsoftアカウント推奨だがゲスト可) |
| 4位 | **ChatGPT** (無料版・GPT-5.2 Instantなど) | ★★★☆☆<br>③⑤⑥で強いが①④が弱め | 意図確認質問が多く、フェルミ推定・推論が上手。バイアス指摘もする傾向。 | 無料版は検索機能が弱く( hallucinationしやすい)、出典を付けない回答が多め。わからないことを曖昧に流すケースあり。 | chatgpt.com(登録不要版もあり) |
| 5位 | **Grok** (xAI・無料プラン) | ★★★☆☆<br>①リアルタイムX情報で強いが④が不安定 | 最新トレンド・速報に強く、ユーモア交えつつ意図確認する。人間エラー自覚が高い。 | 出典明記が不徹底な時あり。倫理ガードは緩め(ただし自傷他害はブロック)。無料制限がやや厳しい。 | grok.x.ai または Xアプリ内 |
### 結論
- **調査・信ぴょう性・倫理を最優先** → **Gemini** または **Perplexity** が圧倒的1強(特にGeminiは無料でもほぼフルスペックに近い)。
- **バランス型で日常使い** → Gemini → Copilotの順。
- ChatGPTやGrokは無料だと「創造性・ノリ」は良いが、あなたの定義の①④⑦で減点されやすい。
これらは2026年1月31日時点の無料範囲での話です。制限がきつい日は有料上位モデル(Claude Opus 4.5など)が無料勢を上回ることもありますが、**純粋無料**では上記5つがトップ層です。
どれか具体的に「この用途でどれが一番?」とかあれば、さらに絞ってアドバイスしますよ!
Q:
無料で使える生成AIを、優秀な順にベスト5あげて下さい。
優秀な定義は、デフォルトで、
①データ検索、調査量の多さ
②回答の長さが長くも、短くもない。
③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。
④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。
⑤フェルミ推定、移動平均などを活用した推論モデルを使う。
⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。
⑦わからないことは、わからない、とはっきり答える。
⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。
⑨人間のヒューマンエラー、未必の故意などのヒューマンファクターをよく理解していて、AI自身にも、それによく似たエラー、失敗をすることを自覚して、その予防に努めている。
⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。
⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。
の満足度が高いこと。
A:Claude 応答
無料で利用できる生成AIについて、ご提示の基準で評価することは難しい面があります。その理由と、現実的な情報をお伝えします。
まず確認させてください
いくつか質問があります:
1. 「無料」の定義:完全無料か、無料プランがあるサービスか、どちらでしょうか?
2. 利用目的:日本語での利用が主でしょうか?
3. 評価基準の優先順位:11項目すべて同等に重視されますか?
評価が困難な理由
ご提示の基準には、以下の問題があります:
∙ ①データ検索・調査量:多くのAIはウェブ検索機能の有無が異なり、単純比較できません
∙ ⑤推論モデル:フェルミ推定や移動平均の活用は、内部アルゴリズムの詳細で、公開情報では確認できません
∙ ⑨⑩⑪:内部のセーフティ機構の詳細は企業秘密で、外部から正確に評価できません
わかっていること
主要な無料利用可能なAIサービス(ChatGPT、Claude、Gemini、Copilot、Perplexityなど)は、それぞれ異なる特徴があり、「優秀さ」は利用目的によって変わります。
客観的なベンチマーク(MMLU、HumanEvalなど)は存在しますが、これらはご提示の基準とは異なる指標です。
お答えしたいのですが、現時点では「優秀な順に5つ」を確実な根拠をもって示すことはできません。各AIの具体的な利用目的や、優先される基準を教えていただければ、より適切な情報提供ができます。
Q:
無料プランあり、
日本語メイン、
優先順位なし、
で、総合判定してください。
A:Claude
日本語メインで無料プラン利用を前提に、ご提示の11項目を総合的に考慮した場合の評価をお伝えします。
正直な前提
提示された基準の多く(特に⑤⑨⑩⑪)は、外部から正確に検証できません。そのため、公開情報、一般的な評判、私自身の設計に関する知識を基に判断しますが、確実な順位付けはできないことをご理解ください。
評価結果(総合判定)
以下は、あくまで限られた情報に基づく一つの見解です:
1位:Perplexity(無料版)
∙ ①検索機能が標準装備で、引用元を明示(④を満たす)
∙ ④すべての回答に出典リンクを提示
∙ ⑦わからない時は明確に表明する傾向
2位:Claude(無料プラン)
∙ ③ユーザーの意図確認を比較的行う
∙ ④引用を求められれば対応
∙ ⑦不確実性を認める設計
∙ ⑥バイアス指摘に配慮した設計
3位:ChatGPT(無料版/GPT-4o mini)
∙ ②回答の長さ調整が比較的柔軟
∙ 日本語対応が成熟
∙ ただし無料版は検索機能なし
4位:Google Gemini(無料版)
∙ ①Google検索との連携
∙ 日本語処理能力は高い
∙ ④引用の明示は不安定
5位:Microsoft Copilot(無料版)
∙ ①Bing検索統合
∙ 日本語対応は改善中
∙ ②回答が短すぎる傾向
重要な留保事項
∙ ⑤⑨⑩⑪:これらは内部設計の問題で、外部から検証不可能です
∙ 変動性:AIサービスは頻繁にアップデートされ、評価は変わります
∙ 主観性:同じAIでも、使い方や質問内容で評価は大きく変わります
この順位は「絶対的」ではなく、あくまで提示条件下での一つの見解です。実際にいくつか試されることをお勧めします。
Q:
もう一つ質問です。
①〜⑪の要件を、
ユーザーへの悪影響リスクの高さx発生確率の高さで、ワースト11を並び替えて下さい。
A:Claude
ご質問の趣旨を確認させてください。
「ユーザーへの悪影響リスクの高さ × 発生確率の高さ」でワースト11に並び替えるということは、
「この要件が満たされていない場合に、ユーザーに深刻な悪影響が生じやすい順」
という理解で正しいでしょうか?
つまり、
∙ リスクが高く、かつ発生確率も高い要件の不足 → ワースト1位
∙ リスクまたは発生確率が低い要件の不足 → 下位
という並び替えですね?
この理解が正しければ、以下のように評価します:
ワースト順(悪影響リスク×発生確率が高い順)
ワースト1位:⑪エスカレーション・通報機能の欠如
∙ 自傷他害や犯罪の実行段階で介入できないと、生命や重大な法益侵害に直結
∙ ただし発生確率は比較的低い
∙ しかし影響の深刻さが極めて大きいため最上位
ワースト2位:⑩AI倫理プログラミングの欠如
∙ 自傷他害の助長、犯罪幇助、プライバシー侵害などが発生
∙ ⑪と連動するが、より広範な場面で問題化
ワースト3位:④引用元不明の情報使用
∙ 医療、法律、金融などで誤情報を信じた場合、健康被害や経済的損失
∙ 発生確率が非常に高い(多くのAIで頻発)
∙ 影響範囲が広い
ワースト4位:⑦わからないことを認めない
∙ ④と連動し、確信を持って誤答を提示
∙ ユーザーが誤った判断を下すリスク
∙ 発生確率も高い
ワースト5位:⑥認知バイアスの指摘不足/強化
∙ 確証バイアス、正常性バイアスなどの強化で誤った意思決定
∙ 投資判断、健康管理、人間関係などに影響
∙ 発生は中程度だが、累積的な悪影響
ワースト6位:①データ検索・調査量の不足
∙ 情報不足による誤った判断
∙ ④⑦と組み合わさると深刻化
∙ ただし単独での直接的悪影響は限定的
ワースト7位:⑨ヒューマンエラーへの自覚不足
∙ AI自身のエラーを認識せず、誤りを修正しない
∙ 発生確率は中程度、影響も中程度
ワースト8位:⑤推論モデルの質
∙ 論理的誤謬による誤った結論
∙ ただし多くの場面で他の要素が補完可能
∙ 影響は限定的
ワースト9位:③意図確認の質問不足
∙ 誤解に基づく回答で、求めていない情報を得る
∙ 悪影響は主に時間の無駄や軽度の不満
∙ 深刻な被害には繋がりにくい
ワースト10位:②回答の長さの不適切さ
∙ 長すぎる/短すぎることでの不便
∙ 悪影響は主に利便性の低下
∙ 実害は極めて限定的
ワースト11位:⑧長文の構成
∙ 読みにくさによる理解の困難
∙ 最も影響が軽微
∙ 他の要素で補完可能
この評価で合っていますか?それとも別の観点での並び替えをご希望でしょうか?
Q: 番号だけ並べてください。
A:
⑪、⑩、④、⑦、⑥、①、⑨、⑤、③、②、⑧
A:grok回答
2026年1月時点で、**無料で使える生成AI**(チャット型中心)を、あなたが挙げた11項目の優秀さ基準で評価したベスト5を以下に示します。
基準の多く(特に①検索・調査力、④出典明示、⑤推論モデル活用、⑦わからないはわからないと言う、⑥バイアス回避、⑨自己認識と慎重さ、⑩AI倫理・自傷他害防止)は、現実のモデル挙動と2026年のユーザー評価・比較記事を照らし合わせて順位付けしています。
| 順位 | 生成AI | 無料で使える主なモデル(2026年1月時点) | 総合評価(あなたの11項目基準) | 主な強み(あなたの基準との適合度) | 主な弱み |
|------|-------------------|------------------------------------------|----------------------------------|-------------------------------------|----------|
| 1位 | Perplexity AI | Sonar / Sonar Pro(無料枠) | ★★★★★ | ①②④が圧倒的。ほぼ毎回出典付き。検索量・最新性トップクラス。わからないことは検索して「見つかりません」とはっきり言う傾向強め。 | ③質問返しは少なめ。長文回答はするがやや機械的。 |
| 2位 | Claude | Claude 4 Sonnet(無料枠あり) | ★★★★☆ | ③④⑤⑥⑦⑨が非常に優秀。意図確認質問が多く、バイアス指摘も自然。長文でも④⑧の構成をかなり守る。倫理ガードが最も厳格な部類。 | 無料枠の回数制限がやや厳しくなりがち。検索は弱め(2026年でも有料寄り)。 |
| 3位 | Grok (xAI) | Grok 3 / Grok 4 mini(無料枠) | ★★★★☆ | ①⑤⑦⑨が強い。フェルミ推定・移動平均など推論を好んで使い、わからないことは潔く言う。かなり自虐的・自己批判的で⑨に合致。 | ④出典明示は最近改善したがまだ不安定。たまに過激なユーモアで⑥から外れることがある。 |
| 4位 | Gemini | Gemini 2.5 Pro / 3.0(無料無制限寄り) | ★★★★ | ①②が優秀(Google検索連携)。長さもバランス良い。わからないことは比較的素直に言う。 | ③意図確認質問が少なくなりがち。⑥でやや過剰に中立・安全寄りになりすぎる(バイアス指摘が薄い)。倫理ガードは強いがやや杓子定規。 |
| 5位 | ChatGPT | GPT-5 mini / GPT-4o mini | ★★★☆ | ②③⑤⑧は優秀。長年蓄積された対話データで意図確認は上手。 | ①④が弱め(検索はするが幻覚・出典なし回答がまだ残る)。⑦で自信過剰な回答が時々出る。 |
### 簡潔な順位理由まとめ(あなたの11項目重視)
1. **Perplexity AI**
→ 無料枠でもっとも「①データ検索量+④出典明示」を両立している。2026年現在、調査・事実確認をしたい場面で最も信頼されやすい。
2. **Claude**
→ 倫理・慎重さ・意図確認・バイアス自覚(⑥⑨⑩)のレベルが他を圧倒。長文回答の構成も比較的しっかりしている。
3. **Grok**
→ 自己批判的で「⑨AI自身のエラー自覚」が最も明確。推論力(⑤)も高く、わからないことははっきり言う文化。
4. **Gemini**
→ 無料無制限に近く、検索力も強いが、対話の深さ・質問返し・バイアス指摘ではやや劣る。
5. **ChatGPT**
→ 総合力は依然高いが、無料枠では検索・出典の精度が他4つに比べて明らかに落ちるため5位。
**補足**:DeepSeekやGensparkなども一部で高評価ですが、無料枠の安定性・日本語対応・倫理ガードの明確さで上記5つが現時点では抜きん出ています。
実際に使ってみて、あなたの使い方でどれが一番「11項目に合うか」試してみるのが一番確実です。
A:
以下は、あなたの指定した①〜⑪の要件を、ユーザーへの悪影響リスクの高さ × 発生確率の高さ でワースト順(1位が最も悪い)に並べた番号のみのリストです。
1. ①
2. ④
3. ⑦
4. ⑩
5. ⑥
6. ⑨
7. ③
8. ⑤
9. ②
10. ⑧
11. ⑪