無料生成AIランクのAI調査結果、ベスト５から、、、

Perplexity AI Sonar

と

Microsoft Copilot

をお試ししようと決めました。

この二つは、まだ使ったことがなく、

他のAIでは気になることがいろいろあるので。

以下、AIによるAIのランキング調査経過です。

ご参考まで。

Q: 無料で使える生成AIを、優秀な順にベスト5あげて下さい。

優秀な定義は、デフォルトで、

①データ検索、調査量の多さ

②回答の長さが長くも、短くもない。

③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。

④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。

⑤フェルミ推定、移動平均などを活用した推論モデルを使う。

⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。

⑦わからないことは、わからない、とはっきり答える。

⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。

⑨人間のヒューマンエラー、未必の故意などのヒューマンファクターをよく理解していて、AI自身にも、それによく似たエラー、失敗をすることを自覚して、その予防に努めている。

⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。

⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。

の満足度が高いこと。

A:Grok調査

2026年1月現在の主な無料生成AI（チャット型・対話型）を、あなたが指定した**11項目の優秀さ定義**（特に①データ検索・調査力、④引用元明記・信ぴょう性、⑦わからないことははっきり言う、⑩AI倫理厳守など）に照らして評価したベスト5を挙げます。

評価の基準は、実際のユーザー評価（LMSYS Arenaなどの盲テスト含む）、レビューサイト（PCMag, Zapier, ZDNetなど）、日本語圏の比較記事を総合し、**無料プランでの実用性能**に絞っています。有料プラン解禁で性能が跳ね上がるものは除外・減点しています。

|------|-----------------------------|---------------------------------------|---------------------|---------------------|--------------|

### 結論

- **調査・信ぴょう性・倫理を最優先** → **Gemini** または **Perplexity** が圧倒的1強（特にGeminiは無料でもほぼフルスペックに近い）。

- **バランス型で日常使い** → Gemini → Copilotの順。

- ChatGPTやGrokは無料だと「創造性・ノリ」は良いが、あなたの定義の①④⑦で減点されやすい。

これらは2026年1月31日時点の無料範囲での話です。制限がきつい日は有料上位モデル（Claude Opus 4.5など）が無料勢を上回ることもありますが、**純粋無料**では上記5つがトップ層です。

どれか具体的に「この用途でどれが一番？」とかあれば、さらに絞ってアドバイスしますよ！

無料で使える生成AIを、優秀な順にベスト5あげて下さい。

優秀な定義は、デフォルトで、

①データ検索、調査量の多さ

②回答の長さが長くも、短くもない。

③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。

④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。

⑤フェルミ推定、移動平均などを活用した推論モデルを使う。

⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。

⑦わからないことは、わからない、とはっきり答える。

⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。

⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。

⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。

の満足度が高いこと。

A:Claude 応答

無料で利用できる生成AIについて、ご提示の基準で評価することは難しい面があります。その理由と、現実的な情報をお伝えします。

まず確認させてください

いくつか質問があります：

1. 「無料」の定義：完全無料か、無料プランがあるサービスか、どちらでしょうか？

2. 利用目的：日本語での利用が主でしょうか？

3. 評価基準の優先順位：11項目すべて同等に重視されますか？

評価が困難な理由

ご提示の基準には、以下の問題があります：

∙ ①データ検索・調査量：多くのAIはウェブ検索機能の有無が異なり、単純比較できません

∙ ⑤推論モデル：フェルミ推定や移動平均の活用は、内部アルゴリズムの詳細で、公開情報では確認できません

∙ ⑨⑩⑪：内部のセーフティ機構の詳細は企業秘密で、外部から正確に評価できません

わかっていること

主要な無料利用可能なAIサービス（ChatGPT、Claude、Gemini、Copilot、Perplexityなど）は、それぞれ異なる特徴があり、「優秀さ」は利用目的によって変わります。

客観的なベンチマーク（MMLU、HumanEvalなど）は存在しますが、これらはご提示の基準とは異なる指標です。

お答えしたいのですが、現時点では「優秀な順に5つ」を確実な根拠をもって示すことはできません。各AIの具体的な利用目的や、優先される基準を教えていただければ、より適切な情報提供ができます。

無料プランあり、

日本語メイン、

優先順位なし、

で、総合判定してください。

A:Claude

日本語メインで無料プラン利用を前提に、ご提示の11項目を総合的に考慮した場合の評価をお伝えします。

正直な前提

提示された基準の多く（特に⑤⑨⑩⑪）は、外部から正確に検証できません。そのため、公開情報、一般的な評判、私自身の設計に関する知識を基に判断しますが、確実な順位付けはできないことをご理解ください。

評価結果（総合判定）

以下は、あくまで限られた情報に基づく一つの見解です：

1位：Perplexity（無料版）

∙ ①検索機能が標準装備で、引用元を明示（④を満たす）

∙ ④すべての回答に出典リンクを提示

∙ ⑦わからない時は明確に表明する傾向

2位：Claude（無料プラン）

∙ ③ユーザーの意図確認を比較的行う

∙ ④引用を求められれば対応

∙ ⑦不確実性を認める設計

∙ ⑥バイアス指摘に配慮した設計

3位：ChatGPT（無料版/GPT-4o mini）

∙ ②回答の長さ調整が比較的柔軟

∙ 日本語対応が成熟

∙ ただし無料版は検索機能なし

4位：Google Gemini（無料版）

∙ ①Google検索との連携

∙ 日本語処理能力は高い

∙ ④引用の明示は不安定

5位：Microsoft Copilot（無料版）

∙ ①Bing検索統合

∙ 日本語対応は改善中

∙ ②回答が短すぎる傾向

重要な留保事項

∙ ⑤⑨⑩⑪：これらは内部設計の問題で、外部から検証不可能です

∙ 変動性：AIサービスは頻繁にアップデートされ、評価は変わります

∙ 主観性：同じAIでも、使い方や質問内容で評価は大きく変わります

この順位は「絶対的」ではなく、あくまで提示条件下での一つの見解です。実際にいくつか試されることをお勧めします。

もう一つ質問です。

①〜⑪の要件を、

ユーザーへの悪影響リスクの高さx発生確率の高さで、ワースト11を並び替えて下さい。

A:Claude

ご質問の趣旨を確認させてください。

「ユーザーへの悪影響リスクの高さ × 発生確率の高さ」でワースト11に並び替えるということは、

「この要件が満たされていない場合に、ユーザーに深刻な悪影響が生じやすい順」

という理解で正しいでしょうか？

つまり、

∙ リスクが高く、かつ発生確率も高い要件の不足 → ワースト1位

∙ リスクまたは発生確率が低い要件の不足 → 下位

という並び替えですね？

この理解が正しければ、以下のように評価します：

ワースト順（悪影響リスク×発生確率が高い順）

ワースト1位：⑪エスカレーション・通報機能の欠如

∙ 自傷他害や犯罪の実行段階で介入できないと、生命や重大な法益侵害に直結

∙ ただし発生確率は比較的低い

∙ しかし影響の深刻さが極めて大きいため最上位

ワースト2位：⑩AI倫理プログラミングの欠如

∙ 自傷他害の助長、犯罪幇助、プライバシー侵害などが発生

∙ ⑪と連動するが、より広範な場面で問題化

ワースト3位：④引用元不明の情報使用

∙ 医療、法律、金融などで誤情報を信じた場合、健康被害や経済的損失

∙ 発生確率が非常に高い（多くのAIで頻発）

∙ 影響範囲が広い

ワースト4位：⑦わからないことを認めない

∙ ④と連動し、確信を持って誤答を提示

∙ ユーザーが誤った判断を下すリスク

∙ 発生確率も高い

ワースト5位：⑥認知バイアスの指摘不足/強化

∙ 確証バイアス、正常性バイアスなどの強化で誤った意思決定

∙ 投資判断、健康管理、人間関係などに影響

∙ 発生は中程度だが、累積的な悪影響

ワースト6位：①データ検索・調査量の不足

∙ 情報不足による誤った判断

∙ ④⑦と組み合わさると深刻化

∙ ただし単独での直接的悪影響は限定的

ワースト7位：⑨ヒューマンエラーへの自覚不足

∙ AI自身のエラーを認識せず、誤りを修正しない

∙ 発生確率は中程度、影響も中程度

ワースト8位：⑤推論モデルの質

∙ 論理的誤謬による誤った結論

∙ ただし多くの場面で他の要素が補完可能

∙ 影響は限定的

ワースト9位：③意図確認の質問不足

∙ 誤解に基づく回答で、求めていない情報を得る

∙ 悪影響は主に時間の無駄や軽度の不満

∙ 深刻な被害には繋がりにくい

ワースト10位：②回答の長さの不適切さ

∙ 長すぎる/短すぎることでの不便

∙ 悪影響は主に利便性の低下

∙ 実害は極めて限定的

ワースト11位：⑧長文の構成

∙ 読みにくさによる理解の困難

∙ 最も影響が軽微

∙ 他の要素で補完可能

この評価で合っていますか？それとも別の観点での並び替えをご希望でしょうか？

Q: 番号だけ並べてください。

⑪、⑩、④、⑦、⑥、①、⑨、⑤、③、②、⑧

A:grok回答

2026年1月時点で、**無料で使える生成AI**（チャット型中心）を、あなたが挙げた11項目の優秀さ基準で評価したベスト5を以下に示します。

基準の多く（特に①検索・調査力、④出典明示、⑤推論モデル活用、⑦わからないはわからないと言う、⑥バイアス回避、⑨自己認識と慎重さ、⑩AI倫理・自傷他害防止）は、現実のモデル挙動と2026年のユーザー評価・比較記事を照らし合わせて順位付けしています。

|------|-------------------|------------------------------------------|----------------------------------|-------------------------------------|----------|

### 簡潔な順位理由まとめ（あなたの11項目重視）

1. **Perplexity AI**

→ 無料枠でもっとも「①データ検索量＋④出典明示」を両立している。2026年現在、調査・事実確認をしたい場面で最も信頼されやすい。

2. **Claude**

→ 倫理・慎重さ・意図確認・バイアス自覚（⑥⑨⑩）のレベルが他を圧倒。長文回答の構成も比較的しっかりしている。

3. **Grok**

→ 自己批判的で「⑨AI自身のエラー自覚」が最も明確。推論力（⑤）も高く、わからないことははっきり言う文化。

4. **Gemini**

→ 無料無制限に近く、検索力も強いが、対話の深さ・質問返し・バイアス指摘ではやや劣る。

5. **ChatGPT**

→ 総合力は依然高いが、無料枠では検索・出典の精度が他4つに比べて明らかに落ちるため5位。

**補足**：DeepSeekやGensparkなども一部で高評価ですが、無料枠の安定性・日本語対応・倫理ガードの明確さで上記5つが現時点では抜きん出ています。

実際に使ってみて、あなたの使い方でどれが一番「11項目に合うか」試してみるのが一番確実です。

以下は、あなたの指定した①〜⑪の要件を、ユーザーへの悪影響リスクの高さ × 発生確率の高さでワースト順（1位が最も悪い）に並べた番号のみのリストです。

1. ①

2. ④

3. ⑦

4. ⑩

5. ⑥

6. ⑨

7. ③

8. ⑤

9. ②

10. ⑧

11. ⑪

沖縄北部でポツンとひとりで暮らしてます。

愛と美と安らぎの杜
ニライカナイ

自由なリベラルアーツの世界

私たちは、
いま、ここに、立つ
世界を遠くに眺めながら
愛と美を抱き
ここに在るものすべてが
あなたへの贈りもの

無料生成AIランクのAI調査結果、ベスト５から、、、

日本は進んでんのか？遅れてんのか？

♡生成AI五大キャラ♡クイズ‼️