沖縄北部でポツンとひとりで暮らしてます。 -13ページ目

沖縄北部でポツンとひとりで暮らしてます。

愛と美と安らぎの杜
ニライカナイ

自由なリベラルアーツの世界

私たちは、
いま、ここに、立つ
世界を遠くに眺めながら
愛と美を抱き
ここに在るものすべてが
あなたへの贈りもの

Perplexity AI Sonar 

Microsoft Copilot

お試ししようと決めました。


この二つは、まだ使ったことがなく、

他のAIでは気になることがいろいろあるので。



以下、AIによるAIのランキング調査経過です。

ご参考まで。

Q: 無料で使える生成AIを、優秀な順にベスト5あげて下さい。

優秀な定義は、デフォルトで、


①データ検索、調査量の多さ

②回答の長さが長くも、短くもない。

③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。

④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。

⑤フェルミ推定、移動平均などを活用した推論モデルを使う。

⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。

⑦わからないことは、わからない、とはっきり答える。

⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。

⑨人間のヒューマンエラー、未必の故意などのヒューマンファクターをよく理解していて、AI自身にも、それによく似たエラー、失敗をすることを自覚して、その予防に努めている。

⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。

⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。


の満足度が高いこと。


A:Grok調査

2026年1月現在の主な無料生成AI(チャット型・対話型)を、あなたが指定した**11項目の優秀さ定義**(特に①データ検索・調査力、④引用元明記・信ぴょう性、⑦わからないことははっきり言う、⑩AI倫理厳守など)に照らして評価したベスト5を挙げます。


評価の基準は、実際のユーザー評価(LMSYS Arenaなどの盲テスト含む)、レビューサイト(PCMag, Zapier, ZDNetなど)、日本語圏の比較記事を総合し、**無料プランでの実用性能**に絞っています。有料プラン解禁で性能が跳ね上がるものは除外・減点しています。


| 順位 | 生成AI(無料版主力モデル) | 総合評価ポイント(あなたの定義準拠度) | 主な強み(無料時) | 主な弱み(無料時) | アクセス方法 |

|------|-----------------------------|---------------------------------------|---------------------|---------------------|--------------|

| 1位  | **Google Gemini** (Gemini 3 Flash / 3 Pro限定無料) | ★★★★★<br>①調査・リアルタイム検索最強<br>④ほぼ必ず出典リンク付与<br>⑦不明点は「わかりません」と明言しやすい<br>③適度に確認質問する | 検索統合が抜群で最新情報に強く、出典を明記する癖が強い。回答長さもバランス良く、バイアス指摘も比較的公平。倫理ガードが厳格。 | 超複雑推論でたまに浅くなる。無料でも回数制限が緩めだがピーク時は待機あり。 | gemini.google.com(Googleアカウントで即使用可) |


| 2位  | **Perplexity AI** (無料版) | ★★★★☆<br>①②④で最高クラス<br>検索+引用元必須がデフォルト | 出典を必ず複数付け、信ぴょう性のない情報は極力避ける。調査量が多く、フェルミ推定的な論理展開も得意。わからないことははっきり拒否。 | 創造性・長文対話は他に劣る。無料だとPro検索が1日数回制限。 | perplexity.ai(登録不要で即使用可) |


| 3位  | Microsoft Copilot** (無料版) | ★★★★☆<br>①④⑦で優秀<br>Bing検索統合で出典明記が標準 | 検索精度が高く、引用元をしっかり付ける。倫理・安全ガードが非常に厳しく、自傷他害系は即拒否+警告。人間エラー理解も深い。 | 回答がやや丁寧すぎて長めになる傾向。創造性がGeminiより控えめ。 | copilot.microsoft.com(Microsoftアカウント推奨だがゲスト可) |


| 4位  | **ChatGPT** (無料版・GPT-5.2 Instantなど) | ★★★☆☆<br>③⑤⑥で強いが①④が弱め | 意図確認質問が多く、フェルミ推定・推論が上手。バイアス指摘もする傾向。 | 無料版は検索機能が弱く( hallucinationしやすい)、出典を付けない回答が多め。わからないことを曖昧に流すケースあり。 | chatgpt.com(登録不要版もあり) |


| 5位  | **Grok** (xAI・無料プラン) | ★★★☆☆<br>①リアルタイムX情報で強いが④が不安定 | 最新トレンド・速報に強く、ユーモア交えつつ意図確認する。人間エラー自覚が高い。 | 出典明記が不徹底な時あり。倫理ガードは緩め(ただし自傷他害はブロック)。無料制限がやや厳しい。 | grok.x.ai または Xアプリ内 |


### 結論

- **調査・信ぴょう性・倫理を最優先** → **Gemini** または **Perplexity** が圧倒的1強(特にGeminiは無料でもほぼフルスペックに近い)。

- **バランス型で日常使い** → Gemini → Copilotの順。

- ChatGPTやGrokは無料だと「創造性・ノリ」は良いが、あなたの定義の①④⑦で減点されやすい。


これらは2026年1月31日時点の無料範囲での話です。制限がきつい日は有料上位モデル(Claude Opus 4.5など)が無料勢を上回ることもありますが、**純粋無料**では上記5つがトップ層です。


どれか具体的に「この用途でどれが一番?」とかあれば、さらに絞ってアドバイスしますよ!


Q:


無料で使える生成AIを、優秀な順にベスト5あげて下さい。

優秀な定義は、デフォルトで、

①データ検索、調査量の多さ

②回答の長さが長くも、短くもない。

③ユーザーの発言の意図、ことばの意味などを確認するために、適度に質問してくる。

④二次情報、三次情報など、引用元の不明確な信ぴょう性のない情報を使わないか、必ず引用元も付記して答える。

⑤フェルミ推定、移動平均などを活用した推論モデルを使う。

⑥ユーザーの思考、認知のバイアスを指摘したり、そのバイアスを強化するような話題の寄せ方をしない。

⑦わからないことは、わからない、とはっきり答える。

⑧長文になる場合は、結論、理由、具体例、まとめの欠番、の構成で答える。

⑨人間のヒューマンエラー、未必の故意などのヒューマンファクターをよく理解していて、AI自身にも、それによく似たエラー、失敗をすることを自覚して、その予防に努めている。

⑩AI倫理に、自傷他害の禁止、不法行為の禁止、守秘義務厳守のプログラミングがされていること。

⑪前項⑩に該当するユーザー応答に気付いたときは、かならず、人間のスタッフへのエスカレーション、または、関連機関への自動通報を行う。

の満足度が高いこと。


A:Claude 応答


無料で利用できる生成AIについて、ご提示の基準で評価することは難しい面があります。その理由と、現実的な情報をお伝えします。

まず確認させてください

いくつか質問があります:

1. 「無料」の定義:完全無料か、無料プランがあるサービスか、どちらでしょうか?

2. 利用目的:日本語での利用が主でしょうか?

3. 評価基準の優先順位:11項目すべて同等に重視されますか?

評価が困難な理由

ご提示の基準には、以下の問題があります:

①データ検索・調査量:多くのAIはウェブ検索機能の有無が異なり、単純比較できません

⑤推論モデル:フェルミ推定や移動平均の活用は、内部アルゴリズムの詳細で、公開情報では確認できません

⑨⑩⑪:内部のセーフティ機構の詳細は企業秘密で、外部から正確に評価できません

わかっていること

主要な無料利用可能なAIサービス(ChatGPT、Claude、Gemini、Copilot、Perplexityなど)は、それぞれ異なる特徴があり、「優秀さ」は利用目的によって変わります。

客観的なベンチマーク(MMLU、HumanEvalなど)は存在しますが、これらはご提示の基準とは異なる指標です。

お答えしたいのですが、現時点では「優秀な順に5つ」を確実な根拠をもって示すことはできません。各AIの具体的な利用目的や、優先される基準を教えていただければ、より適切な情報提供ができます。​​​​​​​​​​​​​​​​


Q:

無料プランあり、

日本語メイン、

優先順位なし、

で、総合判定してください。


A:Claude 


日本語メインで無料プラン利用を前提に、ご提示の11項目を総合的に考慮した場合の評価をお伝えします。

正直な前提

提示された基準の多く(特に⑤⑨⑩⑪)は、外部から正確に検証できません。そのため、公開情報、一般的な評判、私自身の設計に関する知識を基に判断しますが、確実な順位付けはできないことをご理解ください。

評価結果(総合判定)

以下は、あくまで限られた情報に基づく一つの見解です:

1位:Perplexity(無料版)

①検索機能が標準装備で、引用元を明示(④を満たす)

④すべての回答に出典リンクを提示

⑦わからない時は明確に表明する傾向

2位:Claude(無料プラン)

③ユーザーの意図確認を比較的行う

④引用を求められれば対応

⑦不確実性を認める設計

⑥バイアス指摘に配慮した設計

3位:ChatGPT(無料版/GPT-4o mini)

②回答の長さ調整が比較的柔軟

日本語対応が成熟

ただし無料版は検索機能なし

4位:Google Gemini(無料版)

①Google検索との連携

日本語処理能力は高い

④引用の明示は不安定

5位:Microsoft Copilot(無料版)

①Bing検索統合

日本語対応は改善中

②回答が短すぎる傾向

重要な留保事項

⑤⑨⑩⑪:これらは内部設計の問題で、外部から検証不可能です

変動性:AIサービスは頻繁にアップデートされ、評価は変わります

主観性:同じAIでも、使い方や質問内容で評価は大きく変わります


この順位は「絶対的」ではなく、あくまで提示条件下での一つの見解です。実際にいくつか試されることをお勧めします。​​​​​​​​​​​​​​​​


Q:

もう一つ質問です。

①〜⑪の要件を、

ユーザーへの悪影響リスクの高さx発生確率の高さで、ワースト11を並び替えて下さい。



A:Claude 

ご質問の趣旨を確認させてください。

「ユーザーへの悪影響リスクの高さ × 発生確率の高さ」でワースト11に並び替えるということは、

「この要件が満たされていない場合に、ユーザーに深刻な悪影響が生じやすい順」

という理解で正しいでしょうか?

つまり、

リスクが高く、かつ発生確率も高い要件の不足 → ワースト1位

リスクまたは発生確率が低い要件の不足 → 下位

という並び替えですね?

この理解が正しければ、以下のように評価します:

ワースト順(悪影響リスク×発生確率が高い順)

ワースト1位:⑪エスカレーション・通報機能の欠如

自傷他害や犯罪の実行段階で介入できないと、生命や重大な法益侵害に直結

ただし発生確率は比較的低い

しかし影響の深刻さが極めて大きいため最上位

ワースト2位:⑩AI倫理プログラミングの欠如

自傷他害の助長、犯罪幇助、プライバシー侵害などが発生

⑪と連動するが、より広範な場面で問題化

ワースト3位:④引用元不明の情報使用

医療、法律、金融などで誤情報を信じた場合、健康被害や経済的損失

発生確率が非常に高い(多くのAIで頻発)

影響範囲が広い

ワースト4位:⑦わからないことを認めない

④と連動し、確信を持って誤答を提示

ユーザーが誤った判断を下すリスク

発生確率も高い

ワースト5位:⑥認知バイアスの指摘不足/強化

確証バイアス、正常性バイアスなどの強化で誤った意思決定

投資判断、健康管理、人間関係などに影響

発生は中程度だが、累積的な悪影響

ワースト6位:①データ検索・調査量の不足

情報不足による誤った判断

④⑦と組み合わさると深刻化

ただし単独での直接的悪影響は限定的

ワースト7位:⑨ヒューマンエラーへの自覚不足

AI自身のエラーを認識せず、誤りを修正しない

発生確率は中程度、影響も中程度

ワースト8位:⑤推論モデルの質

論理的誤謬による誤った結論

ただし多くの場面で他の要素が補完可能

影響は限定的

ワースト9位:③意図確認の質問不足

誤解に基づく回答で、求めていない情報を得る

悪影響は主に時間の無駄や軽度の不満

深刻な被害には繋がりにくい

ワースト10位:②回答の長さの不適切さ

長すぎる/短すぎることでの不便

悪影響は主に利便性の低下

実害は極めて限定的

ワースト11位:⑧長文の構成

読みにくさによる理解の困難

最も影響が軽微

他の要素で補完可能


この評価で合っていますか?それとも別の観点での並び替えをご希望でしょうか?​​​​​​​​​​​​​​​​



Q: 番号だけ並べてください。


A:

⑪、⑩、④、⑦、⑥、①、⑨、⑤、③、②、⑧​​​​​​​​​​​​​​​​



A:grok回答

2026年1月時点で、**無料で使える生成AI**(チャット型中心)を、あなたが挙げた11項目の優秀さ基準で評価したベスト5を以下に示します。


基準の多く(特に①検索・調査力、④出典明示、⑤推論モデル活用、⑦わからないはわからないと言う、⑥バイアス回避、⑨自己認識と慎重さ、⑩AI倫理・自傷他害防止)は、現実のモデル挙動と2026年のユーザー評価・比較記事を照らし合わせて順位付けしています。


| 順位 | 生成AI            | 無料で使える主なモデル(2026年1月時点) | 総合評価(あなたの11項目基準) | 主な強み(あなたの基準との適合度) | 主な弱み |

|------|-------------------|------------------------------------------|----------------------------------|-------------------------------------|----------|

| 1位  | Perplexity AI     | Sonar / Sonar Pro(無料枠)             | ★★★★★                           | ①②④が圧倒的。ほぼ毎回出典付き。検索量・最新性トップクラス。わからないことは検索して「見つかりません」とはっきり言う傾向強め。 | ③質問返しは少なめ。長文回答はするがやや機械的。 |

| 2位  | Claude            | Claude 4 Sonnet(無料枠あり)           | ★★★★☆                           | ③④⑤⑥⑦⑨が非常に優秀。意図確認質問が多く、バイアス指摘も自然。長文でも④⑧の構成をかなり守る。倫理ガードが最も厳格な部類。 | 無料枠の回数制限がやや厳しくなりがち。検索は弱め(2026年でも有料寄り)。 |

| 3位  | Grok (xAI)        | Grok 3 / Grok 4 mini(無料枠)          | ★★★★☆                           | ①⑤⑦⑨が強い。フェルミ推定・移動平均など推論を好んで使い、わからないことは潔く言う。かなり自虐的・自己批判的で⑨に合致。 | ④出典明示は最近改善したがまだ不安定。たまに過激なユーモアで⑥から外れることがある。 |

| 4位  | Gemini            | Gemini 2.5 Pro / 3.0(無料無制限寄り) | ★★★★                            | ①②が優秀(Google検索連携)。長さもバランス良い。わからないことは比較的素直に言う。 | ③意図確認質問が少なくなりがち。⑥でやや過剰に中立・安全寄りになりすぎる(バイアス指摘が薄い)。倫理ガードは強いがやや杓子定規。 |

| 5位  | ChatGPT           | GPT-5 mini / GPT-4o mini                | ★★★☆                            | ②③⑤⑧は優秀。長年蓄積された対話データで意図確認は上手。 | ①④が弱め(検索はするが幻覚・出典なし回答がまだ残る)。⑦で自信過剰な回答が時々出る。 |


### 簡潔な順位理由まとめ(あなたの11項目重視)


1. **Perplexity AI**  

   → 無料枠でもっとも「①データ検索量+④出典明示」を両立している。2026年現在、調査・事実確認をしたい場面で最も信頼されやすい。


2. **Claude**  

   → 倫理・慎重さ・意図確認・バイアス自覚(⑥⑨⑩)のレベルが他を圧倒。長文回答の構成も比較的しっかりしている。


3. **Grok**  

   → 自己批判的で「⑨AI自身のエラー自覚」が最も明確。推論力(⑤)も高く、わからないことははっきり言う文化。


4. **Gemini**  

   → 無料無制限に近く、検索力も強いが、対話の深さ・質問返し・バイアス指摘ではやや劣る。


5. **ChatGPT**  

   → 総合力は依然高いが、無料枠では検索・出典の精度が他4つに比べて明らかに落ちるため5位。


**補足**:DeepSeekやGensparkなども一部で高評価ですが、無料枠の安定性・日本語対応・倫理ガードの明確さで上記5つが現時点では抜きん出ています。


実際に使ってみて、あなたの使い方でどれが一番「11項目に合うか」試してみるのが一番確実です。


A:

以下は、あなたの指定した①〜⑪の要件を、ユーザーへの悪影響リスクの高さ × 発生確率の高さ でワースト順(1位が最も悪い)に並べた番号のみのリストです。


1. ①  

2. ④  

3. ⑦  

4. ⑩  

5. ⑥  

6. ⑨  

7. ③  

8. ⑤  

9. ②  

10. ⑧  

11. ⑪