■生成AIが誤情報を生成する主な原因について |          『ほそのひでかず』のブログ

■生成AIが誤情報を生成する主な原因について

生成AIが出した答えを全て本物だと信じてしまう人がとても多いと感じます。

キーワードを入れて検索して情報を調べていた時には、検索結果を1つずつ見て、内容を判断していたと思うのですが、生成AIを使うとまとめたような答えが出てくるので、ある程度の納得感があれば残りも大丈夫だろうと考えてしまう人が多いと思います。

 

(この画像は画像生成AIのMidjourneyで作成しています。) 

 

生成AIの答えが100%正しいかというと、そうとも言えないというのが個人的な感想です。

そこで生成AIが誤情報を生成する主な原因を以下に説明しておきます。

 

(この画像は画像生成AIのMidjourneyで作成しています。) 


生成AIが誤情報を生成する主な原因

1.学習データに誤情報が含まれている場合
生成AIの精度は学習データの質に大きく左右されます。学習データに誤情報や偏った情報が多数含まれていると、生成結果にもその影響が現れる可能性が高くなります。特にSNSなどのユーザ生成コンテンツを学習データに用いる場合は、良い情報よりもネガティブな情報が多かったり、切り取り方に偏りがあったり、誤情報の混入に注意が必要です。また昔の情報をあたかも最近に発信されたかのようにとらえてしまう場合もあります。Copilotのように特定のWebサイトをもとに情報を生成してくれたという事がわかる場合は、選ばれたWebサイトの情報の質を確かめておくことも必要です。


2.学習データ量が不足している場合
生成AIを高精度にするには、豊富な学習データが必要不可欠です。データ量が十分でないと、未知の単語や表現、状況に適切に対応できない場合があります。同じ記事内容でも英語の内容の方が多く、日本語の内容が少ないという事もあります。日本語でも英語でも共通の話題であるような場合は英語で聞いてみるという事でより多くの情報を引き出せるケースもあります。逆に学習データの少ないレアケースの扱いには誤りや偏りが生じやすいです。企業でプライベートの生成AI環境を作り、使う場合には大量の高品質データを継続的に学習させることが精度の高いデータを生成させるために重要です。

3.コンテキストを正しく理解できない場合
文章を生成するには、文脈を正しく把握することが肝要です。しかし、言外の意味や背景知識を完全に理解するのは難しく、誤った解釈で応答を生成してしまうことがあります。質問の意図を的確に掴む力が必要とされます。

コンテキスト(context)とは、英語で「文脈」「前後関係」「状況」「背景」などを意味する言葉です。日本語では主に「文脈」という意味で使われます。
コンテキストは、言葉の意味や事象の理解を深めるために重要な要素であり、文脈や状況によって異なる解釈が生じることがあります。たとえば、「彼は勉強ができる」という文は、コンテキストによって「彼は成績が良い」とも「彼は努力家である」とも解釈できます。

4.対話の前後関係を把握できない場合
会話の流れの中で、直前の発言を適切に受けて応答を返すことができないケースがあります。文脈を理解しつつ会話を運ぶ能力が求められます。生成AIでは一回の会話の中で、事前の情報を蓄積して利用することが出来るので、前提条件を複数覚えさせて、その履歴情報をもとに情報生成させるなどのテクニックが必要です。

5.ロジックや推理能力には限界がある場合
自然言語処理にはまだ課題が多く、人間なら当たり前にできるような論理的思考や状況判断が難しいのが実情です。常識的な内容でも誤った推論結果を導き出す可能性があり注意が必要です。生成された内容に対して人間が精査するということが必要です。

6.バイアスデータによる影響がある場合
学習データに性別、LGBTQ、人種等の偏見が含まれていると、生成結果にもそれが現れる場合があります。データ選定時のバイアス除去が不可欠といえます。

バイアス(bias)とは、英語の単語で「先入観」「偏見」を意味します。日本語では「傾向」「偏向」「先入観」といった思考や判断に特定の偏りをもたらす思い込み要因や得られる情報が偏っていることによる認識の歪みのことを指します。

 

(この画像は画像生成AIのMidjourneyで作成しています。) 


まとめ

生成AIの誤情報リスクにはこのような原因があります。精度向上には高品質の学習データ、精度の高い参照情報と質問の仕方をどうするのかという事を考えることが必要不可欠です。

 

データに関しては、そのデータが正確であること、偏りがないこと、そして最新であることが重要です。誤ったデータや偏ったデータを学習すると生成AIは誤った結果を生成し、それが誤情報となります。Copilotのように情報元のWebサイトが確認できる場合には、情報元を確認する。他の生成AIでも聞いてみて、回答データの質と整合性を確認する、自分の情報と照らし合わせておかしくないか確認するといったことが重要です。


また質問の仕方としては、質問が不明確であったり、誤解を招くような表現であった場合、生成AIは誤った解釈をしてしまう可能性があります。その結果、誤った情報が生成されることがあります。したがって、質問の仕方を明確にし、誤解を避けるような質問をしたり、一回の会話の中で前提情報をできるだけ学習させてから質問するなど工夫することが重要です。

 

(この画像は画像生成AIのMidjourneyで作成しています。)