New York Times vs. OpenAI&Microsoft | Takaの予備試験やるよやるよブログ

Takaの予備試験やるよやるよブログ

司法試験予備試験の勉強とあとその他のブログ
何卒です

昨年の末に、New York Timesが、著作権法違反で、ChatGPTを運営するOpenAIとマイクロソフトを訴えました。

4月から訴訟が本格化するようなので、思ったこと記事にしてみようと思いました。

 

下記は日経の記事になります。

無料の記事も探してみたのですが、見つからなかったこと、

無料の記事よりも有料の記事の方がより詳細に書かれている場合が多いことから、

日経の記事を紹介します。

 

 

 

 

New York Times(以下、NYT)の主張の中で気になったものがありましたので、

今回は、その主張に焦点をあてて検討したいと思います。

 

その主張というのは下記のようなものです。

 

「AI開発企業は報道機関の過去記事などをシステムに学習させ、文章や画像をつくる生成AIの精度を向上させている。NYTは今回、こうしたAI訓練向けのコンテンツ使用が著作権の侵害にあたるとした。」

 

つまり、有料の記事を無断でAIに学習させて、トレーニングに使うのは著作権法に反するというものです。

 

日本の著作権法とニューヨークの著作権法には大差ないと思いますので、NYTの上記主張の根拠をまずは検討します。

 

おそらく、私が思うに、NYTはAIというものは、機械なのだから、学習した記事をそのままの状態で学ぶことができ、その記事を元にプロンプトを返しているのだから、そのプロンプトは、二次的著作物(著作権法2条11号)にあたり、原著作権者であるNYTの許諾なくプロンプトを使用することは、二次的著作物の許諾なき使用にあたり、違法である(同28条)というものかと推測します。

 

NYTの記事は当然に著作物性が認められるとして、下記のような疑問が浮かび上がってきます。

 

①AIは記事をそのままの状態、いわば写真に撮るような状態で学習し、その記事の切り貼りのような状態でプロンプトを返すのか。

②プロンプトは二次的著作物にあたるのか。

③二次的著作物にあたるとして、NYTの著作権の及ぶ範囲

④人間は学んだことを基に執筆活動などをするが、人間では著作権法違反にならないものを、AIの場合はなぜ著作権法違反になるのか。

 

順を追って検討していきたいと思います。

 

①について

総務省のサイトに下記のような記載があります。

 

 

 

「まず、機械学習には大きく分けて「学習」と「推論(すいろん)」の2つのプロセスがあり、基本的(きほんてき)にそれぞれのプロセスで別々のデータを使います。
学習とは、入力されたデータを分せきしてコンピューターが区別などを行うためのパターンを確立(かくりつ)するプロセスです。この確立されたパターンを、「学習済(がくしゅうず)みモデル」といいます。
推論とは、学習のプロセスを経(へ)てできあがった学習済みモデルにデータを入力し、確立されたパターンに従(したが)い、実際(じっさい)にそのデータの区別などを行うプロセスです。」

「「教師あり学習」では、正解(せいかい)のラベルを付けた学習用データが使われます。つまり、ネコの画像に「これはネコである」というラベルを付けた上でデータを入力し、学習させるのです。これにより、学習済みモデルは、推論用データとして動物の画像を入力されたとき、それがネコであるかどうかを判別できます。
「教師なし学習」では、正解のラベルを付けない学習用データが使われます。つまり、それがネコであるという情報はあたえずネコの画像のデータを入力して学習させるのです。学習済みモデルは、推論用データとして動物の画像を入力されたとき、それがネコかどうかは判(はん)別できないものの、ネコと他の生き物とを区別できます。
「強化学習」では、コンピューターが一定の環きょうの中で試行さくごを行うことが学習用データとなり、望ましい行動をよいと評価する(行動に報しゅうをあたえる)プロセスをくり返すことで、何が長期的に良い行動なのかを学習させます。たとえば、二足歩行ロボットが歩く速度や足の曲げ方について試行さくごを行い、長い距りを歩いた場合に報しゅうをあたえることをくり返すことで最も良い歩き方を学習し、最終的にはたおれずにスムーズに歩行できるようになります。」

 

おそらく、ChatGPTも同じような原理で動いているものであると推測します。

その上で、上記のような「学習」と「推論」を「強化学習」で行うことができるというフェーズまで大体の情報についてはできているものかと推測します。

上記にあるように、「学習」とは、「入力されたデータを分せきしてコンピューターが区別などを行うためのパターンを確立(かくりつ)するプロセスです。」になります。

ChatGPTの「学習」内容や方法(具体的にどのように「分析」し、「区別」し、「パターンを確立する」のか)については、ChatGPTのアルゴリズムが分からないと正確なことは分からないので、ChatGPTにおける「学習」の内容はよく分からないです。

また、AIについて明るくもないので、漠然としたことしか分かりません。

今度、Udemyなんかで、AIの入門講座を取ってみるといいかもしれないです。

ここは勉強不足で申し訳ございません。

司法試験受験生でも、AIの開発などをやられている方もいらっしゃるので、

そのような方にここの説明が譲ります。

また、近い将来的に、私がAIについて少しは詳しくなったら、またこの記事に

追記するかもしれないです。

 

②について

著作権法2条11号では、「二次的著作物」とは、下記のように規定されています。

 

「二次的著作物 著作物を翻訳し、編曲し、若しくは変形し、又は脚色し、映画化し、その他翻案することにより創作した著作物をいう。」

 

ここで問題となる「翻案」という行為の解釈は、著作権法の中でも重要な論証に位置づけられていて、具体的には下記のように解釈されています。

 

「①既存の著作物に依拠し、
②その表現上の本質的な特徴の同一性を維持しつつ、
③具体的表現に修正・増減・変更等を加えて、
④新たに思想又は感情を創作的に表現することにより、
⑤これに接する者が既存の著作物の表現上の本質的な特徴を直接感得できる別の著作物を創作する行為」

 

ChatGPTのプロンプトが二次的著作物にあたるかは、

「⑤これに接する者が既存の著作物の表現上の本質的な特徴を直接感得できる別の著作物を創作する行為」、すなわち、ユーザーがプロンプトを見て、それはNYTの記事であると認識することができるかが争点となるかと思います。

 

個人的な感想では、AIは、学習するものを自ら考えた上でアウトプットするものなので、プロンプトは⑤には該当しないのかと考えています。

 

③について

原著作権者の著作権が二次的著作物に及ぶ範囲については、

判例と学説で見解が異なるところです。

 

判例:28条

「二次的著作物の原著作物の著作者は、当該二次的著作物の利用に関し、この款に規定する権利で当該二次的著作物の著作者が有するものと同一の種類の権利を専有する。」
反対説:著作者の創作したものを著作物として著作権を与えるというのが法の大原則であり、原著作物に表現されていないものにまで、原著作物の著作権者に権利を与えるというのは、この原則を変更するものであり、妥当ではない。原著作物の著作権者が権利を有している範囲は、原著作物の表現が感得できる範囲であると考える。

 

個人的には反対説が合理的かと思いますし、試験対策上も反対説で書くように指導がされていたかと思います。

でも、日本での訴訟であれば、おそらく、裁判所は、判例の立場をとると思います。

そうなると、プロンプトが二次的著作物にあたるのであれば、それをNYTの許可なく使用することは、28条に反していることになるかと思います。

 

④について

これも、人間とAIの学ぶプロセスとアウトプットのプロセスの違いから判断されるものかと思います。

AIが人間の思考プロセスをモデルにして構築されていることから考えると、AIがアウトプットするときにも、特に著作権法違反の問題は生じないのではないかというのが個人的な見解ですが、情報を提供する側にも何等かの利益の分配はあって然るべきというのが個人的な見解です。

こちらの問題も、ChatGPTのアルゴリズムの内容と関係してくる問題であり、詳しくは、訴訟が進まないと何とも言えないかと思います。

 

感想

AIは、人間の思考をモデルにしているということから、AIがアウトプットする場合も、無料で提供されている情報であれば無料で提供できるようにするというのが妥当かと思っています。他方、有料で提供されている情報であれば、その情報は売られているものであるので、提供している側にも何等かの利益の分配はあって然るべきなのではないかと思います。

その上で、情報を持っている側が、その情報が無料でも有料であっても、AIに情報を利用されることを望まないのであれば、その情報に関する情報収集はAIにはさせないようにするというのが、表現の自由を保護するという観点からも適当なのはないかと現時点では考えます。