しばらくご無沙汰だったが,ちょっとタイムリーな話題を.
NHKの「クローズアップ現代」でクラウドソーシングが取り上げられていたらしい.
らしいというのも,私はテレビを持っていないので,完全な又聞きだ.
なら話せることなどないだろうと思うかも知れないが,実の所,私の研究分野ではこのクラウドソーシングは特に新しくないのだ.
自然言語処理研究では,機械学習を行うための正解データを人手で作ることが多い.
この正解データをクラウドソーシングで作ることが結構前から行われてきていた.
クラウドソーシングのクラウドは,最近流行の「雲」の方ではなく,「集合知としての群」の意味だ.
その根底にある概念は,「多くの人が支持するものは正しい」,ということだ.
例えば,「ある文章を読んで,そのジャンルを分類する」,というタスク(問題)を作るとしよう.
間違える人も当然出てくるし,曖昧なものもある.(ミステリだが恋愛小説でもある場合など)
だが,基本的に,多くの人がその文章をSFだと分類したのであれば,それは正解だといえる.
質が多少低くても良いので,安い価格で多くの人に仕事を頼むのがクラウドソーシングだ.
つまり,一人のプロフェッショナルではなく,多くの素人を集めることで,様々なタスクにおいて正解を導くわけだ.
古くからあり,代表的なのはAmazon Mechanical Turk.
多くのタスクは,母国語さえできれば,一般の人でもこなすことができるものだ.
Mechanical Turkは基本的に米国内からしか使えない.
日本で多いのはLancersだろうか.かなり色んな仕事があるが,同じく日本語ができれば問題レベルの仕事が大半だ.内職をインターネットでやるようなものだろう.
クラウドソーシングが出てきた時,人手でデータを作るのはコストが高いという常識が揺らいだように感じたものだ.
それまでは,学習データとして利用するデータは,人手で作った質の高い小規模データか,
機械的に集めた質の低い大規模データの2択だった.
だが,クラウドソーシングはその中間のデータを提供してくれる.
つまり,そこそこの品質で中規模のデータだ.
また,評価に利用することもよく行われている.
主に主観評価が必要となる翻訳,要約,質問応答が対象だ.
機械翻訳ならば,Aシステムの翻訳とBシステムの翻訳はどちらが良い翻訳か?というタスクを作るわけだ. タスクの作り方には工夫が必要だが,うまくはまればかなり楽をできることがある.
クラウドソーシングによる成果物は,品質に問題があることが知られているが,
その品質評価を統計的に行う研究も進められている.
代表的なのは次の論文になるだろう.
- Statistical Quality Estimation for General Crowdsourcing Tasks
- Yukino Baba, Hisashi Kashima
クラウドソーシングはこれからも増えるだろうが,そこで稼ぐのは正直あまりお勧めはできない.
つまり,そこでのタスクは完全な時間の切り売りだからだ.自分の時間以上に稼ぎを生み出すことはない.アルバイトよりも気軽に始められる代わりに,アルバイトよりも実りが少ないことも多いからだ.
クラウドソーシングで稼ごうというならば,そのシステムを運営する側に回るのが一番良い選択肢だと思う.もっと様々なタスクを受注発注できるしすてむはこれからも出てくることだろう.