自衛隊イラク日報の全文検索サイトが登場 個人が3時間程度で制作

4/18(水) 13:03配信
ねとらぼ
 防衛省が、当初存在しないとしていた自衛隊イラク派遣時の日報を4月16日に公開。その膨大な資料を全文検索できるサイト「イラク日報 全文検索【イラク日報村】」が17日夜に有志によりWeb上で公開され、話題を呼んでいます。

【画像】「戦闘」が一番検索されている

 日誌の全文データは朝日新聞デジタルなどがWeb上で公開していますが、そのままでは文字検索ができないPDFファイルとなっていたため、1万ページ以上ともいわれる内容を精査するのは大変でした。

 制作したのはマーケティングリサーチ会社ポップインサイトに務める森川公康さん。業務の間を縫って、自衛隊の日誌検索サイトを作ってしまいました。

 検索をすると、文字列がヒットしたPDFファイルへのリンクと、その文字列が出現するPDF内のページ番号が表示される親切な仕組み。サイトのトップページには「人気のキーワード」ランキングも表示されます。

 森川さんによると、実制作にかかったのは3時間程度。まずGoogle Cloud Vision APIにPDFのOCR化(※)を行わせるコードの作成に約1時間。OCR化は寝ている間に終わり、OCR結果からの必要情報の抽出とデータベース設計に約1時間、検索インタフェースの制作に約1時間かかったそうです。

※OCR化:PCなどで画像上の文字情報を認識できるようにする処理

 日報検索サイトを作った動機は、「紆余曲折を経て公開された貴重なデータをより多くの方に知ってもらいたいと思ったから」とのこと。また、Google Cloud Vision APIの活用を検討していたところ、格好の題材だったために挑戦したという背景もあったそうです。

 日誌検索サービスに使われた技術はGoogle Cloud Vision APIの他に、RailsやHerokuなども駆使しているそうです。森川さんは過去にも手軽にWeb上からFaxを送信可能なサービス「FaxFlyer」や、Twitterの他人のアカウントを紹介(他己紹介)できる「ツイたこ」といったユニークなサービスを手掛けています。

 自衛隊の日報といえば、一部ほのぼのしたエッセイ風の「バグダッド日誌」「バスラ日誌」のコーナーがSNSなどで話題になっていました。これらの日誌コーナーを抜き出すシステムを組むことはできないか森川さんに問い合わせたところ、「ご要望を多く頂いており、まさに開発中です!」とのことでした。こちらの完成も楽しみです。

防衛省が当初「存在しない」としていた自衛隊イラク派遣時の活動報告書(日報)を16日に公開。全文書を朝日新聞がWeb上に掲載したところ、内容が「案外ほのぼのしている」とSNSで話題になっています。なお、ほのぼのしているのは隊員による「日誌」部分で、他の部分は結構殺伐としています。
http://image.itmedia.co.jp/nl/articles/1804/17/f180417_boueishou_1.jpg防衛省に行ってデータをもらってきました

 ねとらぼ編集部でも防衛省に行き、日報のデータをもらってきました。ブログやエッセイのような文章だとして人気を博しているのは、日報内の日誌コーナー「バグダッド日誌」と「バスラ日誌」。
 具体的なエピソードとしては、執筆者が思い切って坊主頭にしたところ、韓国のLO(陸中佐)が会うたびに「南無阿弥陀仏」と言って拝んでくるという小話や、オフィスでアメフトのキャッチボールをしていてプリンタを壊してしまったという失敗談。日本のテレビは衛星放送との契約により映るが、放映権の関係でサッカー・ワールドカップが映らないことを残念がる様子など、日々の何気ない出来事や、現地で見聞きした情報がつづられています。