テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出

テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出

1998年に英語版の開発から始まり、2002年からは日本語対応。
世界のさまざまな言語に対応したテキスト比較ツール「ちゃうちゃう!」の活用ノウハウ集です。

法令改正の際には、PDFで新旧対照表が発行されることがよくあります。
 

たとえば下の画像は、法務省「出入国管理及び難民認定法の一部を改正する法律案」からリンクされている新旧対照条文の一部です。

 

 

変更箇所には下線が引かれているのですが、たいてい上下で見比べなければならない上、対応する変更箇所の位置が揃っているとはかぎらないため、照らしていくのも意外と大変です。

 

そこで、これを横書きにして、ちゃうちゃう!で比較してみました。

 


色分けがなされるだけでも、視覚的に、かなりはっきりします。


最新の条文データは総務省の「e-Gov」、旧条文データは法務省の「日本法令外国語訳データベースシステム」から取得したものです。

 

この外国語訳データベースは、あまり好ましくない訳が混じっているため英文は鵜呑みにできませんが、数年前程度の比較的新しい旧条文データを取得するには重宝します。

 

 

学術論文の英文校正サービス。

欧米のジャーナルに論文を投稿する際に、利用している日本人も多いでしょう。

 

専門の校正会社はいくつかありますが、たいていWordの修正記録を使って校正をしてきます。
この修正記録。
変更内容によっては、非常に見にくい状態になってしまいます。

 


 


特に、英単語の一部のみ変更されると、何がどう変わったのか把握するのに一苦労ということも。

Wordにも、2つのファイルの比較の機能があるとはいえ、結果は修正記録と五十歩百歩です。
 

こういうときに「ちゃうちゃう!」を使うと、変更箇所が一目瞭然にわかります。

 

冒頭にあげた画像に示したものと同じデータで、左が修正前、右が修正後です。
区切り文字を使用せずに比較しました。

 

 

 

こうすれば、校正内容をスキルアップに活用しやすくなりますよね。

区切り文字をピリオドにすると一文ずつ左右に並ぶため、さらにわかりやすくなります。

 

 

 

小数点で分割されるのが気になるのであれば、「ワイルドカードとちゃうちゃう!を組み合わせる」で説明した方法で回避すればよいでしょう。
修正箇所を把握する目的であれば、小数点はあまり問題にならないと思いますが。

 

 

 

ワイルドカードとちゃうちゃう!を組み合わせる」からの続きです。


Wordで毎回同じ検索文字列や置換文字列を記述するのが面倒な場合、仮名漢字システムに単語登録してしまうと、簡単です。

 

たとえば下の画像は、検索する文字列「([0-9]{1,}).([0-9]{1,})」を、ATOKに「ぴりおど」という読みで登録する場合の例です。

 

 

置換後の文字列も、同様にして登録できます。
読みは同じでも違っていても構いません。

Windows標準のMS-IMEにも同じ機能がありますから、何度も使うワイルドカードの検索文字列は、単語登録してしまいましょう。
 

一方、置換操作そのものにショートカットキーを割り当てることも可能です。
この場合は、Wordの開発タブにある「マクロの記録」を利用して置換操作を記録し、任意のショートカットキーを割り当てます。

 

 

 

 

 

■関連記事

区切り文字で結果が違う、英文比較例

ワイルドカードとちゃうちゃう!を組み合わせる

 

 

■ちゃうちゃう!ウェブサイト

http://chaw-chaw.com/

区切り文字で結果が違う、英文比較例」からの続きです。

図面を示す「Fig.」のピリオドがゆえに、区切り文字としてピリオドを使うと欲しい比較ペアができませんでした。

それなら、どうすればピリオドを適切に区切り文字として使うことができるのか?

答えは、区切りになっては困るピリオドだけ、あらかじめ全角に置き換えてしまえばよいのです。

 

たとえばWordの文書上で、次のようなワイルドカード置換を実行します。

 

  検索する文字列:F([IiGgSs]{2,3}). ([0-9]{1,})

  置換後の文字列:F\1. \2


この検索・置換文字列で、Fig.、Figs.、FIG.、FIGS.の4パターンに1回の置換で対応できます。
ワイルドカード置換は、Wordの置換ダイアログで「ワイルドカードを使用する」にチェックを入れるだけの簡単操作です。

 

 

 

前回、改行を区切り文字にしてピリオドの問題を回避しましたが、これだと一致した部分の位置が横に揃わなくなります。

 

かたやワイルドカード置換後にピリオドを区切り文字にすると、下の画像のように、位置が揃います。

(比較結果の表示設定を「一文ずつ揃える」にした場合。)

 

 

 

ほんのひと手間かけているだけですが、特にフィードバック原稿と自分の翻訳文を比較する場合など一文ずつ左右に並んでいるほうが、直感的にわかりやすいと思います。

Fig.とそれに続く数字との間が開きすぎていると感じる人は、置換後の文字列で半角スペースを削ってもよいかもしれません。

 

数値の小数点が問題になるのであれば、たとえば次のように記述します。

 

  検索する文字列:([0-9]{1,}).([0-9]{1,})

  置換後の文字列:\1.\2

 

毎回ワイルドカード置換の検索条件を記述するのが面倒な場合は、置換の実行をショートカットキーに割り当てるか、仮名漢字変換システムに単語登録してしまえばよいでしょう。

 

具体的な方法については、次回に。

 

 

■関連記事

区切り文字で結果が違う、英文比較例

仮名漢字変換と検索・置換文字列

 

 

■ちゃうちゃう!ウェブサイト

http://chaw-chaw.com/

 

英訳をする翻訳者であれば、発注元からのフィードバックを「ちゃうちゃう!」で比較して、スキルアップにつなげることができます。
 

特許翻訳なら特許事務所でチェック後の翻訳文が数年後に公報として公開されることが多いですから、フィードバックをもらえなくても、自分で取得して比較できますね。

 

このような、英文同士の比較。

最も一般的なのは、ピリオドを区切り文字にする使い方でしょう。

ところが修正の量とデータの内容によっては、ピリオドだと逆に見にくくなってしまいます。
また、文書の内容によっては、ピリオドだと意図しない比較ペアが作られることも。

こういうときは、改行を区切りにして段落単位で比較すると、問題を解決できることがあります。

例をひとつ示します。
お手持ちの方は、以下のデータをコピーして、ぜひ実際に試してみてください。

 

左ウィンドウ
Referring now to FIG. 1, a block diagram depicts a system 10 for active monitoring of video devices in a video calls 12.


右ウィンドウ
Referring now to FIG. 11, a block diagram depicts a system 10a for active monitoring of video devices in a video calls 12a.  Referring now to FIG. 1, a block diagram depicts a system 10 for active monitoring of video devices in a video calls 12.


右ウィンドウの2文目は、左ウィンドウの文と全く同じ。
このデータに対してピリオドを区切り文字として比較を実行すると、非常にわかりにくくなります。

 


ご覧のとおり、図面を示す「Fig.」のピリオドが邪魔になって、欲しい比較ペアが作られません。
同様の問題は、他の略記表示や小数点などでも生じます。

 

このような場合、改行を区切り文字にするだけで、解決できます。


 

全体の分量が短いのであれば、区切り文字の指定なし(空欄)で比較するのも一案です。


ただし、細かい修正があちこちにある場合は、ピリオドで区切って一文ずつ比較できるほうが都合がよいこともあるでしょう。
 

その場合は、ほんの一工夫することで、上述の問題を解決できます。

これについては次回に。

 

■関連記事
ワイルドカードとちゃうちゃう!を組み合わせる

仮名漢字変換と検索・置換文字列



■ちゃうちゃう!ウェブサイト

http://chaw-chaw.com/