今は昔、ファイル整理というと紙の資料でした。いらないコピーとか重複したものが山ほど溜まり、オフィスの収納スペースを圧迫しており、要らない書類を整理したら1フロアー分空いた、というような話も聞いたことがある。

さて、タチが悪いのはハードディスクなど、記録装置上のデータ。電子化されるということは情報を多数に/即時に発信できる、というメリットがある反面、コピーなどが簡単に確保できてしまうと言うこと。
個人のPC、共有のハードディスクなどにどれほど類似の情報があることやら。調べるだけでも一苦労だろう。

で、家庭のファイル整理を行ってみました。
個人事業なので、顧客とのやりとりか、自宅の写真データ、メール、などなど、PCを換える度にいろいろとコピーが増え、えらいこっちゃの状態。
一度NASに集約し、DFとRichcopyやFastCopyを駆使して、徐々に重複を削ると、数ギガは簡単に削れてしまうほど重複が多い・・。また、使わないようなものもどんどん削ってみる。

格闘する割には効率が悪い。

過去、Accessで重複発見ツールを作ったことはある。が、フォルダ単位での類似を見つけたりする機能はないため、結局あまり使わなかった。それを強化することも考えてみようか、と思う。
類似性を発見するアルゴリズムとかは知らないので、それは勉強した方がいいのだろう・・。