最初の話として、データクレンジング(データをキレイにする)方法をご紹介いたします。
非常に地味な話と思うかもしれませんが、実は集計で最も大事な部分の一つがここです。
この土台さえ完成していれば、毎回一日中かかった集計業務だろうが今後たった5分で終わります。
貴方が最初から正規化(規格化)されたキレイなデータに基づいて業務が出来る環境をお持ちであれば不要ですが、そうはいかない職場が多いのが現実です。
データを集計する際、貴方はsumif、sumproduct等の関数やピボットテーブル等のツール、vba等のスクリプト等、様々な方法の中から、その中で最も適した方法を用いて集計を行っていく事になります(それらの方法は後日説明いたします)。
しかし、それらのどの方法を用いてもデータがキレイでなければ集計は上手くいきません。
例えば株式会社A-B-C工業という企業が存在するとしましょう。
下記のパターンは、人間の目で見れば同じ企業であると推測がつくと思います。
しかし、データ上は全くの別会社として扱われてしまいます。
(1) 株式会社ABC工業 (“-”が存在しない)
(2) (株)A-B-C工業 (株式会社が略称)
(3) 株式会社A-B-C工業 (アルファベットが半角)
(4) ABC (チーム内等での呼称をそのまま記載)
また、下記のように別の項目のデータが混在してしまうケースも存在します。
法人名 :エービーシーコウギョウ
フリガナ:株式会社A-B-C工業
これらの情報が混在しているとき、どのような集計方法も役立たずと化します。
同じ企業であるはずのデータを別カウントしてしまうからです。
それではきちんと集計可能なデータに加工するにはどのような方法を使えば良いのでしょうか。
それが「データクレンジング」という方法になります。
次回よりこちらの方法をご紹介してまいります。