こんにちは、Excelパーソナルトレーナー 土谷です。
本日はデータクレンジング方法の9回目。以前ご紹介した下記14手順の内、手順8、9をご説明いたします。
---------------------------------------------
1 クレンジングの対象、範囲を決定
2. 法人名の半角と全角を統一(JIS関数)
3. 冒頭、末尾のスペース、改行を削除(TRIM関数、CLEAN関数)
4. 法人格の表記揺れを解消(文字の置換)
5. 都道府県、市区町村の表記揺れを解消(フィルタリング)
6. (存在するのであれば)法人番号や企業コードで並び替えを実行
7. (存在するのであれば)法人番号や企業コードの一致するものを精査、名寄せ
8. 法人名、都道府県、市区町村で並び替えを実行
9. 法人名、都道府県、市区町村、その他の付帯情報で総合して精査、名寄せ
10. 都道府県、市区郡町村で並び替え
11. 都道府県、市区郡町村、丁目、番地、URL等その他の付帯情報から法人格未記載の情報を精査、名寄せ
12. 上記手順で不明なデータを記載者に直接確認
13. クレンジング不可能なデータの取り扱いを判断
14. 主キーを付与
---------------------------------------------
8. 法人名、都道府県、市区町村で並び替えを実行
9. 法人名、都道府県、市区町村、その他の付帯情報で総合して精査、名寄せ
手順8~12は企業コード等の主キーが空白のレコードの精査、名寄せを行います。
主キーが空白のレコードの精査、名寄せは労力が非常にかかります。
このブログ記事では3つのパターン(手順8と9、手順10と11、手順12)で
レコードの名寄せを行いますが、労力と効果のトレードオフを考え、
いずれかで止めることも一手です。
場合によっては、企業コードが存在する手順7で止めても良いと思います。
さて、手順8と9では住所が記載されており、
法人名もあまり略されていないケースを名寄せします。
以下の手順では下の表を用いてご説明します。
(手順7に比べて企業を絞り、代わりに企業コードが存在しないパターンを増やしています)。
※上記データはサンプルです。 実在の法人情報等とは関係ございません
(a) リスト内のいずれかの項目名のセルを選択します。
(今回は「B1」セル~「J1」セルが該当)
(b) [「データ」タブ → 「並べ替え」ボタン]の順番に押下
([「ALT」キー → 「A」キー → 「S」キー → 「S」キー]の順に押下しても可能)
(c) 「レベルの追加(A)」ボタンを”3回”押下
(d) 「最優先されるキー」の「列」ボックスで”住所(都道府県)”を選択
(e) 二段目の「次に優先されるキー」の「列」ボックスで”住所(市区町村)”を選択
(f) 三段目の「次に優先されるキー」の「列」ボックスで”住所(その他)”を選択
(g) 四段目の「次に優先されるキー」の「列」ボックスで”法人名”を選択
(h) 「OK」ボタンを押下し並び替え実行
(i) 「法人名」、「住所」、「電話番号」、「webサイト」、「代表者」を総合的に確認し、
同一企業を判別
※下の表において、[注]と記載したレコードは住所の記載が市区町村までと
不十分であり、その他の情報も空白のため、判別不能のレコードと扱う。
(j) 同一企業と判別できたレコードの必須情報を修正して名寄せ完了!!
手順8、9では住所、法人名が未記載、不十分の情報はあまり精査をしません(出来ません)。
手順10~12でさらに精査をしていきます。
次回は
「10. 都道府県、市区郡町村で並び替え」、
「11. 都道府県、市区郡町村、丁目、番地、URL等その他の付帯情報から
法人格未記載の情報を精査、名寄せ」
をご説明いたします。
簡単Excel集計にご興味のある方は、是非ともお問合せ下さい!
Excel集計のお悩み相談はこちらから
(1) 急に上司にデータを出せと言われて残業
(2) 単純業務に時間が多く取られる
(3) ミスが多くて怒られる
(4) もっと集計データを活用したい
特にこのようなお悩みをお持ちのあなたにお勧めです!
無料相談はこちらから







