データマイニングとは
企業に大量に蓄積されるデータを解析し、その中に潜む項目間の相関関係
やパターンなどを探し出す技術。
要するに、データ分析。
関連して
データウェアハウス
一般に時系列に整理された大量の統合業務データ。
データマート
データウェアハウスの中から特定の目的に合わせた部分を取り出したもの。
BI(Business Intelligence)
企業内のデータを、蓄積・分析・加工して、企業の意思決定に活用しようとする手法。
データマイニングもこの一つ。
DBの正規形
非正規形
EXCELの表で以下のようなものを作ってデータをSQLサーバーに入れろという
別部署の人が実際います。
ご丁寧にATLでセル内改行までしてる。
サンプルはこんなですけど会社のは20000行くらいあってそれはそれはひどいものでした。
胃イテみたいな。話はそれましたが1属性に2つ以上タプルがあるようなこういう変なデータ
(黄色の部分)を正規化されていないデータといいます。
EXCEL→ACCESSでもインポート失敗はほとんどこの原因。
第一正規形
上記の属性値をひとつにしたもの。ACCESSのテーブルに入っているデータはすでに
第一正規形をクリアしているといえる。
第二正規形
第一正規形でかつ非キー属性がすべての候補キーに対して完全関数従属している関係
第三正規形
第二正規形でかつ候補キーと非キー属性に推移関数従属性がない関係
ボイス・コッド正規形
第二正規形の変化版。第二正規形は非キー属性がすべての候補キーに対して完全関数従属
であったが、この非キー属性がすべての属性に読み変わる。
第四正規形
対称性のある多値従属性の分解。候補キーを分解。
第五正規形
結合従属性を維持して分解。これも候補キーを分解。
関数従属性
正規化を理解する上で非常に重要。
2つの属性AとBがある場合にAが決まればBもひとつ決まる場合にBはAに関数従属しているという。
ひとつ決まるというのがポイント。
この場合Aを決定項、Bを被決定項という。
A→Bと書く。
なお、以下は推論則といい関数従属性で常に成り立つ。
反射律(BがAの部分集合である場合当然A→B)、
増加律(A→Bが成立している場合A,Bに別の属性Cをおのおの持つ場合、{A,C}→{B,C}が成立)
推移律(A→B、B→Cの関数従属性成立時、A→Cが成立)
完全関数従属と部分関数従属
完全関数従属
パターン1
{A1,A2}→BでありかつA1→B、A2→Bが成立しない場合。
いわゆる複合キーでユニーク状態。
パターン2
A→B
これは1つしか属性がないから当然。
部分関数従属
{A1,A2}→BでありかつA1→B、A2→Bが一方でも成立する場合。