Chapter1 インフォメーションストレージ入門
1.1 インフォメーションストレージ
1.1.1 データ
データ=生の事実
デジタルデータ=0,1で表現されるデータ
1.1.2 データの種類
構造化データ=RDBMSを使って保存される
非構造化データ=要素を行と列に格納できないデータ
1.1.3 ビッグデータ
ビッグデータ=使用されているソフトウェアツールの性能では許容時間内に取得、格納、管理、処理しきれないサイズのデータセット
ビッグデータエコシステムの構成要素
・デバイス=複数の場所からデータを収集し、新しいデータも生成する
・データコレクタ=デバイスとユーザーからデータを収集する
・データアグリゲータ=収集したデータを集めて意味のある情報を引き出す
・データのユーザーとバイヤー=凝縮された情報から恩恵を受ける
ビッグデータをリアルタイムに分析するためには
ハイパフォーマンスなMPP(Massively Parallel Processing)データプラットフォームを提供、
データセットの高度な分析を可能にする新しいテクニック、アーキテクチャ、ツールが必要。
1.1.4 インフォメーション
インフォメーション=データから導きだされるインテリジェンス(知恵)とナレッジ(知識)
1.1.5 ストレージ
ストレージ=データを格納するために設計されたデバイス
1.2 ストレージアーキテクチャの進化
旧来
サーバ中心のストレージアーキテクチャ(物理資源中心)
これから
インフォメーション中心のアーキテクチャ
ストレージデバイスはサーバから独立、中央で管理
ストレージデバイスは複数のサーバで共有
1.3 データセンターのインフラストラクチャ
1.3.1 データセンターの中核要素
次の5つの中核要素が不可欠
・アプリケーション
・DBMS
・ホストまたはコンピュート
・ネットワーク
・ストレージ
1.3.2 データセンターの主な特性
・可用性=要求されたときに必要な情報を提供する
・セキュリティ=不正アクセス防止の為のポリシー、手続き、など
・スケーラビリティ=サーバやDBの追加を業務を中断することなく拡張できるように。
・パフォーマンス=要求されたパフォーマンスを常に提供できるように。
・データの完全性=データが受け取った通りの状態で格納され、取得されるように。
・キャパシティ=大量のデータを処理する為のリソースが必要。
・管理可能性=すべてのリソースを簡単かつ総合的に管理できなければならない。
1.3.3 データセンターの管理
・監視
・レポート作成
・プロビジョニング=リソースを準備するプロセス
1.4 仮想化とクラウドコンピューティング
仮想化=物理リソースを抽象化し、それらを論理リソースとして表す技術。
クラウドコンピューティング=個人またはビジネスがITリソースをネットワーク経由のサービスとして利用できるようになる。
1.5 まとめ
