「ビッグデータを支える技術」の読書メモ

スポンサーリンク
スポンサーリンク

メモ

データ構造化のパイプライン

  • 分散ストレージ上に、非構造化データやスキーマレスデータとして、Webログや業務用DB上のマスタデータが蓄積される
  • 列志向ストレージ上に、構造化データとして、ファクトテーブルやディメンジョンテーブルを保存。
    SQLで集計可能な状態を作る。列志向ストレージに保存するのは、圧縮率を高めるため

分散システムのコンポーネント

  • 分散ファイルシステム
    • HDFSなど
  • リソースマネージャ
    • YARN、Mesosなど
  • 分散データ処理
    • MapReduce, Tez, Sparkなど
  • クエリエンジン
    • Hive, Impalaなど
スポンサーリンク

用語

  • データパイプライン
    • データ収集から、データ処理・データ配置(蓄積)までの一連の流れ
  • データ収集
    • あらゆる場所から、あらゆる形式のデータを転送する必要がある
  • データ転送
    • バルク型
      • 既にどこかにあるデータをまとめて転送
      • データ転送の信頼性が重要な場合はバルク型のデータ転送を利用する
      • 定期的なスケジュール実行、エラー通知、再実行などはワークフロー管理ツールに任せる
    • ストリーミング型
      • 生成され続けるデータを絶え間なく転送
      • ストリーミング型のデータ転送は再転送が簡単ではないため、ワークフローの一部としては実行されない
  • データ処理
    • ストリーム処理
      • 生成され続けるデータに対してリアルタイムに加工
    • バッチ処理
      • 長期的なデータを効率よく加工
  • 分散ストレージ
    • 多数のコンピュータとディスクから成るストレージシステム
    • オブジェクトストレージであるAmazon S3などが代表的
  • 分散データ処理
    • 後から分析しやすいようにデータを加工し、適切なストレージへ書き出す
  • ワークフロー管理
    • データパイプライン全体の動作管理
  • スキーマ
    • カラム名、データ型、テーブル間の関係などの定義
  • 構造化データ
    • スキーマが明確に定義されたデータ
  • 非構造化データ
    • スキーマを持たないデータ。そのままではSQLでうまく集計できない
  • スキーマレスデータ
    • 書式は決まっているが、カラム数やデータ型が明確でないデータ
  • ファクトテーブル
    • 時間とともに増加するデータ
  • ディメンジョンテーブル
    • ファクトテーブルに付随するデータ

コメント

タイトルとURLをコピーしました