★大規模プロジェクトを複数手掛ける著者2名が執筆!
★500ページ超のボリュームで包括的に解説!
近年、データ活用の重要性が高まる一方で、適切な技術を選んで効果的に活かすことは容易ではありません。データ基盤の構築手段は多様化しているため、どの技術をどのように組み合わせるべきか迷う場面も多いでしょう。
本書は、ビジネスの成長に不可欠な「データプラットフォーム」の構築と活用について解説する一冊です。ユーザー行動やセンサーログなどのデータを収集・整理し、ETL処理やELT処理を経て価値ある情報に変換し、意思決定に活かす方法を紹介します。データ品質の維持や、効率的な分析手法についても詳しく解説しています。
DX(デジタルトランスフォーメーション)が進むなか、データとデジタル技術の役割はさらに重要になっています。本書では、Apache
Sparkをはじめとする技術の選定や活用方法、設計の考え方を詳しく解説。最新技術だけでなく、将来の変化にも対応できる普遍的な知識を提供します。データを活用してビジネスの競争力を高めたい方、最適なデータ基盤を構築したい方は、本書を通じてデータプラットフォームの理解を深め、より効果的な活用を目指しましょう。
<本書で紹介する要素技術・原則(一部)>
・ログ転送:Fluentd
・アーキテクチャパターン:CQRS+ES、Delta、Kappa、Lambda、Lakehouse、メダリオンアーキテククチャ
・データフォーマット:Apache Hudi、Apache Iceberg、Delta Lake
・データレイク:Apache Spark、Databricks
・データウェアハウス:Amazon Redshift、Google BigQuery、Snowflake、Treasure Data
・ストリーミング:Amazon Kinesis、Apache Kafka
・ジョブスケジューラ:Apache Airflow、Digdag
・ETL処理:Apache Spark、Emublk
・ELT処理:dbt
・BIツール:Metabase、Redash
・データサイエンス:A/Bテスト、LLM、MLflow
・設計開発:データメッシュ、ドメイン駆動設計(DDD)、RDRA
・法則・原則:DIKWモデル、SOLID原則、YAGNI原則