• 発売日:2020/04/20
  • 出版社:翔泳社
  • ISBN:9784798160672

読み込み中…

現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法

現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法

通常価格 4,180 円(税込)
通常価格 セール価格 4,180 円(税込)
SALE 売り切れ
  • 発売日:2020/04/20
  • 出版社:翔泳社
  • ISBN:9784798160672
ネットストア在庫 詳細
    読み込み中...
My店舗在庫
    My店舗登録で在庫確認と店舗お受け取りのご利用が可能になります。(要ログイン)
  • 在庫表示のサンプル
商品説明
機械学習エンジニア&データサイエンティスト必携!
初学者でもpandasによる前処理手法がわかる

【本書の背景】
機械学習やデータサイエンスでは、いかに「きれいなデータ」を用意できるかが非常に重要です。データクレンジングともいわれますが、実際の現場のデータは、機械学習やデータ分析にすぐ利用できるデータは皆無に等しく、エンジニアによりデータの前処理が必須となってきています。

【本書の概要】
本書は、機械学習やデータサイエンスの現場では、データ処理に必要な定番のライブラリ「pandas」を用いて、前処理の基本と様々な前処理手法について、あますところなく解説した書籍です。
初学者向けにシンプルでわかりやすいサンプルを用いていますので、pandasの基本操作方法やデータ構造、さらに前処理の基本の理解についてもしっかり学ぶことができます。
pandasを理解することで、様々な機械学習・データ分析タスクがスムーズに行えるようになります。

【本書の対象読者】
・機械学習エンジニア(初学者)
・データサイエンティスト(初学者)

【著書からひとこと】
機械学習では「Garbage In, Garbage Out(略、GIGO)」と言う概念があります。これは「無意味な(ゴミのような)データを入力すると無意味な結果が戻される」の意味です。
GIGOの概念でも解る通り、機械学習エンジニアは様々な手法で収集された膨大なデータの分析を行い、意味のある結果を得るために、多種多様な手法の前処理/分析を行います。
機械学習において約7割の時間はデータの前処理に費やされると言われていますが、その多くは「pandas」を使ったものです。
CSVファイルの読み込みから始まり、要約統計量や欠損値・外れ値・重複データの確認、さらにデータのマージやグループ化などの様々なタスクをpandasで行います。
本書では機械学習「初学者向け」にpandasの基本的な操作を解説しています。初歩的な要約統計量の算出やグループ化やダミー変数、さらに文字列や時系列データの基本操作など、幅広い範囲をカバーしています。
日々、データを業務で取り扱う機械学習エンジニアやKaggle等のデータ分析競技をやられている方に向けて、pandasを使ったデータ前処理のお役に立てばと思い執筆いたしました。

詳細を表示する

カスタマーレビュー

honto本の通販ストアのレビュー(0件)

並び順:
1/1ページ

最近チェックした商品