- 発売日:2025/01/08
- メーカー:技術評論社
- ISBN:9784297146634
目次
まえがき
第1章 Data-centric AIの概要
1.1 Data-centric AIとは
1.1.1 Model-centric AIとData-centric AI
1.1.2 ラベルの一貫性
1.1.3 データセットサイズとデータ品質との関係
1.1.4 MLOpsの役割
1.1.5 ビッグデータからグッドデータへ
1.1.6 まとめ
1.2 データセットのサイズとモデルの性能の関係
1.3 データの品質の重要性
1.3.1 AIシステムにおける品質特性
1.3.2 データの品質が与える影響
1.4 おわりに
第2章 画像データ
2.1 画像認識におけるData-Centric AIとは
2.2 画像認識モデルの基礎知識
2.2.1 代表的な画像認識タスクとデータセット
2.2.2 CNN
2.2.3 ViT
2.2.4 モデルの評価方法
2.2.5 モデルとデータのスケール
2.3 データを拡張、生成する技術
2.3.1 データ拡張とその恩恵
2.3.2 人工的にデータを生成する技術
2.4 不完全なアノテーションからの学習
2.4.1 自己教師学習
2.4.2 半教師付き学習
2.4.3 モデルベースでのアノテーションデータのクリーニング方法
2.5 画像と言語ペアの関係性を学習した基盤モデル
2.5.1 CLIP
2.5.2 BLIP
2.5.3 Data-CentricなVLデータの評価とデータの安全性
2.6 能動学習
2.6.1 予測の不確かさに基づく考え方
2.6.2 多様性に基づく考え方
2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
2.7 おわりに
第3章 テキストデータの収集と構築
3.1 言語モデルの事前学習
3.2 事前学習データの収集
3.2.1 必要な事前学習データの規模
3.2.2 データの収集戦略
3.2.3 HTMLからの本文抽出
3.3 ノイズ除去のためのフィルタリング
3.3.1 なぜフィルタリングが必要か?
3.3.2 ルールに基づくフィルタリング
3.3.3 機械学習を用いたフィルタリング
3.4 データからの重複除去
3.4.1 なぜ重複除去が必要か?
3.4.2 URLを用いた重複排除
3.4.3 MinHash
3.5 テキストデータ収集の限界
3.5.1 複数エポックの利用
3.5.2 データセットの多言語化
3.5.3 品質の高いデータの利用
3.6 おわりに
第4章 大規模言語モデルのファインチューニングデータ
4.1 ファインチューニングとは
4.1.1 ファインチューニングの概要
4.2 Instruction Data
4.2.1 よいInstruction Dataとは?
4.2.2 既存のデータを活用したデータセット作成
4.2.3 人手によるデータセット作成
4.2.4 大規模言語モデルによるデータセット作成
4.3 Preference Data
4.3.1 Preference Dataの作成方法
4.3.2 データセット
4.4 ファインチューニングモデルの評価
4.4.1 評価方法
4.4.2 定量的な指標による評価
4.4.3 人間や大規模言語モデルによる評価
4.4.4 評価時の注意点
4.5 日本語における大規模言語モデルのファインチューニング
4.5.1 日本語ファインチューニングモデルの構築
4.5.2 日本語評価データセット
4.6 おわりに
第5章 ロボットデータ
5.1 はじめに
5.2 RTシリーズの概要
5.2.1 RT-1
5.2.2 RT-2
5.2.3 RT-X
5.2.4 その他
5.3 多様なロボット
5.3.1 単腕ロボット
5.3.2 双腕ロボット
5.3.3 台車型ロボット
5.3.4 脚型ロボット
5.3.5 その他のロボット
5.4 ロボットにおけるデータ収集
5.4.1 ユニラテラルなオンライン遠隔教示
5.4.2 バイラテラルなオンライン遠隔教示
5.4.3 オフライン教示
5.5 データセット
5.5.1 QT-Opt
5.5.2 RoboNet
5.5.3 BridgeData V2
5.5.4 BC-Z
5.5.5 Interactive Language
5.5.6 DROID
5.5.7 その他
5.6 データ拡張
5.6.1 画像データ拡張
5.6.2 言語データ拡張
5.7 おわりに
第6章 Data-centric AIの実践例
6.1 テスラ
6.2 メタ
6.3 チューリング
6.4 LINEヤフー
6.5 GO
6.6 コンペティションとベンチマーク
6.6.1 Data-centric AI Competition
6.6.2 DataComp
6.6.3 DataPerf
6.6.4 Kaggle
6.7 Data-centric AI実践のためのサービス
6.7.1 Snorkel AI
6.7.2 Cleanlab
6.8 おわりに
第1章 Data-centric AIの概要
1.1 Data-centric AIとは
1.1.1 Model-centric AIとData-centric AI
1.1.2 ラベルの一貫性
1.1.3 データセットサイズとデータ品質との関係
1.1.4 MLOpsの役割
1.1.5 ビッグデータからグッドデータへ
1.1.6 まとめ
1.2 データセットのサイズとモデルの性能の関係
1.3 データの品質の重要性
1.3.1 AIシステムにおける品質特性
1.3.2 データの品質が与える影響
1.4 おわりに
第2章 画像データ
2.1 画像認識におけるData-Centric AIとは
2.2 画像認識モデルの基礎知識
2.2.1 代表的な画像認識タスクとデータセット
2.2.2 CNN
2.2.3 ViT
2.2.4 モデルの評価方法
2.2.5 モデルとデータのスケール
2.3 データを拡張、生成する技術
2.3.1 データ拡張とその恩恵
2.3.2 人工的にデータを生成する技術
2.4 不完全なアノテーションからの学習
2.4.1 自己教師学習
2.4.2 半教師付き学習
2.4.3 モデルベースでのアノテーションデータのクリーニング方法
2.5 画像と言語ペアの関係性を学習した基盤モデル
2.5.1 CLIP
2.5.2 BLIP
2.5.3 Data-CentricなVLデータの評価とデータの安全性
2.6 能動学習
2.6.1 予測の不確かさに基づく考え方
2.6.2 多様性に基づく考え方
2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
2.7 おわりに
第3章 テキストデータの収集と構築
3.1 言語モデルの事前学習
3.2 事前学習データの収集
3.2.1 必要な事前学習データの規模
3.2.2 データの収集戦略
3.2.3 HTMLからの本文抽出
3.3 ノイズ除去のためのフィルタリング
3.3.1 なぜフィルタリングが必要か?
3.3.2 ルールに基づくフィルタリング
3.3.3 機械学習を用いたフィルタリング
3.4 データからの重複除去
3.4.1 なぜ重複除去が必要か?
3.4.2 URLを用いた重複排除
3.4.3 MinHash
3.5 テキストデータ収集の限界
3.5.1 複数エポックの利用
3.5.2 データセットの多言語化
3.5.3 品質の高いデータの利用
3.6 おわりに
第4章 大規模言語モデルのファインチューニングデータ
4.1 ファインチューニングとは
4.1.1 ファインチューニングの概要
4.2 Instruction Data
4.2.1 よいInstruction Dataとは?
4.2.2 既存のデータを活用したデータセット作成
4.2.3 人手によるデータセット作成
4.2.4 大規模言語モデルによるデータセット作成
4.3 Preference Data
4.3.1 Preference Dataの作成方法
4.3.2 データセット
4.4 ファインチューニングモデルの評価
4.4.1 評価方法
4.4.2 定量的な指標による評価
4.4.3 人間や大規模言語モデルによる評価
4.4.4 評価時の注意点
4.5 日本語における大規模言語モデルのファインチューニング
4.5.1 日本語ファインチューニングモデルの構築
4.5.2 日本語評価データセット
4.6 おわりに
第5章 ロボットデータ
5.1 はじめに
5.2 RTシリーズの概要
5.2.1 RT-1
5.2.2 RT-2
5.2.3 RT-X
5.2.4 その他
5.3 多様なロボット
5.3.1 単腕ロボット
5.3.2 双腕ロボット
5.3.3 台車型ロボット
5.3.4 脚型ロボット
5.3.5 その他のロボット
5.4 ロボットにおけるデータ収集
5.4.1 ユニラテラルなオンライン遠隔教示
5.4.2 バイラテラルなオンライン遠隔教示
5.4.3 オフライン教示
5.5 データセット
5.5.1 QT-Opt
5.5.2 RoboNet
5.5.3 BridgeData V2
5.5.4 BC-Z
5.5.5 Interactive Language
5.5.6 DROID
5.5.7 その他
5.6 データ拡張
5.6.1 画像データ拡張
5.6.2 言語データ拡張
5.7 おわりに
第6章 Data-centric AIの実践例
6.1 テスラ
6.2 メタ
6.3 チューリング
6.4 LINEヤフー
6.5 GO
6.6 コンペティションとベンチマーク
6.6.1 Data-centric AI Competition
6.6.2 DataComp
6.6.3 DataPerf
6.6.4 Kaggle
6.7 Data-centric AI実践のためのサービス
6.7.1 Snorkel AI
6.7.2 Cleanlab
6.8 おわりに
