データサイエンティスト養成読本
データサイエンティスト養成読本
データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
- 出版社/メーカー: 技術評論社
- 発売日: 2013/08/08
- メディア: 大型本
- この商品を含むブログ (12件) を見る
p.69 まで
第2章 データサイエンティスト・リテラシー
データのクレンジング
- 行 × 列の形式にする
- 観測数 × 変数 の wide 型
- 名寄せ
- マニュアルで地道に
- 型を決める
- 欠損値補間
- リストワイズ法 欠損値の含まれる行そのものを削除して分析対象から外す
- 値を代用
- 欠損値を0とする場合には慎重に
- 回帰で推定
- それ以外の数値から推定
- 正規化
- 狭義にいえば、データを線形変換し平均を0、分散を1にすること
- 行 × 列の形式にする
データ分析
- 可視化
- 可視化そのものがレポートになる
- データの傾向を把握して最適な手法を選択できる
- データに外れ値があるか確認できる
- ヒストグラム
- 散布図
- shiny
- 動的なレポーティング
- 可視化
- 基本統計量
- 標本の分布を要約して表す値
- 有意差検定と回帰
第3章 RStudio でらくらくデータ分析
- Reproducible Research
- RStudio Server