データサイエンティスト養成読本

データサイエンティスト養成読本

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

p.69 まで

第2章 データサイエンティスト・リテラシー

  • データのクレンジング

    • 行 × 列の形式にする
      • 観測数 × 変数 の wide 型
    • 名寄せ
      • マニュアルで地道に
    • 型を決める
    • 欠損値補間
      • リストワイズ法 欠損値の含まれる行そのものを削除して分析対象から外す
      • 値を代用
        • 欠損値を0とする場合には慎重に
      • 回帰で推定
        • それ以外の数値から推定
    • 正規化
      • 狭義にいえば、データを線形変換し平均を0、分散を1にすること
  • データ分析

    • 可視化
      • 可視化そのものがレポートになる
      • データの傾向を把握して最適な手法を選択できる
      • データに外れ値があるか確認できる
    • ヒストグラム
    • 散布図
    • shiny
      • 動的なレポーティング
  • 基本統計量
    • 標本の分布を要約して表す値
  • 有意差検定と回帰
    • 有意差検定
      • ある仮説が正しいといって良いかどうかを確率論的に判断すること
    • t検定
      • 対応のあるt検定
      • 対応のないt検定
        • スチューデントのt検定
        • ウェルチのt検定
    • ノンパラメトリック検定
      • マン・ホイットニーのU検定
    • 回帰分析
      • 独立変数と従属変数の間の関係を表す式を統計的手法によって推計すること
      • 単回帰分析
      • 重回帰分析

第3章 RStudio でらくらくデータ分析

  • Reproducible Research
  • RStudio Server