データサイエンティスト養成読本
データサイエンティスト養成読本
データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
- 出版社/メーカー: 技術評論社
- 発売日: 2013/08/08
- メディア: 大型本
- この商品を含むブログ (12件) を見る
データサイエンティストの仕事術
第1章 データサイエンティストに必要なスキル
- センサーの普及で拡がる分析対象
- CRISP-DM
- Busines Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment
- SEMMA
- Simple, Explore, Modifiy, Model, Assess
- KDD
- Selection, Preprocessing, Transformation, Data Mining, Interpretation/Evaluation
- データサイエンティストはデータを収集し、分析に適した形に整え、データにストーリーを語らせ、そのストーリーを他者に伝えている
- 必要とされるスキルセット
- ハードスキル
- IT系スキル(RDBMS関連、プログラム言語など)
- 分析系スキル(プログラム言語、各種統計解析など)
- ソフトスキル
- ビジネス系スキル(業界・業務に関する知識など)
- ハードスキル
- 好奇心を持つ
第2章 データサイエンスのプロセス
- 業務理解
- データ理解
- データ抽出
- データ書こう
- モデリング
- 教師ありモデル
- ニューラルネットワーク、決定木、線形回帰、ロジスティック回帰
- 教師なしモデル
- Kohonen、TwoStep、k-means
- 教師ありモデル
- 効果検証
- サービス実装
- 反復的なサイクルへ
- データの非正規化
- 意味のある欠損値と意味のない欠損値の判断
- KKD
- 勘と経験と度胸
- KDD
- Knowledge-Discovery in Databases
- データサイエンティストの成功は ROI や収益率などの要因で評価される
- 切り戻し条件を決めておく
- ソリューションの導入(展開・共有)もデータサイエンスの一部
- 組織からの反発に対する対応も
- 人的ナレッジを活用する
- 「溜まる」生ログと意思を持って「貯められた」データは資産価値が違う
第3章 「ビッグデータインフラ」入門
- RDBMS
- NoSQL
- KVS
- Hadoop
- Dynamo
- Casandra
- MongoDB
- VoltDB
- Voldemort
- データサイエンティストの特性
- 事業寄り
- 統計寄り
- 技術寄り
- 自分たちにないスキルを持ったチームメンバーといつでも協働できる体制を構築しておくことが重要
- モニタリングとアナリシス
- 母集団に分布の形を仮定しない統計手法をノンパラメトリック
- 母集団に正規分布などの分布の形を仮定する統計手法をパラメトリック
- 重要なことは、正しい答えを見つけることではない。正しい問いを見つけることである。
データサイエンティスト協会の活動
- DSSS(DataScientist Skill Standard)