はじめに
近年よく聞く、データサイエンスやデータサイエンティストという言葉があります。
データを分析して、個々の嗜好を分類するとか
未来の予測をするとか
これについて、少しまとめたいと思います
背景
データサイエンスが生まれてきた背景としては
- ビジネスとして、マスではなく個々の嗜好にあったサービス提供が必要になってきた。
- データ分析手法としてのしてディープラーニングの手法が生まれたこと
- コンピュータの性能向上や分散処理化されたこと
などが挙げられます
データサイエンスとはなにか?
データサイエンスとは、簡単に言うと
- 現実社会からデータを取得
- 取得データをいろいろな方法で分析
- 分析結果から、現実世界で起きていることの意味づけや未来予測をする
だと思います
データとはなにか
現実社会にあるデータとは、
- カメラや写真などの動画や画像
- 機械のセンサーなどの情報
- 心拍数などの身体的データ
- 会話やメール、チャットなどコミュニケーション情報
- アンケートなどの情報
- アプリなどのログ情報
- データベースの情報
などなど、どんなものでもデータになります
分析手法
データを集めたらつぎに、分析です。ここでは代表的な3つ分析方法について説明します
- 統計学的分析
- 機械学習による分析
- ディープラーニング(深層学習)による分析
統計学
記述統計
得られたデータから、その特徴を抜き出すテクニック
度数分布表やヒストグラムなどグラフ的方法論と
平均値や標準偏差などの統計量による方法論がある
推測統計
統計学の手法と確率論をミックスし、
部分(標本特性)から全体(母集団特性)を予測する
また、未知である未来に対する予測をする
統計学=>過去に起きたことに対する記述
確率論=>未来に起きることに関する記述
時間軸がすぎれば確率は統計になる
機械学習
機械学習には大きく分けて3つの方法があります
- 教師あり学習 与えられたデータ(説明変数、特徴量)から、目的となるデータ(目的変数)を予測するもの。
- 教師なし学習 正解となるデータを予測するのではなく、入力データそのものに注目し、データに潜むパターンや示唆を見出そうとするもの
- 強化学習 ある報酬を最大化するために何をすべきかの行動ルールを、機械に学習させるためのもの。
報酬は機械の一連の行動の結果に対し目的と整合するように設計します。
つまり望ましい結果には高い報酬を、望ましくない結果には低い報酬を与えるようにします。
教師あり学習のように1つ1つの行動に対する正解データは与えられず、その代わりどのような行動を取ったら最終的により大きな報酬を得られるかを見つけ出そうとします。
深層学習
多層のニューラルネットワークを利用した学習の方法です。
機械学習との大きな違いは、特徴量の選択(何を学習に使えばよいか)を人間が行わなくてよい。という点です
データ分析を実施する場合の進め方
データ分析を行う場合、下記のようなフローになる
- 目標を決める 何を分類したいのか?何を予測したいのか?
- 必要なデータを集める 手元にどんなデータがって、何が足りないのか?
- データの前処理 データは欠損していないか?
- (機械学習の場合)特徴量の決定 学習に利用するデータ(カラム)を決める。似たような相関になっているデータは削る
- 訓練データとテストデータの分離 学習のための訓練データと、学習後のモデルの性能を測るためのテストデータに分離する
- 学習モデルの選択 線形回帰モデル、決定木などの学習モデル決める
- 学習の実施 訓練データにより学習を実施
- 学習後のモデル評価</li>テストデータにより学習後のモデルの評価を行う。
思うように性能が出ない場合は、モデルやパラメータ、特徴量の変更などを行い再度実施する
足りないデータは集めればよいのか?
外れ値が存在していないか?
数値データのオーダーがあっていないるか?あっていない場合、正規化を行う
カテゴリ文字列は数値に変換して取り扱えるようにする
データサイエンスに必要とされるスキル
一言にデータサイエンスといっても、求められる能力が分かれている
ビジネス
課題背景を整理し、目標を明確に定義する力
データサイエンス
データを、統計学、情報処理、人工知能などの観点で整理、理解する力
データエンジニアリング
プログラミングや可視化などを行い、データを意味ある形に変える力
参考資料
完全独習 統計学入門
https://www.albert2005.co.jp/knowledge/statistics_analysis/statistics_basics/statistics

コメント