2014年7月14日月曜日

統計学が最強の学問である

統計学とは集めたデータから答えを導き出す手法であるとともにその「確からしさ」を扱うというところにその力がある。つまり必要とする精度がコントロール可能なことによって必要最小限の労力で現実的な答えを得るための手法ということができる。与えられた問題に対して求められる精度を意識せずに常に最高の精度を求めることは全数検査の神話となり、それはビッグデータ万能論へとも繋がるものであるが、それは単にコンピューティングパワーの進化に任せたマッチョ信仰にすぎないのではないか。本書ではIT分野で広く用いられるA/Bテスト(統計学では「ランダム化比較実験」と呼ばれる)についても多くのページが割かれているが、これにおいても比較対象間の差が単なる偶然の誤差に過ぎない可能性について統計学を用いて判定が可能であることを示す。つまり統計学の理解なくして「ビッグデータ」の概念に基づき全数検査を行ったところで瑣末な誤差に一喜一憂するにすぎないのである。取得できたデータの全てを解析できたところでそれはあくまである時点、条件下において収集できたデータに過ぎないのであって、本来得るべき答えの全体ではないのである。

0 件のコメント:

コメントを投稿