2014年8月17日日曜日

統計学をまる裸にする データはもう怖くない

統計学をまる裸にする データはもう怖くない
チャールズ・ウィーラン、山形 浩生、 守岡 桜
(2014/9/30)購入した。

「それ、根拠あるの?」と言わせない データ・統計分析ができる本

「それ、根拠あるの?」と言わせない データ・統計分析ができる本

  • 仮説アプローチと網羅的アプローチ。仮説アプローチは効率的にデータを集め、分析を進めることができるが「結論ありき」になる危険も。網羅的アプローチは手間がかかるが、意外な結論を得られるケースも。
  • 全体におおまかな傾向を見る場合に平均は有効。しかし平均=代表的な値でないことに注意。中央値、標準偏差、ヒストグラムなどが用いられる。
  • 標準偏差においてはデータが常に正規分布しているわけではないことに注意
  • ヒストグラムにおいて、各階級の真ん中の値を「階級値」と呼ぶ
  • 一つのデータ分析に平均・偏差を使う
  • 二つのデータ間の関連に相関、CORREL関数が使える。-1〜1の値を取り、1(-1)に近いほど正の相関(負の相関)が強い
  • 相関の発見には「見せかけの相関」に注意する
  • 相関の強い2つの変数についてy=ax+bの関係を満たす変数を見つけるために「単回帰分析」が利用できる。複数の変数についての関係を表す「重回帰分析」はビジネス実務の観点ではあまり使うことが少ない。
  • Excelでは回帰式は散布図から求めることができる
  • 決定係数(寄与率)とは、回帰式が標本データをどの程度適切に表しているかの指標で、0〜1.0の値。通常0.5以上の値が妥当とされる