2014年12月8日月曜日

未読:はじめての統計学 鳥居 泰彦

はじめての統計学 単行本 – 1994/11 鳥居 泰彦

2014年10月29日水曜日

未読:DSPのホントがわかる本

<iframe src="http://rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=000000&IS2=1&bg1=FFFFFF&fc1=000000&lc1=0000FF&t=okadata-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=ss_til&asins=4781612296" style="width:120px;height:240px;" scrolling="no" marginwidth="0" marginheight="0" frameborder="0"></iframe>

2014年9月26日金曜日

2014年8月17日日曜日

統計学をまる裸にする データはもう怖くない

統計学をまる裸にする データはもう怖くない
チャールズ・ウィーラン、山形 浩生、 守岡 桜
(2014/9/30)購入した。

「それ、根拠あるの?」と言わせない データ・統計分析ができる本

「それ、根拠あるの?」と言わせない データ・統計分析ができる本

  • 仮説アプローチと網羅的アプローチ。仮説アプローチは効率的にデータを集め、分析を進めることができるが「結論ありき」になる危険も。網羅的アプローチは手間がかかるが、意外な結論を得られるケースも。
  • 全体におおまかな傾向を見る場合に平均は有効。しかし平均=代表的な値でないことに注意。中央値、標準偏差、ヒストグラムなどが用いられる。
  • 標準偏差においてはデータが常に正規分布しているわけではないことに注意
  • ヒストグラムにおいて、各階級の真ん中の値を「階級値」と呼ぶ
  • 一つのデータ分析に平均・偏差を使う
  • 二つのデータ間の関連に相関、CORREL関数が使える。-1〜1の値を取り、1(-1)に近いほど正の相関(負の相関)が強い
  • 相関の発見には「見せかけの相関」に注意する
  • 相関の強い2つの変数についてy=ax+bの関係を満たす変数を見つけるために「単回帰分析」が利用できる。複数の変数についての関係を表す「重回帰分析」はビジネス実務の観点ではあまり使うことが少ない。
  • Excelでは回帰式は散布図から求めることができる
  • 決定係数(寄与率)とは、回帰式が標本データをどの程度適切に表しているかの指標で、0〜1.0の値。通常0.5以上の値が妥当とされる

2014年7月25日金曜日

IAB(Interactive Advertising Bureau)とは

IAB(Interactive Advertising Bureau/インタラクティブ広告局)とは米国内のデジタル広告の86%を占める600以上のメディアまたはテクノロジー企業から構成されており、マーケター、代理店、メディア企業を始めとするコミュニティを教育し、デジタル経済の反映を促す。具体的には参加企業と連携してインタラクティブ広告の標準化、ベストプラクティスやリサーチを行っている。

1996年に設立されており、各種アドテクノロジーはIABガイドラインに準拠していることが多い(らしい)ので、参考にすると良い。サイト上には多数のガイドラインも公開されている。

IABのサイト http://www.iab.net/

2014年7月24日木曜日

ビッグデータの不都合な真実

http://wirelesswire.jp/yomoyomo/201407231830.html

  • 2013年はビッグデータを巡るハイプ(誇大広告)がピークを迎えている
  • データは客観的ではなく、人間による設計の産物である
  • データの収集段階には「シグナルの問題」が存在する。データが「ビッグ」であることは解決にならない
  • ビッグデータの匿名化の技術は十分に機能していない。これは産業活用の前提である

2014年7月18日金曜日

DSP/RTBオーディエンスターゲティング入門

オンライン広告の歴史の中でDSP(Demand Side Platformつまり広告主側のプラットフォーム)とは広告主が広告を出稿するにあたって「枠」つまり一定の読者層をターゲットにした特定のサイトに対して一律的な広告を出稿するのでなく、サイトにアクセスしてきたユーザの属性をセグメント分けしてピンポイントに広告を出稿するための手法である。この意味で広告を示す言葉のコミュニケーションはDSP時代において本来の消費者とのコミュニケーション媒体となることができつつあるのかもしれない。

DSP以前の広告において、広告主は「枠」の持ち主、つまりポータルサイトの自己申告による読者属性を「信じて」広告出稿を行うほかは無かった。一方でDSPにおいてはクッキー技術をベースにしたユーザのセグメント分けをDSPプラットフォームが行っており、そこに対して広告出稿を行う。RTBはユーザの1インプレッション(PV)ごとに対して最適な広告のマッチングを行うための仕組みであり、これは計算機の能力が近年において大きく向上したことを根拠とするものである。

DSP/SSPやRTBといった仕組みの進化はリーマンショック以降に金融分野のエンジニアが大量にIT分野に移ったことで引き起こされた。これはまさに金融工学の考えがネット広告に持ち込まれたものであり、リアルタイムに入札と応札が行われて出稿単価が決まるその仕組みは株取引に近い考え方と言える。この最適化の仕組みは各プラットフォームがそれぞれ独自の手法を用いて行っているものであり(何が「最適な広告」かという評価軸も異なる)本書ではその内容も垣間見ることができる。また、RTB/DSP/SSP/DMPといった最新のアドネットワーク技術に至るネット広告の進化の歴史も俯瞰して知ることができる。

2014年7月14日月曜日

データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方

統計学が最強の学問である

統計学とは集めたデータから答えを導き出す手法であるとともにその「確からしさ」を扱うというところにその力がある。つまり必要とする精度がコントロール可能なことによって必要最小限の労力で現実的な答えを得るための手法ということができる。与えられた問題に対して求められる精度を意識せずに常に最高の精度を求めることは全数検査の神話となり、それはビッグデータ万能論へとも繋がるものであるが、それは単にコンピューティングパワーの進化に任せたマッチョ信仰にすぎないのではないか。本書ではIT分野で広く用いられるA/Bテスト(統計学では「ランダム化比較実験」と呼ばれる)についても多くのページが割かれているが、これにおいても比較対象間の差が単なる偶然の誤差に過ぎない可能性について統計学を用いて判定が可能であることを示す。つまり統計学の理解なくして「ビッグデータ」の概念に基づき全数検査を行ったところで瑣末な誤差に一喜一憂するにすぎないのである。取得できたデータの全てを解析できたところでそれはあくまである時点、条件下において収集できたデータに過ぎないのであって、本来得るべき答えの全体ではないのである。