【永久保存版】ウェブ解析で使う統計基礎

【永久保存版】ウェブ解析で使う統計基礎

永久保存版と書いたのは私の中の勝手なカテゴリーで、今後書き足したり変えていこうと思ってる記事ということ。「書いておしまい。」ではない記事があってもいいと思いませんか?

今回はウェブ解析で使う統計基礎をメモしてこうと思う。逆に言うとウェブ解析で使わない統計基礎は書かない。そして基礎ちゃ基礎だけど検定・推定は捨てます。まずいっておきます。はい。

代表とする値

値が1個しかなければ気にしなくていいけど、2つ以上値が値の集団になり、その集団をどの数字で表すか、ってことが課題となる。そんな値を代表値という。

平均値 合計して母数で割る、あれです。ほんとはすごい種類あるから後述。

中央値 データを並べてちょうど真ん中に来る数字。偶数の場合は平均みたいに真ん中付近の数を足して2で割る。

最頻値 もっとも出現頻度の多い数。ある意味納得しやすい値でもある。もっともその数を示す事が多いわけですからね。でも問題もある。細かくばらつく値では最頻値が出ないこともあるし、2つでることもある。

でもって平均値がよく使われる。でも、ウェブ解析では代表値として不適切な場合も多い。理由は裾野が広く、少ない値や大きい値(外れ値)があると全体の傾向と大きくズレてしまうからである。最頻値が最適ともいえるが、前述の理由で扱いにくい。そこで中央値が一つの解決策となる。

ウェブ解析で代表値として検討するべき値の一つは中央値である。Googleアナリティクスの速度で中央値を採用しているのはとてもいいことで、ばらつきがとびきり大きいからだろう。

散らばり具合を表す値として、

範囲・最大値・最小値・分散・標準偏差・分散

も表したいけど、また今度で。