今回のテーマ
みなさん、こんにちは!
デジタルステーション習志野スタッフの小島です。
今日はプロクラの授業で基本統計量のいくつかを扱ったので、その紹介をしたいと思います。
基本統計量
基本統計量はデータの基本的な特徴を示す値です。
基本統計量には、代表値と散布度の2種類があります。
今回は、その中で平均、分散、標準偏差をPythonで1から求めてもらいました。
平均
平均はデータの平均的な値のことです。
実は平均にも種類が存在しますが、今回は単純な算術平均(相加平均)を対象とします。
平均はデータの総和をデータ数で割ることで得られます。
分散
分散はデータのばらつき度(散布度)を示す指標です。
各データと平均の差(偏差)を2乗したものの総和をデータ数で割ることで得られます。
なぜ、2乗するのかというと平均との差で、正負の違いを無くすためです。
2乗することで、負の値も正の値として扱うことができます。
標準偏差
標準偏差はデータのばらつき度(散布度)を示しつつ、元のデータと併せて使用できる指標です。
分散の平方根を取ることで得られます。
なぜ、分散をそのまま使用しないのかというと、分散はデータを2乗しているため単位が元のデータ単位の2乗になっているためです。
具体的には身長(cm)のデータを扱う際に、得られた分散の単位は(cm^2)になってしまいます。
以上のことから実際に統計量として示すときには標準偏差を用います。
プログラム
データ
1~100のランダムな数を要素とする長さが200のリストを作成します。
平均
リスト内の要素の総和を出してくれるsum関数とリストの長さを出してくれるlen関数を用いて平均を求めます。
分散
ループ処理を用いて各データと先ほどの平均の2乗の総和を求めます。
その後に、len関数で総和を割って分散を求めます。
標準偏差
sqrt関数を用いて分散の平方根を取ります。
まとめ
今日は基本統計量について簡単に紹介しました。
プログラミングはソフトウェアやゲームだけでなく、分析にも使われています。
他にもプログラミングは身近の様々な役に立っているので、探してみてください。
考えてみよう!
Pythonでの平方根
実はsqrt関数を使わなくても平方根を求める方法があります。
どんな方法があるでしょう?
デジタルステーション習志野
〒274-0063 船橋市習志野台4-1-7 習志野駅前郵便局2F