こんにちは.産業用画像処理アプリケーション開発の仕事をしているものです.
仕事でデータの統計を扱うときに,よく標準偏差を使った処理をすることがあります.「標準偏差」の理解を深めようと勉強していると,「平均偏差」という考え方もあることが分かりました.普通,複数のデータのばらつきを考えるときには,平均偏差の考え方が直感的で分かりやすいと思うのですが,なぜ,「標準偏差」の方が重宝されているのでしょうか?
式では,
分散=((データ−平均値)の2乗 )の総和÷個数 標準偏差=(分散)の平方根
平均偏差=((データ−平均値)の絶対値 )の総和÷個数
となっています.実際のばらつきを素直に表現しているのは平均偏差の方だと思うのですが・・・.
似たような質問がされているサイトをいろいろと見ましたが,結果として,
{ 「絶対値」を使った場合,数学的に微分不可能な部分が出てきてしまい,二乗した場合は二次関数となるので微分不可能なところがなく,統計を数学的に扱う時に非常に楽になるから. }
という所でみんな「納得」となっています.絶対値を使うのがダメなら,
平均偏差=((データ−平均値)の2乗の平方根 )の総和÷個数
としてしまえばいいのではないでしょうか?
標準偏差の値が,実際どのくらいのばらつきなのか直感的にわかりずらく,このような質問をしています.よろしくお願いします.
機械設計で積木細工の様な構成の集積品の誤差や ボールベアリング内輪内径と軸外径の嵌合スキマ の予測には分散を使わざるを得ません.
集積品の寸法の分散は部品の寸法の分散の和となる公式が有ります. 集積品の寸法は部品の寸法の分布よりも,より正規分布に近づきます. これが分散が重宝されている理由でしょう.
標準偏差の値が,実際どのくらいのばらつきなのか直感的にわかりずらいですが, 正規分布曲線と標準偏差σの関係を理解する必要があります.±3σとか簡単です.
ウェブの記事を参考にするなら,下記を推奨します.
独立な測定値の和・差 3.独立な測定値の和・差 中心極限定理 ... こうした「独立」の測定値の和や差の 不確かさについては,「加減した数の分散は,加減する数の分散の和になるという 性質があります. 独立に行われた測定値 x,y の和を z とします. z = x + y ...
治具工房さん,ご回答ありがとうございます.
世の中で,分散値が必要な場合があるということが分かりました.分散と標準偏差に関しては,式は分かってもその必要性が分からないというか,リアリティがないというか,「なぜばらつきを扱うのに,こんな感覚的でないものを・・・」という思いがありました.実用的な例を挙げられると,「やっぱり理由があるんだな」とやる気になります!紹介していただいたウェブサイトでさらに理解を深めていきたいと思います.
標準偏差が重宝される理由の一つに正規分布がありそうだなとは思っていましたが,勉強不足で,納得するにいたっていませんでした.±3σの間に99%以上が包括されるという特性(よく分かっていないのでこのな抽象的な表現)があることが世の中で幅をきかせている要因になっているようなので,もう一度ちゃんと勉強したいと思います.学生時代は全然勉強していなかったので,今になって苦労していますが,少しでも分かり始めると面白いですね・・・.