1.内容
前回と同様、3列目のCTD塩分値を使って、簡単な統計処理を行う。
目標は平均値、分散、標準偏差(シグマ)の算出、および平均値±シグマ以内のデータ
の抽出。
2.前知識
標準偏差はデータのばらつきを表す指標であり、例えばデータの品質管理に用いる。
図1:500〜1000m水深の塩分データのみを抽出し、頻度分布を描いたもの。点線はデータの確率密度分布。ある程度は正規分布している。シグマ(σ)とは標準偏差のこと。
|
参照:http://homepage1.nifty.com/QCC/sqc2/gauss3.gif
3.平均値(前回すでに実行済)
前回使った「DOループ」を使用する。平均値は言うまでもなく、
「合計(総和)/データ数」
で計算される。
4.分散・標準偏差
標準偏差は分散の平方根なので、分散の計算がわかっていればよい。分散は「平均からどれだけ離れているか」というデータの散らばり具合の指標である。まず残差平方和を求め、さらに分散を計算する。残差平方和とはその名の通り、(データ−平均値)の2乗の総和である。分散を求めた後はその平方根を求めるだけで、標準偏差が求まる。
---(1)
---(2)
---(3)
まずは(1)式をDOループで制御してやればよい。(2)式の「データの個数」であるが、データの総数である「n」を代入する場合と「n-1」を代入する場合では意味が異なる。前者では得られた分散を「標本分散」、後者では得られた分散を「不偏分散または母分散」という。不偏分散により(3)式から得られるものは、標準誤差と呼ばれる。詳しくは統計の教科書に譲る。以上のことを頭に入れておき、以下の2点を行う。
@
塩分値から平均値・標準偏差(シグマ、もしくはσ)を求める。
A 異常値を「平均±2σから外れているもの」と定義して、異常値を画面に出してみよう。
(ヒント)
1)残差平方和の計算
平均値はすでに計算され、変数heikinに代入されているとする。
real(8) goukei,heikin,hensa
real(8) bunsan
do k=1, 345
bunsan=bunsan+(csal(k) – heikin)**2
enddo