(一財)食品分析開発センター SUNATEC
HOME > 分析者が知っていて欲しい統計
分析者が知っていて欲しい統計
国立医薬品食品衛生研究所 安全情報部
客員研究員(元食品部長) 松田 りえ子

「分析者が知っていて欲しい統計」は5回のシリーズで、次のような内容を扱う。
  1 母集団と標本
  2 平均値の推定と検定
  3 分散と割合の推定と検定
  4 分析法の性能評価と管理
  5 サンプリング
 統計は色々な分野で使われるツールである。分析においても例外ではなく、サーベイランス結果の記述、検査のためのサンプリング、分析結果の品質管理等、統計手法を使う場面は多い。そのための多くの書籍もあり、また簡単に使えるコンピューターソフトも容易に入手できる。
 しかし、統計が何をしているかを理解していないと、統計ソフトが提供する多くのツールの中から、持っているデータに対してどれを使ったらよいのか分からない、結果として得られた数値をどのように解釈すればよいのか分からない、実験をしたあとで実験計画の不備に気がつく、のようなことが起こりがちである。
 分析は色々な状況で行われ、それぞれの目的がある。たとえば検査であれば、そのロットの平均値が成分規格に適合しているかどうかを知ることが目的である。検査はロットから抜き取った少数の試料の分析結果から、ロットの平均を推測しており、ここで統計が使用されている。また、ロットから抜き取った試料がロットの性質を正しく反映していなければ、正しい検査になりえない。この抜き取り(サンプリング)の理論は統計に基づいている。検査に使用する分析法が正しくなければ、ロットの平均が正しく推測されないので、分析法が必要とされる性能を持っていることも必要である。この分析法の性能を確認するときにも統計が使用される。
 分析には検査の他にも種々の目的があるが、多くの場合に、得られた少数のデータから統計を用いて母集団の性質を推定している。このシリーズでは、このような時に用いられる、基本的な統計について解説する。

第1回 母集団と標本

統計は何をしているか

第1回では、母集団の性質と標本の関係を解説する。一般的に、統計はある集団を観察しその性質を数量的に記述する手法である。もっとも簡単なのは、その集団の代表値(平均値)や割合を求めること(集計)である。これはニュース等で最もよく目にするもので、学力テストの平均値や、〇〇に賛成か反対かのアンケート結果等はよく報道されている。次に、集計の結果から集団に関する推測や判断を行うにも統計が用いられる。この作業は推定、推計、推論、予測と呼ばれる。上の例に挙げたアンケートの結果は、対象者全員ではなく一部の人に実施した結果から、全体の割合を推定している。逆に、推測(仮説)が先にあり、それが合理的かどうかを検証するにも統計が用いられる。これは仮説検定である。
 一方、集団の確率的性質を仮定して、そこから起こる事象の分布を予測する作業はシミュレーションと言われるが、これは統計には含まれない。

母集団

統計が推定や仮説検定をするときの基礎の基礎は、母集団の特定である。最初にどの集団に対して統計を適用するかを明らかにしておかないと、標本の取り出し(サンプリング)が不適切になり、統計の理論を適用することができなくなる。
 母集団を明らかにするとは、集団の構成要素の性質に基づいて、あるアイテムがその集団に属するかどうかを明確に規定することである。20xx年1月1日に〇〇県に在住する(住民票がある)人の集団と規定すれば、ある人がその集団に所属するかどうかは明らかになるが、単に〇〇県民というと日が変われば集団に属しているかどうかが変わってしまうので、明らかな母集団とは言えなくなる。
 統計的に観察する対象の母集団の性質の一つとして、大きさがある。集団の大きさは集団の構成要素の数である。先の例の20xx年1月1日に〇〇県に在住する(住民票がある)人の集団ならば、人の数(人口)が集団の大きさとなる。これは有限母集団であるが、数が明確に数えられない場合(例えば整数の集団)は無限母集団となる。母集団を観察する対象となる特性には、質的なもの(性別、〇〇に賛成か反対か等)と量的なもの(年齢、身長等)がある。質的なものは属性(attribute)、量的なものは計量(variable)と呼ばれる。特性がattributeかvariableかで、適用される統計が異なる。

Q 以下の調査で想定している母集団と特性は何か?

 1. 世論調査 (〇〇についてどう考えますか?)
 2. 国民健康栄養調査
 3. 魚中のダイオキシン類の濃度調査(店頭買い上げ)
 4. 燻製食品中のPAH濃度調査(燻製を製造して調査)
 5. 清涼飲料水中の重金属の分析法の性能評価

調査を始める前に、最終的にどのような特性を集計するかを考えて、必要な調査(分析)項目をあらかじめ決めておく必要がある。店頭買い上げ魚のダイオキシン濃度調査において、最終的に魚の大きさが必要となっても、分析後に試料はないので、大きさの調査は不可能である。魚の大きさとダイオキシン類濃度の関係が知りたければ、もう一度調査するしかない。
 集計で得られる結果は、特性が属性(attribute)である場合は構成比率(それぞれの属性が全体の何%か)である。計量(variable)の場合は分布の中心位置(平均値、中央値)、ばらつきの程度(レンジ、標準偏差、四分位数)、度数分布等が集計結果となる。属性が2つ以上調査されていれば、それらの関係(連関表、相関)が集計によって得られる。

標本

母集団が大きい場合、全ての構成要素を調査することは不可能(あるいは困難)なため、母集団を代表する一部分である標本の観察を行うのが一般的である。なぜ標本から母集団の特性を推論できるのか? それは、無作為に選んだ標本は、母集団と確率で結ばれているからである。逆に言えば、標本が母集団から無作為に選ばれていなければ、標本の特性から母集団の特性を予想することはできない。このような無作為標本を選ぶ方法がサンプリングである。サンプリングについては第4回で解説する。

統計的推論

標本が無作為に選ばれているという前提で、統計的推論の手順を示す。これは特性がattributeの場合である。
1.特定の事象に関して確率を仮定する。(仮説を立てる)
2.標本を選んで観察する。
3.1の確率と2の観察結果から、母集団に関する結論を導く。

このためには、標本の性質と母集団の性質を結びつける、確率の定理が必要である。

統計的推論の例を示す。

1.仮説:ある測定の結果が10以上である確率は0.9である。

2.測定を5回くり返したとき、5個の結果はどれも10を超えなかった。「10を超えない」は、10以上の排反事象なので、「測定の結果が10以上である確率は0.9である。」という仮説が正しければ、「10を超えない」確率は(1-0.9=0.1)である。5回の測定は独立とし、結果A-Eが得られたとする。A-Eが「10を超えない」確率は0.1であり、乗法定理より5回とも10を超えない確率は
Pr[ABCDE]=Pr[A]Pr[B]Pr[C]Pr[D]Pr[E]= (1-0.9) 5=0.00001
となる。

3.「測定を5回くり返したとき、結果は10を超えない」という結果が得られる確率は非常に低いので、「測定の結果が10以上である確率は0.9である。」という仮説は誤りと結論する。

標本の分布

構成要素の数が50の有限母集団から、5つの構成要素を選んで標本とする。このときに、構成要素が区別できるなら、標本の数は

である。小さな母集団であっても、可能性のある標本数はかなり多い。無限母集団から標本を抽出すれば、その数も無限である。このように標本は多数得られ、それぞれの特性値(割合、平均値など)は一定ではなく分布を示す。何かの調査をして標本を得たとしても、その標本は非常に多数の中の1つに過ぎない。その標本の特性値が母集団の特性値と一致する保証もない。しかし、母集団から抽出した標本の分布が分かっていれば、1個の標本から得られた値から、母集団のおよその値を推定すると共に、その推定値の信頼性(どの程度母集団の値と離れている可能性があるか)も推定できる。

特性がattributeである分布からの標本の分布は、二項分布で記述される。
 事象Eが出現する(硬貨を投げて表が出る)確率pが定まった母集団から、大きさnの標本を抽出するとき、n回中x回に事象Eが起こる(表が出る)確率は、二項分布の式で表され、その平均値はnp、分散はnp(1-p)である。
 上記の仮説検定の例は、n=5、p=0.9の二項分布で、x=0となる場合である。下図にこの二項分布を示す。平均は4.5、分散は0.45、標準偏差は0.67である。生起数xが0-2の範囲の出現確率が極めて低いことが分かる。

n=5、pが0.9の二項分布

特性がvariableである分布からの標本の分布は母集団の分布によって変わるが、正規分布する母集団から採られた標本の性質はよくわかっている。

正規分布する母集団から無作為に抽出した標本の平均(標本平均)
    の期待値は母集団の平均(母平均)μ に等しい
    分散は母集団の分散(母分散)σ2の1/nに等しい
正規分布する母集団から無作為に抽出した標本の分散(標本分散)s2 
    の期待値は母分散σ2に等しい
ただし、標本標準偏差(標本分散の平方根)sは、母標準偏差σには等しくない。

下図に平均が50で標準偏差が10(分散が100)の母集団からn=5の標本を100個抽出したときの、標本平均と標本標準偏差の分布を示す。〇は母平均である50の周囲に分布している。上に示した性質から、標本平均値の95%は41-59の範囲に分布すると予想され、この例で41-59に入った数は47個であった。n=100の標本の平均値の95%は48-52の範囲に分布する。n=100の標本の平均値の範囲はn=5の場合に比較してとても狭く、1つの標本の平均値であっても信頼性が高いといえる。

平均が50で標準偏差が10(分散が100)の母集団から抜き取ったn=5の標本平均の分布

一方、n=5の標本の標本標準偏差は下図のような分布を示す。母集団の標準偏差は10であるが、最も小さい標本標準偏差は1.4、最も大きいものは17.3であった。このように標本標準偏差は標本平均に比較して、特に小標本の場合には分布が広くなる。

平均が50で標準偏差が10(分散が100)の母集団から抜き取ったn=5の標本標準偏差の分布

また、大数の法則

平均 μ 、分散σ2の任意の母集団(正規分布でなくてもよい)から、大きさnの標本を無作為に抽出して得られる確率変数の平均は、nを十分大きくとるとμに近づく。

中心極限定理

平均 μ 、分散σ2の任意の母集団から、大きさnの標本を無作為に抽出して得られる標本平均の分布は、nが大きくなるにつれて、平均 μ 、分散σ2/ nの正規分布に近づく。
母集団が正規分布している場合は、nによらず、標本平均の期待値は母平均μに等しく、標本分散の期待値はσ2/ nに等しい。

により、母集団の分布によらず、無作為に抽出した標本の平均及び分散と、母平均及び母分散が関係づけられている。ここで、無作為に抽出した標本であることと、標本の大きさnが重要である。無作為ではない標本の特性と母集団の特性を結びつけるものは何もないので、本来の目的である母集団の特性については何もわからない。
 上記の例のように、標本平均の期待値は母平均に等しいとしても、個々の標本平均の標準偏差はnが大きくなるとともに小さくなり、つまり個々の標本平均が母平均に近づく。つまり、n=5のような小標本(nが小さい標本)の平均は母平均から離れている確率が大きくなる。これは感覚的にも分かりやすく、たとえば日本人全体から無作為に5人を選び、その年齢や身長の平均を求めて、これが日本人の平均年齢とか平均身長ですと主張しても、信用されないだろう。
 これは割合でも同じで、5人中何かに賛成の人が4人いたとしても、国民の80%が賛成であるという結論にはならない。人口全体(母集団)の賛成の率が50%であっても、5人中4人が賛成になる確率は15%程度ある。

今回は母集団の性質が明らかな時の、標本平均、標本標準偏差の分布を説明した。しかし、実際には得られるのは標本であり、それから母集団を推定することが多い。第2回は標本が得られたときに、母集団の性質を推定する方法を解説する。

世論調査  (戻る
母集団:日本国民 あるいは 日本の成人
特性:〇〇について、そう思うか、思わないか、どちらともいえないか?
   - attribute

国民健康栄養調査  (戻る
母集団:日本国民
特性:調査日に食べた食品(項目別)の量 - variable
   生活習慣 - attribute

魚中のダイオキシン類の濃度調査(店頭買い上げ)  (戻る
母集団:国内で流通している魚
特性:ダイオキシン類の濃度 - variable

燻製食品中のPAH濃度調査(燻製を製造して調査)  (戻る
母集団:その燻製法で製造される燻製
特性:PAHの濃度 - variable

清涼飲料水中の重金属の分析法の性能評価  (戻る
母集団:その分析法で得られる分析結果
特性:重金属の濃度 - variable

確率の定理
事象 A が起こる確率  Pr[A]=p 0≤p≤1

事象 A の余事象 が起こる確率 Pr[]=1- Pr[A]

事象 A と B の少なくともどちらかが起こる確率 Pr[A+B]
事象 A と B が同時に起こる確率 Pr[AB]
 Pr[AB]=0 つまり事象A と Bは同時に起こらないときに、2つの事象は排反である。
Pr[AB] 事象B が起こるときに事象 Aの起こる確率(Bを条件とするAの条件付確率)

Pr[A+B]= Pr[A]+Pr[B]-Pr[AB]

加法定理

Pr[AB]=Pr[A]Pr[BA]=Pr[B]Pr[AB]

乗法定理

事象 A が起こっても起こらなくても事象 B の起こる確率に代わりが無いとき、事象Aは事象Bに対して独立である。 Pr[BA]=Pr[B]
独立な事象の乗法定理 Pr[AB]=Pr[A]Pr[BA]=Pr[A]Pr[B]

戻る

正規分布
 正規分布は下式で示される分布である。

正規分布の式 

正規分布は平均値µと分散σ2だけで記述され、その分布は

平均μを中心にして左右対称
平均μの近傍で確率が高く、両端で低い
μ–σとμ+σに変曲点がある
平均0、標準偏差1の標準正規分布形状は下図のようになり、確率密度もわかっている。

戻る

二項分布
 二項分布は、大きさnと特性の出現確率pで記述される。

出現確率pの事象が、n回中にx回現れる確率は

で表される。二項分布の形は大きさnと特性の出現確率pで変化する。
下の図はn=5で確率pを変えたときの二項分布を示す。

n=5、pが0.1、0.25、0.5の二項分布

xは0からnの値を取り得るので、その確率をすべて加えると

である。

二項分布の平均µと分散σ2は以下の式であらわされる。

μ=np

σ2=np(1-p)

戻る

略歴

松田 りえ子(まつだ りえこ)

1977年 京都大学大学院薬学研究科修士課程終了
1977年 国立衛生試験所薬品部入所
1990年 国立医薬品食品衛生研究所 食品部 主任研究官
2000年 同 食品部 第二室長
2003年 同 食品部 第四室長
2007年 同 食品部 第三室長
2008年 同 食品部長
2013年 同 退職 (再任用)
2017年 同 安全情報部客員研究員、公益社団法人食品衛生協会技術参与

他の記事を見る
ホームページを見る

サナテックメールマガジンへのご意見・ご感想を〈e-magazine@mac.or.jp〉までお寄せください。

Copyright (C) Food Analysis Technology Center SUNATEC. All Rights Reserved.