めざせ! データ分析の達人 vol.3 / 池内 正晴

1.アンケートの誤差

 前回のメルマガでアンケート調査について少し述べたが、今回はアンケート調
査における誤差について考えてみたい。
 アンケートの集計結果としては、対象となる母集団の全員から回答を得られれ
ば誤差はゼロになるのであるが、全員から回答を得ることは、大抵の場合不可能
であるため、一部の対象者に対してアンケートを行うことにより、どうしても誤
差が生じてしまうのである。したがって、その誤差がどれくらいのものになるの
かを、意識したうえで結果を見ていく必要がある。
 なお、今回は少し複雑な数式をもとにして話を進めていくが、その計算結果の
事例をいくつか並べて説明をしていくので、数式の内容ではなく、このようなア
ンケートであれば誤差はこれぐらいになるといったイメージで見ていただければ
よいと思う。


2.標本誤差の計算

 母集団の一部に対してアンケートを行ったときの誤差については、計算によっ
て求めることができるので、内閣支持率の調査を例として見てみたいと思う。
 母集団(全有権者数)をN、調査対象数をn、母比率(アンケート回答結果によ
る内閣支持すると回答した人の割合)をPとしたときの、信頼度95%の信頼区間幅
CIは次の式であらわされる。(メルマガでの表記の都合上、Excel風の数式で記載
しており、sqrtは平方根を表す)なお、アンケート対象者の抽出は無作為に選ば
れていることが前提である。

 CI=1.96*sqrt((N-n)/(N-1)*(P*(1-P))/n)

 仮に有権者数N=1億 調査対象数n=1,000 アンケートによる内閣支持率P=50.0%
として式に当てはめるとCI=3.1%となり、有権者全体の内閣支持率は95%の確率で
50.0%±3.1%となる。
 内閣支持率P=10.0%であった場合を計算すると10.0%±1.86%となり、誤差の幅が
小さくなる。数式をよく見てもらえれば、誤差の幅はP=50.0%のときに最大になる
ことがわかる。すなわち、アンケートの回答結果によっても誤差の幅が変化する
のであるが、ここではそれが最大になる50.0%であるときの誤差を基準にして話を
進めていくこととする。
 少し余談になるが、アンケートでは、一般的に信頼度は95%もあれば十分な結果
を得られると思うが、特別な用途で99%の信頼度が必要であれば、前述の式にある
係数の1.96を2.58に変えることによって計算ができる。


3.調査対象人数と誤差

 母集団の1億人に対して調査対象がその0.001%にあたる1,000人だけでは、あま
り正確な集計ができないのではと考える人もいたかもしれない。だが、95%の確率
で50.0%±3.1%となるのであれば、調査結果が50%か51%かの違いを知ることはでき
ないが、40%か50%の違いは知ることができる。
 だが、この1,000人を対象とした調査を毎月行っていたとして、前月と比較して
アンケートの回答を集計した支持率が1.0%増加していれば、有権者全体の支持率
が上昇したと言えるのであろうか。誤差が±3.1%あるということであれば、アン
ケートの回答が+1.0%でも有権者全体の支持率は-1.0%という可能性もあるのであ
る。したがって、このケースでは1.0%程度の増減について、支持率が増えた減っ
たなどの議論は、あまり意味がないのである。
 アンケートに求められる精度がさらに必要な場合は、調査対象人数を増やす必
要がある。調査対象数n=4,000にすると誤差は±1.55%となることからわかるよう
に、誤差を半分にするには、調査対象を4倍にすることが必要なのである。ちなみ
に調査対象数n=10,000としたときの誤差は±0.98%となる。
 しかし、アンケートの調査対象を増やすと、それに対応してコストが増加する
ことは明白な事実である。そのため、調査の目的や得られる成果などを勘案して
調査対象数を検討していく必要がある。


4.調査対象の偏り

 マスコミ各社が発表する内閣支持率について、発表する会社によって違いがあ
ることは、ご存じだと思う。ある時期にいくつかのマスコミの発表を見たところ
47%~64%と17%の開きがあった。
 もちろん、有権者全員に対してアンケートを取った訳ではなく、何名かを抽出
して調査を行っているので誤差が生じるのは承知の事実である。前述のとおり
1,000名に対して調査を行った場合の誤差は±3.1%であるので、1,000名以上に対
して調査を行っているのであれば、各社の発表する支持率に10%以上の開きが出る
とは考えにくい。
 仮に調査対象数n=100名にすると、誤差が±9.8%となるので、各社の発表に10%
以上の開きが出ることは説明できそうであるが、そうなると前月の調査に対して
今月の調査結果が5%増えたとしても、これが実際の支持率上昇によるものか誤差
によるものかの判断がつかない。
 各社による調査結果のばらつきの原因として考えられるもののひとつが、調査
対象抽出における偏りである。誤差の計算において前提となっているのが、調査
対象が無作為に抽出されているということであった。しかし実際のところ、アン
ケートなどにおいて完全に無作為抽出を行うことは不可能に近い。
 世論調査などで使われる方法の代表的なものにRDD(Random Digit Dialing)方式
がある。これは乱数で決めた電話番号に電話をかけて、応答した相手に質問を行
うという方法がある。電話番号を乱数を決めるので、調査対象が無作為に抽出さ
れているように感じるかもしれないが、応答した相手に質問を行うということで
あるので、調査を行う時間帯に在宅していてかつ、家族の中で電話に出る率の高
い人に偏った調査になる。また、固定電話を持たない人は、そもそも対象外なの
である。もちろんマスコミ各社もこのあたりは十分に認識していて、調査の時間
帯や質問方法などをいろいろと工夫している。それでも、完全な無作為抽出と言
える状況を作り出すことは不可能なのである。


5.まとめ

 これまでの内容により、結果が完全に正しいアンケートを実施することは、非
常に難しいことが理解いただけたと思う。しかし、アンケートなどによって調査
する一般的な多くの内容について、1%程度の違いが重要になるであろうか。そも
そも、1%の精度での調査が、ほぼ不可能なケースも多い。したがって、必要のな
いところに多くのコストをかける必要はないので、必要な精度を考えながら、そ
れに対する調査対象件数などを決めれば良いのである。
 もちろん、その結果を分析する際には、1%の違いについて深く考えても意味が
ないことを十分に理解する必要がある。そして、その報告を受ける人々に対して
も、そのことを理解してもらったうえで状況を認識し、その結果よりさまざまな
判断を下していく必要があるのである。

------------------------------------------------------------------------
■執筆者プロフィール

池内 正晴 (Masaharu Ikeuchi)

学校法人聖パウロ学園
    光泉中学・高等学校
ITコーディネータ

公式Facebookページはこちらから

<いいね>をクリック!