めざせ！　データ分析の達人　vol.3 ／池内　正晴

１．アンケートの誤差

　前回のメルマガでアンケート調査について少し述べたが、今回はアンケート調査における誤差について考えてみたい。
　アンケートの集計結果としては、対象となる母集団の全員から回答を得られれば誤差はゼロになるのであるが、全員から回答を得ることは、大抵の場合不可能であるため、一部の対象者に対してアンケートを行うことにより、どうしても誤差が生じてしまうのである。したがって、その誤差がどれくらいのものになるのかを、意識したうえで結果を見ていく必要がある。
　なお、今回は少し複雑な数式をもとにして話を進めていくが、その計算結果の事例をいくつか並べて説明をしていくので、数式の内容ではなく、このようなアンケートであれば誤差はこれぐらいになるといったイメージで見ていただければよいと思う。

２．標本誤差の計算

　母集団の一部に対してアンケートを行ったときの誤差については、計算によって求めることができるので、内閣支持率の調査を例として見てみたいと思う。
　母集団（全有権者数）をN、調査対象数をn、母比率（アンケート回答結果による内閣支持すると回答した人の割合）をPとしたときの、信頼度95%の信頼区間幅CIは次の式であらわされる。（メルマガでの表記の都合上、Excel風の数式で記載しており、sqrtは平方根を表す）なお、アンケート対象者の抽出は無作為に選ばれていることが前提である。

　CI=1.96*sqrt((N-n)/(N-1)*(P*(1-P))/n)

　仮に有権者数N=1億　調査対象数n=1,000　アンケートによる内閣支持率P=50.0%として式に当てはめるとCI=3.1%となり、有権者全体の内閣支持率は95%の確率で50.0%±3.1%となる。
　内閣支持率P=10.0%であった場合を計算すると10.0%±1.86%となり、誤差の幅が小さくなる。数式をよく見てもらえれば、誤差の幅はP=50.0%のときに最大になることがわかる。すなわち、アンケートの回答結果によっても誤差の幅が変化するのであるが、ここではそれが最大になる50.0%であるときの誤差を基準にして話を進めていくこととする。
　少し余談になるが、アンケートでは、一般的に信頼度は95%もあれば十分な結果を得られると思うが、特別な用途で99%の信頼度が必要であれば、前述の式にある係数の1.96を2.58に変えることによって計算ができる。

３．調査対象人数と誤差

　母集団の1億人に対して調査対象がその0.001％にあたる1,000人だけでは、あまり正確な集計ができないのではと考える人もいたかもしれない。だが、95%の確率で50.0%±3.1%となるのであれば、調査結果が50%か51%かの違いを知ることはできないが、40%か50%の違いは知ることができる。
　だが、この1,000人を対象とした調査を毎月行っていたとして、前月と比較してアンケートの回答を集計した支持率が1.0%増加していれば、有権者全体の支持率が上昇したと言えるのであろうか。誤差が±3.1%あるということであれば、アンケートの回答が+1.0%でも有権者全体の支持率は-1.0%という可能性もあるのである。したがって、このケースでは1.0%程度の増減について、支持率が増えた減ったなどの議論は、あまり意味がないのである。
　アンケートに求められる精度がさらに必要な場合は、調査対象人数を増やす必要がある。調査対象数n=4,000にすると誤差は±1.55%となることからわかるように、誤差を半分にするには、調査対象を4倍にすることが必要なのである。ちなみに調査対象数n=10,000としたときの誤差は±0.98%となる。
　しかし、アンケートの調査対象を増やすと、それに対応してコストが増加することは明白な事実である。そのため、調査の目的や得られる成果などを勘案して調査対象数を検討していく必要がある。

４．調査対象の偏り

　マスコミ各社が発表する内閣支持率について、発表する会社によって違いがあることは、ご存じだと思う。ある時期にいくつかのマスコミの発表を見たところ47%～64%と17%の開きがあった。
　もちろん、有権者全員に対してアンケートを取った訳ではなく、何名かを抽出して調査を行っているので誤差が生じるのは承知の事実である。前述のとおり1,000名に対して調査を行った場合の誤差は±3.1%であるので、1,000名以上に対して調査を行っているのであれば、各社の発表する支持率に10%以上の開きが出るとは考えにくい。
　仮に調査対象数n=100名にすると、誤差が±9.8%となるので、各社の発表に10%以上の開きが出ることは説明できそうであるが、そうなると前月の調査に対して今月の調査結果が5%増えたとしても、これが実際の支持率上昇によるものか誤差によるものかの判断がつかない。
　各社による調査結果のばらつきの原因として考えられるもののひとつが、調査対象抽出における偏りである。誤差の計算において前提となっているのが、調査対象が無作為に抽出されているということであった。しかし実際のところ、アンケートなどにおいて完全に無作為抽出を行うことは不可能に近い。
　世論調査などで使われる方法の代表的なものにRDD(Random Digit Dialing)方式がある。これは乱数で決めた電話番号に電話をかけて、応答した相手に質問を行うという方法がある。電話番号を乱数を決めるので、調査対象が無作為に抽出されているように感じるかもしれないが、応答した相手に質問を行うということであるので、調査を行う時間帯に在宅していてかつ、家族の中で電話に出る率の高い人に偏った調査になる。また、固定電話を持たない人は、そもそも対象外なのである。もちろんマスコミ各社もこのあたりは十分に認識していて、調査の時間帯や質問方法などをいろいろと工夫している。それでも、完全な無作為抽出と言える状況を作り出すことは不可能なのである。

５．まとめ

　これまでの内容により、結果が完全に正しいアンケートを実施することは、非常に難しいことが理解いただけたと思う。しかし、アンケートなどによって調査する一般的な多くの内容について、1%程度の違いが重要になるであろうか。そもそも、1%の精度での調査が、ほぼ不可能なケースも多い。したがって、必要のないところに多くのコストをかける必要はないので、必要な精度を考えながら、それに対する調査対象件数などを決めれば良いのである。
　もちろん、その結果を分析する際には、1%の違いについて深く考えても意味がないことを十分に理解する必要がある。そして、その報告を受ける人々に対しても、そのことを理解してもらったうえで状況を認識し、その結果よりさまざまな判断を下していく必要があるのである。

————————————————————————
■執筆者プロフィール

池内　正晴　（Masaharu Ikeuchi）

学校法人聖パウロ学園
　　　　光泉中学・高等学校
ITコーディネータ

めざせ！ データ分析の達人 vol.3 ／ 池内 正晴

めざせ！　データ分析の達人　vol.3 ／池内　正晴