세명대 경영학과

최근 여론 조사에 대한 관심도가 높아지고 있다. 주요 여론조사기관과 언론 매체들이 출마 예상후보의 지지율을 연일 발표하고 있다. 여론 조사결과는 국민의 생각 물줄기를 가늠하는 잣대라고 할 수 있어 이를 보는 국민들도 다양한 생각을 하면서 판단의 기준점으로 삼는다. 따라서 정확한 여론조사와 올바른 해석이 중요하다. 정확한 여론조사에서 오차 줄이기와 깊은 관련이 있다.

여론조사에서 오차는 표본오차와 비표본 오차에서 발생한다. 표본오차는 모집단의 일부를 선택해  모수를 추정하기 때문에 생기는 오차이다. 비표본오차는 질문자와 응답자 사이의 이해 부족, 부정확한 설문지 작성, 자료의 수집, 처리, 수행과정에서의 오류, 정보를 제공하는 응답자의 응답거부, 그리고 대상모집단을 대표하지 못하는 표본의 추출 등 다양한 원인에서 발생한다. 대표적인 예로 1936년 미국 대통령선거에 대한 리터러리 다이제스트(Literary Digest)사의 여론조사다. 이 기관은 여론조사를 위해서 전화번호부와 자동차 등록대장에서 추출한 유권자에게 설문지를 발송했다. 발송 설문지 가운데 5분의 1에 해당하는 약 200만명 이상의 유권자가 응답을 했다.

이 회사는 랜든 후보가 루스벨트 후보를 누르고 승리할 것으로 예측했다. 그러나 결과는 루스벨트의 압도적인 승리였다. 1936년은 미국 대공항 때였으므로 많은 서민층은 전화와 자동차를 가지고 있지 못했다. 즉 표본조사에서 대부분의 서민이 제외되었다. 이와 같은 결과는 이번 미국대선에서도 나타났다. 언론기관에서는 힐러리 클린턴이 무난하게 승리할 것으로 예상했으나 결과는 도널드 트럼프의 승리였다. 여론조사에서 서민들의 민심을 제대로 읽어내지 못한 것이다.

최근 이런 여론조사의 대안으로 떠오르는 것이 빅데이터를 이용한 트렌드 파악이다. 포털사이트에서 사용할 수 있는 트랜드 분석은 네이버 트렌드와 구글 트렌드에서 쉽게 확인할 수 있다.

구글 트랜드 경우는 구글 이용자들이 특정 키워드로 검색한 횟수를 지수화해 해당 주제에 대한 대중적 관심도를 보여주는 빅데이터 기반 지표이다. 대상 기간 중 검색횟수가 가장 많았던 때를 100으로 정하고 시기별로 상대적 수치를 나타낸다. 인물이나 사건에 대한 대중적 관심 수준을 보여준다. 포털 사이트 중 점유율이 높은 트렌드 분석은 수백만 명의 인터넷 검색 결과를 바탕으로 한 것이어서 500~1천명의 표본을 대상으로 하는 여론조사보다 민심을 더 정확하게 반영한다고 할 수 있다.

여론조사의 생명은 예측치와 실제치의 차이 즉 오차를 줄이는데 있다. 최근 빅데이터를 이용한 트랜드 분석이 여론조사의 오차를 줄이는 대안으로 떠오르고 있다. 실제 여론조사 결과와 앞에서 언급한 네이버 트렌드 지수와 구글 트렌드 지수를 확인해 보자. 여론조사 결과와 트렌드 지수가 강한 상관성이 있음을 확인할 수 있다. 여론조사 결과와 빅데이터 트렌드 지수를 함께 판단해야 하는 이유가 여기에 있다.

SNS 기사보내기
기사제보
저작권자 © 충청매일 무단전재 및 재배포 금지