【Yahoo論壇/俞振華】選舉民調數字可信嗎?
奔騰思潮.2022年7月20日 07:00
示意圖:Getty images
Martin Bertrand / EyeEm via Getty Images

《奔騰思潮》授權全文

作者:俞振華 / 國立政治大學選舉研究中心研究員暨政治學系教授

選舉年一到,幾乎每週都會有不同類型的選舉民調數據出爐,讓人眼花撩亂。的確,針對候選人支持度的這些「賽馬式」民調數字,往往都能成為媒體報導的焦點。不過,這些數字究竟有多少可信度?有多少可被操作的空間?民調真的反應真實的選舉競爭態勢嗎?選民在看到這些數字前,應該要更瞭解這些數字究竟是如何產生出來的,才不致於受到民調數字的誤導,對選情產生誤判。

選舉民調當中,我們最常看到的調查方式,就屬電話民調了。近年來由於「唯手機族」(即只使用手機而不使用市話)的人口快速增加,很多全國性的調查都加入了手機樣本。但這種結合市話與手機樣本的調查方式,在今年地方選舉的調查中,卻不常見。主要還是因為手機調查沒有區域號碼,無法得知受訪者究竟是在哪個地區,必須要多增加一個題目來過濾受訪者的戶籍地。而這樣的過濾方式勢必大幅增加訪問成本,因此多數針對地方選舉的電話調查,仍是以傳統的市話調查為主,無法涵蓋唯手機族。

只用市話調查最顯著的問題,就是年輕受訪者的比例過低。以臺北市為例,20-29歲的民眾約佔全體市民的12-13%。但一般市話調查在沒有加權的情況下,所有受訪樣本當中,20-29歲受訪者的比例如果有6-7%就不錯了。於是,當我們透過加權,讓樣本的分佈比例和母體相當時,等於是將每個年輕受訪者意見當成兩個來用(即權重約為2)。雖然事後加權已是調查實務界普遍的作法,但這項作法是基於一個很強的假定:即受訪者的態度與未接受訪問的態度並沒有顯著的不同。如果接受市話調查的年輕族群與其他年輕族群(譬如唯手機族)的態度有很大不同時,加權兩倍等於讓樣本更加偏差。此外,由於市話調查中的年輕樣本數太少,我們在解讀年輕選民的態度時需要更注意,畢竟若存在少數幾個極端的樣本,則加總起來後,就有可能讓整群年輕選民的態度產生相當的偏誤,加權後甚至影響全體民眾的估計。總之,利用市話調查來解讀各年齡層對候選人的支持度時,對於年輕族群支持度的解讀要特別小心。

除了電話調查外,網路的普及性也使得近年網路調查蔚為風潮。此外,網路調查成本相對低廉,操作方便,在成本考量下,絕對比電話調查更容易產生數據。不過,網路調查最大的問題,就是缺乏科學性的隨機抽樣程序。就算某些網路調查號稱他們的樣本是從很大的資料庫中抽取,有「抽樣」的過程,但倘若資料庫不足以涵蓋絕大多數的選民,或加入資料庫的民眾都是自願參與者,則透過網路調查結果來推論所有選民時,仍然難以排除網路受訪者因「自我選擇參與」所造成的偏誤。換言之,除非這些自願參與網路調查的民眾能代表一般民眾,不然我們很難利用這樣的調查結果,來推論整體選民的投票意向。更有甚者,有些網路調查只是宣傳噱頭或單純為了衝網站流量,幾乎沒有參考價值。譬如一些新聞入口網站所做的調查,請網友點選支持哪位候選人,然後幾個小時後公佈結果。這種調查就只是有新聞性,我們甚至很難判斷是哪一類選民(甚至可能是「機器人」)會在網站上重覆點選某位特定候選人。總之,不論是哪種網路調查,我們都很難透過調查結果,精確地推論究竟哪位候選人真的領先。

民意調查雖然是以科學的方法探究民意,但不論採用何種調查方式,實際執行時都會存有諸多限制。民調數字更不等同於選舉預測。畢竟,支持者不見得最後一定會出來投票,因此調查時選民的投票意向與其最後的投票行為之間,肯定存在相當程度的落差。儘管如此,選前的民調數字仍然有助於我們瞭解,競選時候選人之間概括的競爭態勢。唯期許各民調機構本著誠信原則,忠實地呈現各項民調數字產出的經過,並清楚說明資料處理的步驟及方法。不然,如果民主會被「假訊息」所侵蝕,則選舉又何嘗不會被「假民調」所蒙蔽?

______________

【Yahoo論壇】係網友、專家的意見交流平台,文章僅反映作者意見,不代表Yahoo奇摩立場 >>> 投稿去

最新選舉新聞

最新選舉新聞

多元觀點

不同視角的媒體報導

記者 盯梢 節目

賴清德 釋憲

高虹安 拜會 韓國瑜

國會 職權 修法

周杰倫 巨蛋

國會 釋憲

鏡週刊Mirror Media
三立新聞網 setn.com
三立新聞網 setn.com
放言 Fount Media
中國派人進棚盯梢?劉寶傑節目氣炸自掌嘴 怒嗆再影射就提告
《自由時報》日前報導台灣某政論節目製作,遭中共官媒《新華社》駐台記者趙博介入,甚至錄影時進棚盯梢,儘管趙博已在5月20日離台仍掀起討論。對此被外界影射的《關鍵時刻》主持人劉寶傑26日氣到在節目自掌嘴巴,發毒誓說若節目任由中共指手畫腳「你半夜可以把我抓走!」並痛批民進黨立委沈伯洋,既然2個月前就掌握,怎還讓對方跑掉,要放話的人給個交代、把人揪出來,不要操弄輿論搞認知作戰。
  • 資料來源:網路溫度計自2017年至今約累積28億則以上文章的網路社群大數據資料庫,其內容涵蓋Facebook、YouTube、Instagram、Dcard、以及包含Yahoo奇摩新聞、聯合新聞網、中時新聞網、ETtoday新聞雲、LINE TODAY、蘋果日報、自由時報、三立新聞網等約350家媒體網站上與選舉相關之政黨、候選人公開資料。
  • 分析方式:本模型分析方式非採傳統抽樣之民意調查,係將蒐集之資料庫予以分析,無母體數、樣本數限制。本模型係運用大數據關鍵引擎,透過深度學習與AI人工智慧技術,使用斷字切詞(Word Segmentation)、語意分析(Semantic Analysis) 、即時情緒分析(Real-Time Sentiment Analysis)等技術,汲取網路上相關討論文章,將文章分為正面、負面、中立三種情緒,計算網路聲量。
  • 跨世代劃分標準:本預測模型判別跨世代之依據,係以不同世代使用者之網路社群行為模式差異區辨。以不同社群網站之使用者世代臉譜數據為基礎,計算跨世代在不同社群聲量上的權重,綜合計算後得到世代好感度數據。
  • 名詞解釋
    • 網路聲量:透過「KEYPO大數據關鍵引擎」,計算社群討論及新聞報導提及的文章則數,聲量越高代表討論越熱,能見度越高。
    • 好感度分數:綜合評估網路聲量與網友語意情緒,分析各熱門候選人的網友評價。各熱門候選人的情緒、聲量皆經過標準化分數處理,得出好感度分數,再進行各縣市候選人彼此的比較,評量不僅需要聲量高,而且是好評要高,負評要低。好感度分數範圍在0-100分之間,分數越高,表示整體網友對於該位候選人的好感程度越佳。
  • 其他說明
    • 調查單位及主持人:大數據股份有限公司
    • 辦理時間:即日起至2022年11月16日止,逐日更新好感度數據。
    • 抽樣方式:本預測模型非抽樣之民調調查
    • 母體數:無母體數,請參考上述大數據資料庫的內容涵蓋範圍
    • 樣本數及誤差值:本預測模型非採用小樣本抽樣之民意調查,不適用抽樣誤差值
    • 經費來源:Yahoo奇摩、大數據股份有限公司