《16年立法會選舉評論之一》

立法會選舉下個月4號舉行,距今還有不到三個星期。香港大學民意研究計劃,一如過往,進行滾動民意調查。港大報稱以隨機方式產生電話號碼,每天訪問至少200名操粵語的登記選民,累積最近五天的調查結果,每天公佈各候選人的最新支持度。除非香港大學刻意做假,否則以統計學理論來說,民調預測各候選人的得票百分比,不會和投票結果的百分比有太大分別,亦即統計學所說的「顯著差異」(statistically significance)。

然而,這兩個星期,兩間付費電視台和一些網媒,相信為了迎合公眾「想知道邊個會當選」的心理,連日報導民調的切入點,都按照當日公佈的支持席百分比,預測每區的當選名單;從而再推算各陣型所得到的直選議席,譬如建制得17席、泛民加激進得16席等等。但是這個推算方法絕對大錯特錯,而且誤導選民、

筆者要強調:民意調查的數據有統計學理論基礎支持,但是要懂得如何解讀。譬如說九西黃毓民支持度排第九,會出局;或新東鄭家富支持度排頭九可以當選,而陳雲相差一個百分點而落選等等,那是完全不懂得或無視統計學的解讀方法。

民意調查(Opinion Poll)的統計學理論是什麼?要調查結果準確,和總人口無關。調查並不需要訪問很多人,無論是香港有幾百萬人,還是美國人口有三億,只需要訪問1000人,結果的誤差,最多只有百分之三左右。然而,最重要的一點,是受訪對象必須是隨機抽樣而得來,其他譬如戴耀廷的雷動計劃,或者某某討論區的調查,受訪對象都是主動去接受調查,沒有了隨機性,所以不能反映社會的整體意向。選舉調查最好當然是在選民登記册抽出受訪者,再把受訪者找出來問其投票立場;但這個方法實際執行上有困難,所以港大退而求其次,以電話號碼入手,假設沒有電話或不接聽電話的選民,不會嚴重偏離整體選民的意向。這種以電話訪問選民投票意向的隨機方法,幾十年來行之有效,近年調查機構亦與時並進,地線電話和手提電話都會納入隨機抽樣的訪問範圍。

民意調查要準確,第二個重要因素,就是調查問題要簡單直接,不會引導受訪者作出(或不作)某個選擇。港大立法會選舉民調基本上亦符合箇中要求,選民在眾多候選人中,選出其中一人。不過,今次港大的調查問題只讀出候選名單排名第一的候選人,民主黨在港島、新東和新西都推出新人排名單頭位,把現任議員單仲偕、劉慧卿和何俊仁放在候選名單的第二位,所以民主黨投訴港大的調查方法對該黨不公平。港大回應指做法不影響民調的可信性。民主黨的指控是否成立?要看看下月4號的選舉結果,民主黨在這三區的得票率,是否比民調預測的得票有「顯著差異」吧。有,民主黨的投訴便可以成立。

說了兩次「顯著差異」,究竟什麼是統計學上的「顯著差異」?簡單來說,就是實際結果超出了民調預測百分比的誤差範圍。傳媒只會公佈候選名單支持度百分比,不會把這個百分比的誤差範圍也一併交代清楚。計算誤差範圍是以前A-Level應用數學的課程,但方程式不難明白。首先我們要計算standard error of mean (SEM):

SEM = sqrt( p * (1 – p) / n )

p 是候選名單在調查中得到的支持度,n 是每區表明投票意向受訪者的數目。統計學有「68–95–99.7」法則,用來計算誤差範圍的機會率。誤差在一個 SEM 以內,機會大約是68%;誤差在兩個 SEM 以內,機會大約是95%(可能性很高了);誤差在三個 SEM 以內,機會大約是99.7%(差不多肯定發生了)。一般討論誤差範圍,都會選擇95%機會率,亦即把誤差定在兩個 SEM 以內。

如何在新聞資料中找到候選名單的 p 和 n ?兩間電視台公佈民調的方法有所不同。有線新聞的公佈方法,會把每區的受訪數目、誤差百分點、游離選民和不投票選民的百分比清楚寫出來;候選名單的支持度百分比,是以每區受訪者數目作為基數。Now新聞台公佈的候選名單的支持度百分比,把未決定和表明不會投票的受訪者剔除,以每區表明投票意向的受訪者數目作為基數,放大每張候選名單支持度的百分比,至總百分比為一百。所以,要找每張候選名單的 p 和 n ,可以在Now新聞直接查找候選名單的 p ,再到有線新聞找出每區受訪人數,減去未決定投誰和不會投票的選民,便可以得出 n 了。

不妨以 11 至 15 號九龍西滾動民調作為例子。樣本人數為 131 人,剔除大約 35% 游離和不會投票的選民,n = 85。狄志遠、游蕙禎和黃碧雲的支持度分別大約有 6-7%,而劉小麗、譚國僑和黃毓民的支持度分別大約為 5%。當 p = 0.05, n = 85, SEM = sqrt( 0.05 * 0.95 / 85 ) = 0.024 = 2.4%;當 p = 0.07, SEM = 2.8%。所以,5% 支持度的候選名單,真正的支持度有95%機會在兩個SEM之內,亦即(5 – 2*2.4%, 5 + 2*2.4%)=(0.2%,9.8%)的範圍;而 7%支持度的名單,真正的支持度有 95% 的機會在(1.4%,12.6%)的範圍。六張名單所得到的支持,在統計學上是沒有「顯著差異」的。

所以,根據這組數據,在統計學上根本不能得出九龍西狄志遠、游蕙禎、黃碧雲當選,劉小麗、譚國僑和黃毓民落選的結論。今屆其他各區爭持激烈的例子多不勝數,就算把受訪人數加至每日一千人,也難以準確預測每區的當選名單。下文再續。