《16年立法會選舉評論之二》

港大民意調查計劃今個月初開始,每天都公佈立法會選舉的滾動民調數據。選民最關心的,應該是自己支持的候選人,當選機會如何;亦因為港共臨時立法會在1997年把原有的雙議席雙票制的立法局選舉制度,改為比例代表制,令當年有六成支持的泛民主派,不可能囊括絕大部份直選議席。然而,時至今日,比例代表制在香港立法會選舉的實際運作,更接近多議席單票制,最近兩屆尤為明顯。很多選民支持多於一張候選名單,但只能票投一張,所以不得不根㯫民調數據,對心儀的候選名單,作出棄保的決定。

各黨派的政治宣傳機器,大都盡力呼籲支持者,自己的名單才是在當選與落選邊緣的一張,令支持者棄其他政見相近的候選名單,保送自己一票。至於那些在民調遠遠落後的名單,會反其道而行。前兩天筆者便看到一張圖,說上屆港大民調「新東估錯近半席位勝負」[3],所以「民調數據都係參考下就算~勿太認真」。再看圖的出處,原來是李慧玲主持的左右大局,那就不足之奇了。因為民調數據對自己支持陣型不利,而呼籲支持者不要相信民調,這是政黨宣傳機器的任務。上文提到傳媒推算當選名單絕對誤導選民》[1]但左右大局制圖說港大民調新東席位估錯近半,更是刻意誤導支持者。他們一來明知民調有誤差而不理,二來算純粹根據支持度排名好了,但九個席位也只是錯了兩個,何來近半?

看到民調數字,應該如何比較候選人的當選機會,以免被各黨各派的宣傳機器迷惑?統計學比較候選人當選機會的方程式其實並不複雜[2],原理是統計學的 hypothesis testing,亦即先假設兩個候選人的當選機會均等,再從民調數據檢定這個假設是否成立。其中所需要的數據不多,就只要兩張候選名單支持度的百分比(以下用 p1 和 p2 來表示,p1 比 p2 大),和該區的受訪人數(以下用 n 來表示)。因為我們的假設是兩個候選人的當選機會均等,所以要驗測的是, p1 減 p2 是否等於零。第一步,我們要找( p1 – p2 )的 standard error of difference (SED),找 SED 的方程式是:

SED = sqrt( ( p1 + p2 – (p1 – p2)^2 ) / (n – 1) )

當 n 足夠大而( p1 – p2 )只是幾個百分點之差,以上的方程式可以簡化而通常不影響最後結果:

SED ~= sqrt( ( p1 + p2 ) / n )

sqrt() 代表開方,譬如 sqrt(9) = 3。

上文[1]提到,standard error 是用來量度平均值的誤差,同理,我們今次是用 SED 去量度( p1 – p2 )這個平均值的誤差。我們假設( p1 – p2 )= 0,推翻這個假設的話,就是( p1 > p2 )了。我們可以用統計學的 z-test,去檢證我們的假設。我們只需要計算( p1 – p2 )/ SED 並記下以下重要分界線:

如果( p1 – p2 )/ SED > 1.645,這代表 p1 有95%機會大過 p2,所以我們推翻( p1 – p2 )= 0 的假設,得到( p1 > p2 )的結論。

例如候選名單A的支持度為 8%,名單B的支持度為 4%,該區總受訪人數為 150人:

第1步:( p1 – p2 )= 0.04

第2步:SED ~= sqrt(( 0.08 + 0.04 )/ 150 )= 0.028

第3步:( p1 – p2 )/ SED = 1.41

第4步:因為 1.41 < 1.645,所以我們不能推翻( p1 – p2 )= 0 的假設,候選名單A和B的當選機會,在統計學來說是均等的。

如果不想用95%的統計學標準一刀切,有統計學基礎的讀者,不難用網上的z-table,查找到第3步得出的1.41,代表候選名單A有92%機會,支持度會比名單B為高。順帶一提,假設候選名單A和B在統計學上的當選機會均等,候選名單B和C的當選機會亦是均等,但是這並不代表候選名單A和C的當選機會也是均等。要預測候選名單的當選機會,如果該區有六個席位,就用排名第六那張名單的支持度,和排名第七及以下的名單比較當選機會,直至有一張名單的當選機會比第六張名單較低為止。那麼,和排名第六當選機會均等的名單,全部都有機會當選,不應該被各路人馬的宣傳機器,用棄保理由說服不要投票給他們。

上面的例子,受訪人數為 150人。如果我們增加受訪人數一倍至 300人,而 p1 和 p2 不變,結果馬上會不同了。因為第2步的 SED 會等於 0.02,令第3步的比例 = 0.04/0.02 = 2,所以第4步我們可以推翻( p1 – p2 )= 0 這個假設,得出候選名單A比候選名單B的當選機會高這個結論。

民主動力進行籌款,為的就是要增加每區的受訪人數,提高民調的準確度。不過,如果兩張名單的支持度只差一個百分點,譬如 8% 對 7%,那麼受訪人數要至少有4000人才可以在統計學上說,這一個百分點的差距有「顯著差異」(statistical significance)。民調相差兩個百分點,而兩張名單的支持度都是個位數字,受訪人數也至少要有1000人,才可以確定這兩張名單有顯著差異;三個百分點差距大約要500人,四個百分點差距大約要250人。聽說港大準備增加全港樣本至每天600人,那麼民調的準確度可以增加至三個百分點左右的差距。不過今屆多個區份選情咬緊,新界東西兩個選區尤甚,超過十張名單在三個百分點內爭持激烈,所以到時候傳媒根據如此民調的支持度排名而公佈的當選預測,都是誤導選民的。

實際的民調數字,可以上有線電視網站找到每天的最新數據。上文[1]不同之處,上文計算候選名單支持度的誤差範圍,用Now新聞台只保留表明投票意向受訪者的數據,因為上文的主旨是預測候選名單的得票率範圍;本文計算候選名單的相對當選機會,所以應該利用有線電視公佈的較原始數據,直接找出 p1,p2 和 n,便可以判斷候選人的相對當選機會了。那麼究竟哪些候選人比較有勝算?下文再續。

[1]《傳媒推算當選名單絕對誤導選民》:http://polymerhk.com/articles/2016/08/17/33820/

[2] Presidential Polling’s Margin for Error:http://www.stats.org/presidential-pollings-margin-for-error/

[3] 新東估錯近半席位勝負:https://www.facebook.com/TeaCupPhone/photos/a.495891370497540.1073741828.495572160529461/1063968310356507/