2020選戰溫度計-候選人當選預測模型分析說明

壹、預測模型說明

2020選戰溫度計-候選人當選預測模型(下稱本模型),乃取自網路上與選舉相關之政黨、候選人之公開資料數據,應用政治學、社會學、傳播學、行銷學等選舉預測理論,建置數學模型,預測選舉結果,非採傳統民意調查方式。惟本模型仍將與總統副總統選舉罷免法第52條第1項有關事項說明如下:

一、分析單位:

網路溫度計

二、分析範圍:

2020年總統選舉主要候選人

三、分析時間:

辦理期間內應用前七天資料庫之數據預測當天之當選比率

四、辦理時間:

2019年9月23日至12月31日 (選舉前10日)

五、分析方式(抽樣方式、母體數、樣本數):

本預測模型分析方式非採傳統抽樣之民意調查,係將蒐集之資料庫予以分析,無母體數、樣本數限制。本模型之分析資料來源如下:

1. 政黨版圖資料庫:資料取自中央選舉委員會選舉資料庫,該資料庫包含自1994年以來總統、縣市長、立法委員(改制後)之選舉資料。

2. 網路口碑資料庫:透過『KEYPO大數據關鍵引擎』網路爬蟲,每日累積120萬筆以上的網路數據庫,其內容涵蓋Facebook、YouTube、新聞媒體、討論區、部落格等網站。

3. 媒體民調資料庫:資料取自媒體委託或直接調查並公開發布之支持度民調報告。

4. 群眾預測資料庫:資料取自國內之預測市場網站,包含未來事件交易所、台北政治經濟交易所。

六、誤差值:

本預測模型非採用小樣本抽樣之民意調查,不適用抽樣誤差值。[註1]

七、經費來源:

網路溫度計

貳、分析方法說明

一、分析目的:

結合國內外選舉預測方法,設計候選人當選預測模型,並預測2020年總統主要候選人當選比率A

二、分析範圍:

2020年總統選舉主要候選人。

三、分析時間:

辦理期間內應用前七天資料庫之數據預測當天之當選比率。

四、分析變數:

依各子模型描述之。

1. 政黨版圖資料庫:包含村里名稱、選舉年度、國民黨得票率、民進黨得票率、分裂與否。

2. 網路口碑資料庫:預測變數包含網路聲量B、網路正負評比C、社群活躍度D、搜尋熱度E、綜合粉絲數F

3. 媒體民調資料庫:發布媒體、委託單位、執行單位、樣本數、調查期間、發布時間、候選人支持度。

4. 群眾預測資料庫:資料來源、資料時間、最高買價、最低賣價、最新價格、交易數量。

五、資料統計方法與分析技術:

1. 加權平均數:依各預測子模型之影響力計算加權平均數,得到各候選人的當選(比)率(probability of victory)。

2. 迴歸分析:應用歷史選舉資料和選舉結果建置迴歸模型,以推估各候選人的預期得票率。

3. 語意分析:應用網路口碑資料庫,使用語意分析(Semantic Analysis) 、情緒分析(Sentiment Analysis)等技術,汲取網路上相關候選人的討論文章,將文章分為正面、負面、中立三種情緒,計算各候選人的網路聲量。

4. 時間序列分析:應用媒體民調資料庫,依據最新民調的發布,使用移動平均(moving average)的技術,計算各候選人在每個時間點的當選(比)率。

叁、名詞解釋

A.當選比率:主要候選人各項指標之互比平均值,主要候選人之加總為100%,即不考慮其他候選人及投票率的情況下之主要候選人得票率

B.網路聲量:指過去一週內,網路討論該候選人之文章數,包含主文、回文、留言皆計算在內

C.網路正負評比:指利用語意分析、情緒分析技術,將網路聲量區分為正面、負面、中立三種情緒,計算正面聲量與負面聲量之比值

D.社群活躍度:將網路聲量來源區分為新聞、討論區、社群、部落格四類,計算網友自主發文的影響力 (新聞與其他來源之比值)

E.搜尋熱度:指網路使用者透過「Google搜尋引擎」搜尋該候選人之頻率,以百分比為單位

F.綜合粉絲數:指候選人經營之社群平台(包含Facebook、YouTube、Instagram、Line@)之粉絲總數

G.媒體民調:蒐集具公信力之媒體民調,依媒體之政黨傾向綜合計算,為最普遍常見的預測方法

H.群眾預測:即預測市場,以模擬期貨交易方式預測選舉事件,即時整合眾人意見的預測方法

FacebookShare FacebookSend LineShare WhatAppshare goTop