經(jīng)濟學人的美國總統(tǒng)選舉統(tǒng)計預測模型在2024年迎來了第二次應用。該模型由哥倫比亞大學的政治學家Andrew Gelman領導的團隊開發(fā),旨在計算Joe Biden和Donald Trump在各個州以及整個選舉中的勝算。模型的預測結果將在本網(wǎng)站每日更新。以下是對該預測模型工作原理的詳細方法總結。
民調(diào)與基本面分析
模型的第一步是預測選舉日全國普選的結果。我們主要使用兩大信息來源:全國民調(diào)和政治學中稱為“基本面”的結構性因素。這些因素影響選民決策。選舉年的前幾個月,公眾對選舉關注較少,競選議題尚未明確,選民往往表示猶豫不決或計劃投票給第三方。這使得上半年民調(diào)對最終結果的預測力較弱。例如,1988年6月,George H.W. Bush在民調(diào)中落后Michael Dukakis 12個百分點,但最終卻贏了8個百分點。四年后,Bush在民調(diào)中領先Bill Clinton 10個百分點,但最終輸?shù)袅?個百分點。
近年來,民調(diào)誤差有所減少,但仍可能顯著。例如,2000年,George W. Bush在普選中曾領先Al Gore 10個百分點,但在競選的最后三個月內(nèi)變成了劣勢。最終,他通過選舉人團和佛羅里達州537票的爭議勝利贏得了總統(tǒng)競選。而在2016年,Hillary Clinton在6月、8月甚至10月的民調(diào)中都領先Donald Trump約8個百分點,但最終普選僅贏了2個百分點。
相比之下,基于基本面的預測往往相對穩(wěn)定,能預示選民在關注政治并激發(fā)其潛在黨派傾向后可能的改變。最著名的例子之一是Emory University的政治學家Alan Abramowitz設計的“時機變革”模型。該模型僅用總統(tǒng)的凈支持率、GDP增長率以及是否有連任的現(xiàn)任總統(tǒng)這三個因素預測普選(不包括第三方)。歷史上,該模型對總統(tǒng)黨派贏得普選份額的預測誤差與競選晚期民調(diào)的誤差相當。
規(guī)律化與交叉驗證
對基本面模型的常見批評是其容易“過擬合”,即在擬合歷史數(shù)據(jù)時效果很好,但在預測未來時效果不佳。為了避免這種風險,我們借用了機器學習中的兩項技術:“彈性網(wǎng)規(guī)律化”和“逐一交叉驗證”。
彈性網(wǎng)規(guī)律化是一種減少模型復雜性的方法。一般來說,較簡單的方程——統(tǒng)計學家稱之為“簡約的”——比復雜的方程更能有效預測未知數(shù)據(jù)。規(guī)律化使模型不那么復雜,要么縮小用作預測變量的影響,要么完全去除弱變量。
接下來,為確定規(guī)律化程度,我們使用“逐一交叉驗證”。該技術將數(shù)據(jù)集分成多個部分,用部分數(shù)據(jù)訓練模型,用其他數(shù)據(jù)測試其性能。在這種情況下,每個部分是一個選舉年。
為了測試某一規(guī)律化程度的準確性,我們首先將1948年第一次戰(zhàn)后總統(tǒng)選舉的數(shù)據(jù)隱藏起來,然后用1952年至2016年的選舉數(shù)據(jù)訓練基本面模型。簡化所得方程后,用該模型預測1948年的結果。這個過程對剩下的18次選舉重復進行。
完成這一循環(huán)后,我們得到了每個選舉年的19個預測結果。每個預測都使用相同的規(guī)律化程度,僅用其他年份的數(shù)據(jù)生成。記錄預測準確性后,我們重復這一循環(huán)100次,每次使用不同的規(guī)律化程度。表現(xiàn)最好的規(guī)律化因子勝出。
利用這種方法,我們測試了潛在預測變量組合,并找到了最優(yōu)規(guī)律化程度。結果顯示,該模型與Abramowitz的方法相似。不同之處在于,我們對已執(zhí)政兩屆以上的黨派施加了懲罰(符合“時機變革”模型的精神),并采用了一系列經(jīng)濟指標的年變化,而不僅僅是第二季度的GDP增長。
我們的研究發(fā)現(xiàn),這些經(jīng)濟指標對選民行為的影響僅在現(xiàn)任總統(tǒng)競選連任時顯現(xiàn),這表明任期限制的總統(tǒng)不會將其經(jīng)濟遺產(chǎn)傳遞給其黨派的繼任者。此外,由于選民極化程度的增加,搖擺選民數(shù)量減少,這種經(jīng)濟因素的影響在近年來有所減弱。
從全國普選到州選舉
雖然本文重點關注全國普選,但正如Gore和Clinton的支持者苦澀地記得的那樣,贏得普選并不意味著能入主白宮。美國通過獨特的選舉人團制度選舉總統(tǒng),實際上是各州而非選民進行投票。為了預測決定勝負的各州結果,我們重復上述過程,但加入了一些變化。我們不預測絕對的投票份額,而是預測各州的“黨派傾向”,即該州相較于全國整體更傾向于民主黨還是共和黨,以及在全國平局的情況下該州的預期投票結果。例如,盡管自2004年以來共和黨未贏得過內(nèi)華達州,但在過去兩次選舉中,內(nèi)華達州實際上稍微傾向于共和黨。Biden贏得了該州2.4個百分點的優(yōu)勢,比他在全國的勝利優(yōu)勢4.5個百分點要小。
為了估算每個州在每次選舉中的中心傾向,我們使用了該州在前兩次總統(tǒng)選舉中的黨派傾向、總統(tǒng)候選人及其競選搭檔的家鄉(xiāng)州、人口密度、最近幾次選舉中全國選民的黨派支持變動比例,以及當年的全國普選結果。加入全國普選結果這一預測變量使我們能夠擺脫“統(tǒng)一擺動”的假設,即認為候選人全國支持率的變化會在每個州以相同的幅度反映,并允許我們對全國政治環(huán)境對各州偏好的影響進行更靈活的估計。我們還對這些預測的不確定性進行建模,基于該州搖擺選民比例和中心估計離50/50的距離(投票結果一邊倒的州通常更難預測)。
貝葉斯方法
熟悉類似預測模型的讀者可能會驚訝地發(fā)現(xiàn),2024年的競選民調(diào)尚未納入我們的模型。這是有意為之。我們的模型遵循托馬斯·貝葉斯(18世紀牧師)的邏輯結構,其思想影響了大量日益增長的統(tǒng)計技術家族。貝葉斯方法分兩個階段。首先,在進行研究之前,研究人員明確表示他們相信什么以及他們對這種信念的信心。這稱為“先驗”。接下來,在獲取數(shù)據(jù)后,他們更新先驗以反映新信息——如果新信息確認先驗,則增加信心;如果否定先驗,則通常會變得更不確定(除非新數(shù)據(jù)非常明確,幾乎沒有疑問)。在這個框架下,上述推導出的各州潛在投票份額分布是先驗,而在競選過程中逐漸匯入的民調(diào)數(shù)據(jù)是新信息。最終結果——在貝葉斯術語中稱為“后驗”——就是我們的預測。
就像我們的先驗有不確定性一樣,民調(diào)也存在不確定性。讀者可能熟悉民調(diào)報告時提到的“誤差范圍”,通常為幾個百分點。然而,這個數(shù)字只考慮了一種可能的誤差來源:樣本規(guī)模有限可能不反映整體人口特征的風險(稱為“抽樣誤差”)。事實上,參與調(diào)查的人群幾乎從未是理想的隨機子集,而是與實際投票的人群存在重要差異,統(tǒng)稱為“非抽樣誤差”。
首先,民調(diào)受選民投票率的影響。面向所有成年人的民調(diào)會包括不具投票資格或未登記選民的意見。限制在登記選民范圍內(nèi)的民調(diào)則將所有受訪者視為有同等投票可能性,而事實并非如此。而那些試圖篩選出不太可能投票的受訪者,或賦予更可能投票者更多權重的民調(diào),可能會出錯。盡管沒有兩個調(diào)查是完全相同的,但采用類似方法預測投票率的調(diào)查更可能產(chǎn)生相似大小和方向的誤差。用統(tǒng)計術語來說,每種不同的投票率預測方法都可能產(chǎn)生“偏差”,并污染所有使用相似方法的調(diào)查結果。
其他非抽樣誤差也是如此。通過使用電話采訪的人群可能與自動電話或互聯(lián)網(wǎng)調(diào)查所能接觸到的人群有不同的投票意圖。各個民調(diào)公司可能在方法選擇上(如權重方案)做出不同決定,這會導致對特定政黨的結果更有利或不利。
提前判斷這些特性可能引入的偏差的方向或大小是不可能的。然而,隨著競選的進行,不同方法的民調(diào)機構將在相似時間內(nèi)對同一地區(qū)進行調(diào)查。通過比較,例如5月中旬愛荷華州的所有成年人民調(diào)與可能投票者民調(diào)的結果,再比較8月初佛羅里達州的相同類型民調(diào),并對所有可能的時間和地理組合重復這一過程,我們的模型估算這些因素對調(diào)查結果的影響,并進行調(diào)整。
調(diào)整民調(diào)結果的最后一步是整合它們提供的信息。搖擺州通常會定期進行民調(diào),而不太競爭的州可能很少或根本不被調(diào)查。即使我們?nèi)鄙倌硞€州的最新民調(diào)數(shù)據(jù),我們也可以根據(jù)其他地方的民調(diào)結果做出有根據(jù)的猜測。
最簡單的信息共享形式是對全國趨勢的調(diào)整。假設明尼蘇達州最近一次民調(diào)是在六周前,當時民主黨領先六個百分點,而全國民調(diào)顯示民主黨領先四個百分點?,F(xiàn)在假設在這六周內(nèi),共和黨在全國范圍內(nèi)迅速崛起,領先三個百分點。很可能明尼蘇達州的選民也受到了這個轉(zhuǎn)變的影響。最有可能的情況是,共和黨在明尼蘇達州也獲得了全國范圍內(nèi)相同的七個百分點增幅,因此共和黨實際上在該州領先約一個百分點。
我們也可以將這種方法擴展到州級民調(diào)。有些州非常相似,無論是因為它們是鄰居,還是因為它們的人口結構相似,或者兩者兼有——例如明尼蘇達州和威斯康星州,或阿拉巴馬州和密西西比州——而有些州則大不相同(例如明尼蘇達州和阿拉巴馬州,或威斯康星州和密西西比州的配對)。兩個州越相似,一個州的公眾意見變化就越能預測另一個州的變化。因此,我們的模型允許每個州的民調(diào)影響其他州的選民偏好估計,影響程度不同。這個效應的強弱由九個因素決定:一個州在過去總統(tǒng)選舉中的投票情況;其種族構成和教育水平;所有居民的平均年齡;該州平均每個居民的居住密度;以及該州白人福音派基督徒的比例。結果是模型會將威斯康星州的民調(diào)幾乎視為明尼蘇達州的民調(diào),并根據(jù)來自鄰州的數(shù)據(jù)大幅更新對明尼蘇達州選民意見的估計。然而,這種民調(diào)對阿拉巴馬州投票結果預測的影響則很小。
綜合起來
在對民調(diào)報告結果進行所有這些調(diào)整后,我們準備使用這些數(shù)據(jù)來更新先驗。我們的方法是對Drew Linzer(政治科學家)在2013年首次發(fā)表的技術進行擴展。它使用了一種稱為馬爾可夫鏈蒙特卡羅(MCMC)的統(tǒng)計技術,探索模型中每個參數(shù)的數(shù)千種不同值,并評估它們對數(shù)據(jù)模式的解釋能力及其在先驗預期下的合理性。例如,如果所有在線民調(diào)機構高估共和黨的投票份額五個百分點,選舉會是什么樣子?如果所有全國民調(diào)高估民主黨兩個百分點呢?如果密歇根州的州級民調(diào)波動達十個百分點,模型會在預測該州選票時加入更多不確定性——以及在預測相似州(如俄亥俄州)時也是如此。
在離選舉日還有的每一天里,MCMC過程允許州級民調(diào)平均值在其10,001次模擬中以小幅度隨機波動。每次“隨機漫步”可以傾向于民主黨或共和黨,但更有可能向“先驗”預測指示的方向傾斜,而不是相反。由于這些步驟是相關聯(lián)的,一個州向某候選人偏移可能會在相似州中反映出類似的變化。隨著選舉臨近,隨機波動累積的天數(shù)減少,減少了當前民調(diào)平均值周圍的不確定性范圍,以及先驗對最終預測的影響。在選戰(zhàn)后期進行大量民調(diào)的州,模型會較少關注其先驗預測;相反,在競選早期或民調(diào)較少的州(尤其是那些無法基于相似州民調(diào)做出可靠假設的州),先驗預測的權重會更大。
最終結果是10,001條選舉可能路徑的列表。其中一些路徑包括全國性、區(qū)域性或人口統(tǒng)計學錯誤,導致一黨或另一黨受益。一些路徑顯示登記選民民調(diào)出現(xiàn)大偏差;其他則顯示不同調(diào)查人群或方法之間差異較小。越有可能的情景,越頻繁地出現(xiàn)在這些模擬中——但即使是極不可能的情景(如Biden在普選中落敗但贏得選舉人團)也會偶爾出現(xiàn)。這些模擬中某候選人獲勝的次數(shù)即為其勝選概率。
像所有模型一樣,我們的預測依賴于假設過去的選民行為和民調(diào)準確性的歷史關系將延續(xù)到未來。與物理學不同,政治中這一點并不保證。遲早,選民將做出與過去先例極不相符的決定,我們的模型將面臨新一輪的批評。但只要這些“黑天鵝”事件發(fā)生的頻率與我們預期的大致相符——既不太頻繁也不太少——我們的模型就能發(fā)揮其作用。如果我們的勝率與實際結果不一致,我們歡迎從錯誤中學習并在下次做得更好。
本文譯自 The Economist,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )