大型神經網絡這種人工智能可以生成上千條“雞為何要過馬路”式的笑話。但它們理解這些笑話為何有趣嗎?
利用《紐約客》雜志卡通標題競賽的數百條參賽作品作為測試素材,研究人員給AI模型和人類出了三道題:把笑話與卡通配對;識別優(yōu)勝標題;解釋優(yōu)勝標題為何有趣。
在所有題目中,人類表現明顯優(yōu)于機器,即使ChatGPT等AI取得了進步也是如此。那么,機器開始“理解”幽默了嗎?簡言之,它們確實取得了一些進展,但距離真正的理解還差得很遠。
艾倫人工智能研究院的研究科學家Jack Hessel博士說:“挑戰(zhàn)AI模型是否‘理解’的方法是設計測試題給它們選擇題或其他帶精確度分數的評估。如果某個模型最終在這個測試中超過人類表現,你會想,‘好吧,這是否意味著它真正理解了?’堅稱沒有任何機器可以真正‘理解’,因為理解是人的特質,這種立場也是可辯護的。但無論機器是否理解,它們在這些任務上的出色表現仍令人印象深刻?!?/p>
Hessel是論文《安卓會笑電羊嗎?來自《紐約客》卡通標題競賽的幽默“理解”基準測試》的第一作者,該論文在7月9日至14日于多倫多舉行的第61屆計算語言學年會上獲得最佳論文獎。康奈爾大學計算機科學學院Charles Roy Davis教授Lillian Lee和華盛頓大學計算機科學與工程Paul G. Allen學院教授、艾倫人工智能研究院常識智能高級主管Yejin Choi也是該論文的合著者。其他貢獻者包括猶他大學計算學院助理教授Ana Marasovic、艾倫人工智能研究院研究科學家Jena D. Hwang、華盛頓大學研究助理Jeff Da、OpenAI研究員Rowan Zellers,以及幽默漫畫家、《紐約客》長期卡通編輯Robert Mankoff。
為開展研究,這些學者收集了14年的《紐約客》卡通標題競賽素材,共超過700組。每組競賽包括:無標題卡通圖;該周參賽作品;《紐約客》編輯選擇的三名決賽選手;對于某些競賽,還包括每個參賽作品的群眾質量評估。
對每組競賽,研究人員用兩類AI模型參與三項任務:基于計算機視覺的“從像素”模型和基于對卡通的人類概述進行分析的“從描述”模型。Hessel說:“有些照片數據集帶有類似‘這是我的狗’的說明?!都~約客》案例有趣之處在于,圖像與標題之間的關系是間接的、戲謔的,并引用了許多現實世界的實體和規(guī)范。因此,‘理解’這些東西之間的關系需要更高層次的細膩度?!?/p>
實驗中,匹配要求AI模型從其他競賽的決賽選手中為給定的卡通選擇決賽標題;質量排名要求模型區(qū)分決賽標題和非決賽標題;解釋要求模型生成自由文本,解釋優(yōu)質標題如何與卡通相關。
Hessel親自撰寫了大部分人生成的解釋,因為眾包此任務的效果不佳。他為超過650幅卡通各生成了60字的解釋。Hessel說:“在機器學習背景下,650這個數量看起來很小,因為那里的數據點通常有成千上萬。直到你開始一一寫出來時,才感覺到?!?/p>
這項研究揭示了AI和人類對幽默“理解”之間存在顯著差距。在卡通-標題匹配選擇題中,最佳AI模型準確率只有62%,遠遠落后于人類同條件下的94%。而在人生成與AI生成的解釋比較中,人類的解釋約以2比1受青睞。
雖然AI目前還無法“理解”幽默,但它可以成為幽默創(chuàng)作者的輔助創(chuàng)意工具。
本文譯自 techxplore,由 BALI 編輯發(fā)布。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )