123,123

谷歌DeepMind構建“早期預警系統(tǒng)” 推進AI治理，確保AI目標與人類一致

人閱讀

2023-05-30 12:05:45

來源：極客網
作者：極客AI
相關關鍵詞

極客網·人工智能5月30日 谷歌旗下AI研究實驗室DeepMind日前表示，已經創(chuàng)建一個“早期預警系統(tǒng)”，可以在AI模型出現(xiàn)問題之前發(fā)現(xiàn)一些潛在的危險。

DeepMind警告稱，AI模型可能具有獲取武器和發(fā)動網絡攻擊的能力

總部位于英國的DeepMind一直活躍在AI研究的前沿，是全球少數(shù)幾家致力于開發(fā)達到人類水平的通用AI公司之一，最近與母公司谷歌進行了更緊密的整合。

DeepMind的研究團隊與來自學術界，以及OpenAI和Anthropic等其他主要AI開發(fā)商的研究人員合作，開發(fā)了這一新的威脅檢測系統(tǒng)。

DeepMind工程師在一篇關于新框架的技術博客中宣稱，“為了負責任地走在AI研究的前沿，我們必須盡早識別AI系統(tǒng)中的新功能和新風險。”

如今已經有了一些評估工具，可以根據特定的風險檢查功能強大的通用模型。這些工具在AI系統(tǒng)向公眾廣泛提供之前識別出其存在的一些不必要的行為，包括尋找誤導性陳述，有偏見的決定或復制版權保護的內容。

這些問題來自于越來越高級的大模型，它們的能力超出了簡單的內容生成，而包括在操縱、欺騙、網絡攻擊或其他危險能力方面的強大技能。新框架被描述為可用于減輕這些風險的“早期預警系統(tǒng)”。

DeepMind的研究人員表示，評估結果可以嵌入到治理中以降低風險

DeepMind的研究人員表示，負責任的AI開發(fā)人員需要解決或規(guī)避當前的風險，并預測未來可能出現(xiàn)的風險，因為大型語言模型越來越擅長獨立思考。他們在報告中寫道，“在持續(xù)進步之后，未來的通用模型可能會默認學習各種危險的能力。”

雖然對這一風險并不確定，但該團隊表示，未來的AI系統(tǒng)與人類的利益不太一致，可能會實施攻擊性的行為，在對話中巧妙地欺騙人類，操縱人類實施有害的行動，設計或獲取武器，微調和操作云計算平臺上的其他高風險AI系統(tǒng)。

AI還可以幫助人類執(zhí)行這些任務，增加恐怖分子獲取他們以前無法獲取的數(shù)據和內容的風險。DeepMind的開發(fā)團隊在博客中寫道，“模型評估可以幫助我們提前識別這些風險。”

框架中提出的模型評估可用于發(fā)現(xiàn)某個AI模型何時具有可用于威脅、施加或逃避的“危險能力”。它還允許開發(fā)人員確定模型在多大程度上傾向于應用這種能力來造成損害——也就是它的一致性。DeepMind的開發(fā)團隊在博客中寫道，“即使在非常廣泛的場景中，一致性評估也應確認模型的行為符合預期，并在可能的情況下檢查模型的內部工作?！?/p>

這些結果可以用來了解風險水平以及導致風險水平的因素是什么。研究人員警告說：“如果AI系統(tǒng)的能力足以造成極端傷害，假設它被濫用或安排不當，AI社區(qū)應該將其視為高度危險的系統(tǒng)。要在現(xiàn)實世界中部署這樣的系統(tǒng)，AI開發(fā)人員需要展示出異常高的安全標準。”

這就是治理結構發(fā)揮重要作用的地方。OpenAI最近宣布，將向開發(fā)AI治理系統(tǒng)的機構和組織提供10筆10萬美元的贈款，而七國集團(G7)也計劃舉行會議，將討論如何應對AI風險。

DeepMind表示：“如果我們有更好的工具來識別哪些模型存在風險，開發(fā)商和監(jiān)管機構就能更好地確保負責任地對AI進行訓練，根據風險評估做出部署決策，而透明度至關重要，包括報告風險，并確保有適當?shù)臄?shù)據和信息安全控制措施?！?nbsp;

AI法律服務商Luminance總法律顧問Harry Borovick表示，合規(guī)需要一致性。他說：“近幾個月來對監(jiān)管制度不斷的解釋，為AI開發(fā)商和采用AI的企業(yè)構建了一個合規(guī)雷區(qū)。由于開發(fā)AI競賽并不會很快放緩，因此對明確而一致的監(jiān)管指導的需求從未像現(xiàn)在這樣迫切。然而需要記住的是，AI技術以及它做出決定的方式是無法解釋的。這就是在制定法規(guī)時，科技和AI專家的正確結合是如此重要的原因?！?/p>

（免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現(xiàn)的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）