毫無疑問,為訓(xùn)練人工智能或機(jī)器學(xué)習(xí) (AI/ML) 收集真實數(shù)據(jù)既耗時又昂貴。而且,很多時候也充滿了風(fēng)險,但更常見的問題是數(shù)據(jù)太少或有偏見的數(shù)據(jù)可能會使企業(yè)組織誤入歧途。但是,如果你可以生成新數(shù)據(jù),即所謂的合成數(shù)據(jù)呢?
這聽起來不太可能,但這正是Synthesis AI計劃從 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和 Kubera Venture Capital 等風(fēng)險投資公司籌集的 1700 萬美元的 A 輪融資。
這是一個非??煽康淖C據(jù)。該公司正計劃利用這這筆資金來擴(kuò)大其在混合真實和合成數(shù)據(jù)領(lǐng)域的研發(fā)。
Synthesis AI 的首席執(zhí)行官 Yashar Behzadi 在一份聲明中表示:“合成數(shù)據(jù)正處于采用的拐點,我們的目標(biāo)是進(jìn)一步開發(fā)該技術(shù)并推動計算機(jī)視覺系統(tǒng)構(gòu)建方式的范式變革。該行業(yè)將很快在虛擬世界中全面設(shè)計和訓(xùn)練計算機(jī)視覺模型,從而實現(xiàn)更先進(jìn)和合乎道德的人工智能。”
但什么是合成數(shù)據(jù)?合成數(shù)據(jù)是人工創(chuàng)建的,而不是從現(xiàn)實世界中收集的。當(dāng)前,許多應(yīng)用都專注于視覺數(shù)據(jù),例如從計算機(jī)視覺系統(tǒng)收集的數(shù)據(jù)。盡管如此,沒有實際理由不能為其他用例創(chuàng)建合成數(shù)據(jù),例如測試應(yīng)用或改進(jìn)用于檢測欺詐的算法。它們有點像物理記錄的高度結(jié)構(gòu)化的數(shù)字孿生。
通過大規(guī)模提供海量、真實的數(shù)據(jù)集,數(shù)據(jù)科學(xué)家和分析師理論上可以跳過數(shù)據(jù)收集過程,直接進(jìn)入測試或訓(xùn)練。
這是因為創(chuàng)建真實世界數(shù)據(jù)集的大部分成本不僅僅是收集原始數(shù)據(jù)。以計算機(jī)視覺和自動駕駛汽車為例,汽車制造商和研究人員可以將各種攝像頭、雷達(dá)和激光雷達(dá)傳感器連接到車輛上進(jìn)行收集,但原始數(shù)據(jù)對 AI/ML 算法沒有任何意義。同樣艱巨的挑戰(zhàn)是使用上下文信息手動標(biāo)記數(shù)據(jù),以幫助系統(tǒng)做出更好的決策。
讓我們來看看這個挑戰(zhàn)的背景:想象一下,你經(jīng)常開一段很短的車,所有的停車標(biāo)志、十字路口、停著的車、行人等等,然后想象一下,給每一個潛在的危險都貼上標(biāo)簽是一項艱巨的任務(wù)。
合成數(shù)據(jù)的核心優(yōu)勢在于,理論上,它可以創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,其規(guī)模足以正確訓(xùn)練 AI/ML 應(yīng)用,這意味著數(shù)據(jù)科學(xué)家可以在大量新地方突然測試他們的算法,然后才能真正實現(xiàn)世界數(shù)據(jù)或在難以獲取的情況下。繼續(xù)自動駕駛汽車的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來訓(xùn)練汽車在惡劣條件下駕駛,例如積雪覆蓋的道路,而無需派司機(jī)向北或進(jìn)入山區(qū)手動收集數(shù)據(jù)。
合成數(shù)據(jù)的核心優(yōu)勢在于,從理論上講,它可以在適當(dāng)訓(xùn)練AI/ML應(yīng)用所需的規(guī)模上創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,這意味著數(shù)據(jù)科學(xué)家可以在獲得真實數(shù)據(jù)之前,或在難以獲得數(shù)據(jù)的情況下,突然在許多新的地方測試他們的算法。還是自動駕駛汽車的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來訓(xùn)練汽車在不利條件下駕駛,比如白雪覆蓋的道路,而無需讓司機(jī)一路向北或進(jìn)入山區(qū)手動收集數(shù)據(jù)。
然而,合成數(shù)據(jù)存在先有雞還是先有蛋的問題,因為只能使用……更多數(shù)據(jù)和更多 AI/ML 算法來創(chuàng)建它。從“種子”數(shù)據(jù)集開始,然后將其作為合成創(chuàng)作的基準(zhǔn),這意味著它們只會與您開始使用的數(shù)據(jù)一樣好。
(無形)利益有哪些數(shù)據(jù)科學(xué)家或研究人員不會從看似無窮無盡的數(shù)據(jù)生成器中獲益?其核心好處——能夠避免手動收集真實世界的數(shù)據(jù)——只是合成數(shù)據(jù)可以加速AI/ML應(yīng)用的方式之一。
由于分析師和數(shù)據(jù)科學(xué)家可以嚴(yán)格控制種子數(shù)據(jù),甚至可以額外努力納入多樣性,或與外部顧問合作發(fā)現(xiàn)和解碼偏見,他們可以對自己提出更高的標(biāo)準(zhǔn)。例如,Synthesis AI正在開發(fā)一種監(jiān)測司機(jī)狀態(tài)的系統(tǒng),并仔細(xì)地將不同的面孔包含在他們的計算機(jī)生成的合成數(shù)據(jù)集中,以確?,F(xiàn)實世界的應(yīng)用適用于每個人。
隱私是另一個潛在的勝利。如果一家公司花費數(shù)百萬英里來為他們的自動駕駛汽車收集真實世界的數(shù)據(jù),他們就會收集到很多人認(rèn)為是個人隱私的大量數(shù)據(jù)——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經(jīng)找到了在他們的地圖軟件中避免這些類型問題的方法,但他們的路線對于想要測試他們的算法的小型 AI/ML 團(tuán)隊來說并不可行。
“企業(yè)還在努力解決與以人為本的產(chǎn)品中的模型偏見和消費者隱私相關(guān)的道德問題。很明顯,構(gòu)建下一代計算機(jī)視覺需要一種新的范式,”該公司首席執(zhí)行官兼創(chuàng)始人 Yashar Behzadi對媒體表示。
雖然合成數(shù)據(jù)確實依賴于種子才能開始,但可以對其進(jìn)行調(diào)整和修改,以幫助在現(xiàn)實生活中難以或危險捕獲的邊緣情況下訓(xùn)練 AI/ML 應(yīng)用。自動駕駛汽車背后的公司希望擅長識別僅部分可見的物體或人,例如隱藏在卡車后面的停車標(biāo)志,或站在兩輛車之間的行人沖上馬路。
考慮到這些勝利,盡管有些人擔(dān)心將偏見編碼到合成數(shù)據(jù)中的先有雞還是先有蛋的問題,Gartner預(yù)測,到 2024年,用于開發(fā) AI 和分析產(chǎn)品的數(shù)據(jù)的 60% 將綜合生成。他們預(yù)測,大部分新數(shù)據(jù)將專注于在它們所基于的歷史數(shù)據(jù)失去相關(guān)性或基于過去經(jīng)驗的假設(shè)失效的情況下修復(fù)預(yù)測模型。
但是總是需要收集一些真實世界的數(shù)據(jù),所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長的路要走。
- 13項指導(dǎo)原則!NGMN重磅發(fā)布《邁向6G的網(wǎng)絡(luò)架構(gòu)演進(jìn)》報告
- 微軟擬向波蘭投資7億美元 用于升級云和AI基礎(chǔ)設(shè)施
- 華為向國際市場推出Mate XT非凡大師:16GB+1TB售價26647人民幣
- 微軟擬向波蘭投資7億美元 用于升級云和AI基礎(chǔ)設(shè)施
- 華為向國際市場推出Mate XT非凡大師:16GB+1TB售價26647人民幣
- 點亮ODN啞管道:Turkcell與中興通訊展開歐洲首個光指紋試驗
- 陳懷達(dá)升任中國移動副總經(jīng)理、黨組成員
- 點亮ODN啞管道:Turkcell與中興通訊展開歐洲首個光指紋試驗
- 佛山市政務(wù)網(wǎng)絡(luò)項目變動:廣東廣電主動放棄資格 廣東移動撿漏
- 物聯(lián)網(wǎng)網(wǎng)絡(luò)安全市場蓄勢待發(fā):2028年市場規(guī)模將達(dá)510億美元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。