Stable Diffusion 3發(fā)布后,因生成的畸形人體圖像被網(wǎng)友嘲諷為“倒退”,引發(fā)廣泛討論。
在周三,Stability AI發(fā)布了Stable Diffusion 3 Medium,一種將文本提示轉(zhuǎn)換為AI生成圖像的模型。但該模型因生成的人體圖像畸形,反而被網(wǎng)友嘲笑為技術(shù)上的倒退,與其他先進(jìn)的圖像合成模型如Midjourney或DALL-E 3相比顯得遜色。因此,該模型很容易生成解剖結(jié)構(gòu)不正確的視覺(jué)畸形圖像。
在Reddit上,一個(gè)名為“Is this release supposed to be a joke? [SD3-2B]”的帖子詳細(xì)描述了SD3 Medium在渲染人類(lèi),特別是人類(lèi)四肢如手和腳方面的顯著失敗。另一個(gè)名為“Why is SD3 so bad at generating girls lying on the grass?”的帖子則展示了整個(gè)身體的類(lèi)似問(wèn)題。
傳統(tǒng)上,AI圖像生成器在生成手部圖像時(shí)一直面臨挑戰(zhàn),因?yàn)樵缙谟?xùn)練數(shù)據(jù)集中的好例子不足。但最近,幾個(gè)圖像合成模型似乎已經(jīng)克服了這個(gè)問(wèn)題。從這個(gè)意義上說(shuō),SD3對(duì)聚集在Reddit上的圖像合成愛(ài)好者來(lái)說(shuō),似乎是一個(gè)巨大的倒退,尤其是與去年11月發(fā)布的SD XL Turbo相比。
“StableDiffusion曾與Midjourney競(jìng)爭(zhēng),現(xiàn)在它看起來(lái)就像個(gè)笑話(huà)。至少我們的數(shù)據(jù)集是安全和倫理的!”一位Reddit用戶(hù)寫(xiě)道。
AI圖像愛(ài)好者將Stable Diffusion 3的人體解剖失敗歸咎于Stability堅(jiān)持從SD3訓(xùn)練數(shù)據(jù)中過(guò)濾掉成人內(nèi)容(通常稱(chēng)為“NSFW”內(nèi)容)。一位Reddit用戶(hù)在帖子中寫(xiě)道:“相信與否,嚴(yán)格審查模型也會(huì)去除人體解剖內(nèi)容,所以……這就是發(fā)生的事情。”
基本上,每當(dāng)用戶(hù)提示集中在AI模型訓(xùn)練數(shù)據(jù)集中未能很好代表的概念時(shí),圖像合成模型將會(huì)盡力解釋用戶(hù)的要求。而有時(shí),這會(huì)變得非??膳隆?/p>
2022年發(fā)布的Stable Diffusion 2.0也曾在描繪人類(lèi)方面出現(xiàn)類(lèi)似問(wèn)題,AI研究人員很快發(fā)現(xiàn),審查包含裸體的成人內(nèi)容會(huì)嚴(yán)重阻礙AI模型生成準(zhǔn)確的人體解剖能力。當(dāng)時(shí),Stability AI通過(guò)SD 2.1和SD XL逆轉(zhuǎn)了這一過(guò)程,重新獲得了一些因強(qiáng)烈過(guò)濾NSFW內(nèi)容而失去的能力。
另一個(gè)在模型預(yù)訓(xùn)練期間可能出現(xiàn)的問(wèn)題是,有時(shí)研究人員用來(lái)移除數(shù)據(jù)集中成人圖像的NSFW過(guò)濾器過(guò)于苛刻,意外移除了可能并不冒犯的圖像,剝奪了模型對(duì)某些情況下人類(lèi)形象的描繪。
“[SD3]只要圖片中沒(méi)有人類(lèi)就沒(méi)問(wèn)題,我認(rèn)為他們改進(jìn)的nsfw過(guò)濾器決定任何類(lèi)人形象都是nsfw,”一位Reddit用戶(hù)在該話(huà)題中寫(xiě)道。
我們?cè)贖ugging Face上使用免費(fèi)的SD3在線(xiàn)演示,運(yùn)行提示并看到了與其他人報(bào)告類(lèi)似的結(jié)果。例如,提示“一個(gè)男人展示他的手”返回了一張男人舉起兩只巨大的反手的圖像,盡管每只手至少有五個(gè)手指。
Stability公司的困境
Stability在二月宣布了Stable Diffusion 3,并計(jì)劃將其提供為各種模型大小。今天發(fā)布的是“Medium”版本,一個(gè)擁有20億參數(shù)的模型。除了在Hugging Face上提供的權(quán)重外,它們還可以通過(guò)公司的Stability Platform進(jìn)行實(shí)驗(yàn)。這些權(quán)重可以免費(fèi)下載和非商業(yè)用途使用。
在二月宣布之后,SD3模型權(quán)重的發(fā)布延遲引發(fā)了關(guān)于技術(shù)問(wèn)題或管理不善的謠言。Stability AI作為公司最近陷入困境,其創(chuàng)始人兼CEO Emad Mostaque在三月辭職,隨后進(jìn)行了一系列裁員。在此之前,三位關(guān)鍵工程師——Robin Rombach、Andreas Blattmann和Dominik Lorenz——離開(kāi)了公司。其困境可以追溯到更早,2023年以來(lái),公司財(cái)務(wù)狀況不佳的消息一直在流傳。
對(duì)于一些Stable Diffusion的粉絲來(lái)說(shuō),Stable Diffusion 3 Medium的失敗是公司管理不善的視覺(jué)體現(xiàn),明顯顯示出公司狀況惡化的跡象。盡管公司尚未申請(qǐng)破產(chǎn),但在看到SD3 Medium后,有些用戶(hù)開(kāi)了黑色幽默的玩笑:
“看來(lái)現(xiàn)在他們可以在安全且合倫理的方式下破產(chǎn)了”
盡管如此,Stability AI仍在努力通過(guò)改進(jìn)和發(fā)布新的模型來(lái)克服這些挑戰(zhàn)。對(duì)于AI圖像合成愛(ài)好者和研究人員來(lái)說(shuō),模型的每一次進(jìn)步和每一次失敗都是技術(shù)發(fā)展的重要一環(huán)。隨著技術(shù)的不斷發(fā)展和數(shù)據(jù)集的不斷改進(jìn),未來(lái)的AI圖像生成模型可能會(huì)更好地處理這些問(wèn)題。
本文譯自 Ars Technica,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )