123,123

Stable Diffusion 3發(fā)布，但AI生成的人體畫(huà)風(fēng)變得奇怪起來(lái)

人閱讀

2024-06-16 07:06:00

來(lái)源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

Stable Diffusion 3發(fā)布后，因生成的畸形人體圖像被網(wǎng)友嘲諷為“倒退”，引發(fā)廣泛討論。

在周三，Stability AI發(fā)布了Stable Diffusion 3 Medium，一種將文本提示轉(zhuǎn)換為AI生成圖像的模型。但該模型因生成的人體圖像畸形，反而被網(wǎng)友嘲笑為技術(shù)上的倒退，與其他先進(jìn)的圖像合成模型如Midjourney或DALL-E 3相比顯得遜色。因此，該模型很容易生成解剖結(jié)構(gòu)不正確的視覺(jué)畸形圖像。

在Reddit上，一個(gè)名為“Is this release supposed to be a joke? [SD3-2B]”的帖子詳細(xì)描述了SD3 Medium在渲染人類，特別是人類四肢如手和腳方面的顯著失敗。另一個(gè)名為“Why is SD3 so bad at generating girls lying on the grass?”的帖子則展示了整個(gè)身體的類似問(wèn)題。

傳統(tǒng)上，AI圖像生成器在生成手部圖像時(shí)一直面臨挑戰(zhàn)，因?yàn)樵缙谟?xùn)練數(shù)據(jù)集中的好例子不足。但最近，幾個(gè)圖像合成模型似乎已經(jīng)克服了這個(gè)問(wèn)題。從這個(gè)意義上說(shuō)，SD3對(duì)聚集在Reddit上的圖像合成愛(ài)好者來(lái)說(shuō)，似乎是一個(gè)巨大的倒退，尤其是與去年11月發(fā)布的SD XL Turbo相比。

“StableDiffusion曾與Midjourney競(jìng)爭(zhēng)，現(xiàn)在它看起來(lái)就像個(gè)笑話。至少我們的數(shù)據(jù)集是安全和倫理的！”一位Reddit用戶寫(xiě)道。

AI圖像愛(ài)好者將Stable Diffusion 3的人體解剖失敗歸咎于Stability堅(jiān)持從SD3訓(xùn)練數(shù)據(jù)中過(guò)濾掉成人內(nèi)容(通常稱為“NSFW”內(nèi)容)。一位Reddit用戶在帖子中寫(xiě)道：“相信與否，嚴(yán)格審查模型也會(huì)去除人體解剖內(nèi)容，所以……這就是發(fā)生的事情?！?/p>

基本上，每當(dāng)用戶提示集中在AI模型訓(xùn)練數(shù)據(jù)集中未能很好代表的概念時(shí)，圖像合成模型將會(huì)盡力解釋用戶的要求。而有時(shí)，這會(huì)變得非?？膳?。

2022年發(fā)布的Stable Diffusion 2.0也曾在描繪人類方面出現(xiàn)類似問(wèn)題，AI研究人員很快發(fā)現(xiàn)，審查包含裸體的成人內(nèi)容會(huì)嚴(yán)重阻礙AI模型生成準(zhǔn)確的人體解剖能力。當(dāng)時(shí)，Stability AI通過(guò)SD 2.1和SD XL逆轉(zhuǎn)了這一過(guò)程，重新獲得了一些因強(qiáng)烈過(guò)濾NSFW內(nèi)容而失去的能力。

另一個(gè)在模型預(yù)訓(xùn)練期間可能出現(xiàn)的問(wèn)題是，有時(shí)研究人員用來(lái)移除數(shù)據(jù)集中成人圖像的NSFW過(guò)濾器過(guò)于苛刻，意外移除了可能并不冒犯的圖像，剝奪了模型對(duì)某些情況下人類形象的描繪。

“[SD3]只要圖片中沒(méi)有人類就沒(méi)問(wèn)題，我認(rèn)為他們改進(jìn)的nsfw過(guò)濾器決定任何類人形象都是nsfw，”一位Reddit用戶在該話題中寫(xiě)道。

我們?cè)贖ugging Face上使用免費(fèi)的SD3在線演示，運(yùn)行提示并看到了與其他人報(bào)告類似的結(jié)果。例如，提示“一個(gè)男人展示他的手”返回了一張男人舉起兩只巨大的反手的圖像，盡管每只手至少有五個(gè)手指。

Stability公司的困境

Stability在二月宣布了Stable Diffusion 3，并計(jì)劃將其提供為各種模型大小。今天發(fā)布的是“Medium”版本，一個(gè)擁有20億參數(shù)的模型。除了在Hugging Face上提供的權(quán)重外，它們還可以通過(guò)公司的Stability Platform進(jìn)行實(shí)驗(yàn)。這些權(quán)重可以免費(fèi)下載和非商業(yè)用途使用。

在二月宣布之后，SD3模型權(quán)重的發(fā)布延遲引發(fā)了關(guān)于技術(shù)問(wèn)題或管理不善的謠言。Stability AI作為公司最近陷入困境，其創(chuàng)始人兼CEO Emad Mostaque在三月辭職，隨后進(jìn)行了一系列裁員。在此之前，三位關(guān)鍵工程師——Robin Rombach、Andreas Blattmann和Dominik Lorenz——離開(kāi)了公司。其困境可以追溯到更早，2023年以來(lái)，公司財(cái)務(wù)狀況不佳的消息一直在流傳。

對(duì)于一些Stable Diffusion的粉絲來(lái)說(shuō)，Stable Diffusion 3 Medium的失敗是公司管理不善的視覺(jué)體現(xiàn)，明顯顯示出公司狀況惡化的跡象。盡管公司尚未申請(qǐng)破產(chǎn)，但在看到SD3 Medium后，有些用戶開(kāi)了黑色幽默的玩笑：

“看來(lái)現(xiàn)在他們可以在安全且合倫理的方式下破產(chǎn)了”

盡管如此，Stability AI仍在努力通過(guò)改進(jìn)和發(fā)布新的模型來(lái)克服這些挑戰(zhàn)。對(duì)于AI圖像合成愛(ài)好者和研究人員來(lái)說(shuō)，模型的每一次進(jìn)步和每一次失敗都是技術(shù)發(fā)展的重要一環(huán)。隨著技術(shù)的不斷發(fā)展和數(shù)據(jù)集的不斷改進(jìn)，未來(lái)的AI圖像生成模型可能會(huì)更好地處理這些問(wèn)題。

本文譯自 Ars Technica，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）