近日,騰訊優(yōu)圖實驗室在CVPR 2023(IEEE國際計算機視覺與模式識別會議)中斬獲了視覺異常檢測(Visual Anomaly and Novelty Detection,VAND)挑戰(zhàn)賽的冠軍,這一榮譽標志著騰訊優(yōu)圖在工業(yè)人工智能領域的技術實力和創(chuàng)新能力得到了權威機構的認可。
無監(jiān)督圖像異常檢測是計算機視覺領域的重要研究方向,其目標是通過僅使用正常圖像進行模型訓練,在測試時能夠準確地區(qū)分正常和異常圖像。在工業(yè)外觀質檢、產品零件安裝檢測和智能安全視頻等領域,無監(jiān)督異常檢測技術具有巨大的研究意義和應用價值。工業(yè)領域對于視覺異常檢測的需求日益增長。在工業(yè)生產過程中,異常情況可能導致質量問題、安全隱患甚至設備故障。傳統(tǒng)的異常檢測方法往往需要人工參與,效率低下且易受主觀因素影響。而基于人工智能的視覺異常檢測技術能夠通過高效的自動化方式,快速識別和定位異常情況,從而提高生產效率和產品質量。
技術解析:
騰訊優(yōu)圖實驗室與浙江大學合作,在Zero-shot異常檢測賽道中提出了創(chuàng)新的解決方案。通過結合文本提示和圖像特征對比的方法,該方案在測試集上取得了優(yōu)異的成績,綜合F1-max指標達到0.4589,超越了其他參賽隊伍。這意味著提出的模型能夠在未見過異常樣本的情況下,準確地識別和分割異常圖像。以下可分為三點;
(一)異常分類
基于WinCLIP[3]異常分類框架,我們提出了一種文本提示集成策略,在不使用復雜的多尺度窗口策略的基礎上顯著提升了Baseline的異常分類精度。具體地,該集成策略包含template-level和state-level兩部分:
1) 對于前者,我們從CLIP Surgery[4]中選定的85個模板提示中刪掉了一些不適合AD任務的模板,如“a photo of the weird [obj.]“,最終篩選35個模板提示。
2) 對于后者,我們采用通用文本來描述正常/異常對象,如“flawless,damaged“等,而沒有提供過于詳細的描述以保證方法的普適性,如”chip around edge and corner“。最終使用7個正常提示和5個異常提示。
模板和狀態(tài)提示與樣本類別名稱結合后,使用CLIP文本編碼器提取文本特征,并對正常和異常特征分別求平均值。最終,將正常與異常特征各自的平均值與圖像特征進行對比,經過softmax后得到異常類別概率作為分類得分,見下圖中藍色Zero-shot Anomaly Score流程。
自研Zero-shot/Few-shot異常檢測統(tǒng)一框架
(二)異常分割
類比圖像級別的異常分類方法到異常分割,一個自然而然的想法是將Backbone提取到的不同層級特征與文本特征進行相似度度量。然而,CLIP模型是基于分類的方案進行設計的,即除了用于分類的抽象圖像特征外,沒有將其它圖像特征映射到統(tǒng)一的圖像/文本空間。因此我們提出了一個簡單但有效的方案來解決這個問題:使用額外的線性層將不同層級的圖像特征映射到圖像/文本聯(lián)合嵌入空間中,見上圖中藍色Zero-shot Anomaly Map流程。具體地,不同層級的特征分別經由一個線性層進行聯(lián)合嵌入特征空間變換,將得到的變換后的特征與文本特征進行對比,得到不同層級的異常圖。最后,將不同層級的異常圖簡單加和求得最終結果,具體實現(xiàn)可參考技術報告和源代碼。官方的測試數(shù)據(jù)集上提出的方法在綜合F1-max指標上達到0.4589,相較于其他眾多參賽隊伍具有明顯的優(yōu)勢,獲得了該賽道冠軍,證明了所提方法的優(yōu)越性和泛化性。
(三) Few-shot擴展
得益于簡單的結構,我們結合基于memory的PatchCore[5]思路將方法擴展到Few-shot賽道,在不進行任何調參的基礎上獲得了積極競爭的結果,獲得了該賽道榮譽提名獎,我們會在后續(xù)工作中進一步探究該方法在Few-shot上的應用潛力與價值。
該解決方案不僅在Zero-shot異常檢測賽道表現(xiàn)出色,騰訊優(yōu)圖實驗室還將其擴展到Few-shot異常檢測賽道,并獲得了該賽道的榮譽提名獎。在Few-shot異常檢測賽道中,該方案在異常檢測準確率方面表現(xiàn)優(yōu)異,展現(xiàn)出出色的適應能力和泛化能力。
騰訊優(yōu)圖實驗室在工業(yè)人工智能領域的相關成就,為工業(yè)質檢、產品安全和智能視頻等領域的發(fā)展提供了新的可能性。未來,騰訊優(yōu)圖將繼續(xù)致力于推動計算機視覺和人工智能技術的創(chuàng)新,為工業(yè)應用帶來更多突破和進步,為各行業(yè)提供更智能、高效的解決方案。
關于CVPR
CVPR是由IEEE主辦的一年一度的全球學術型頂級會議,全稱“IEEE國際計算機視覺與模式識別會議”(IEEE Conference on Computer Vision and Pattern Recognition),今年將于6月18日到22日在溫哥華會議中心舉辦。
關于騰訊優(yōu)圖實驗室
騰訊優(yōu)圖實驗室成立于2012年,是騰訊公司旗下頂級人工智能實驗室。優(yōu)圖聚焦計算機視覺,專注人臉識別、圖像識別、OCR等領域開展技術研發(fā)和行業(yè)落地,在推動產業(yè)數(shù)字化升級過程中,優(yōu)圖始終專注基礎研究、產業(yè)落地兩條腿走路的發(fā)展戰(zhàn)略,與騰訊云與智慧產業(yè)深度融合,挖掘客戶痛點,切實為行業(yè)降本增效。與此同時,優(yōu)圖關注科技的社會價值,踐行科技向善理念,致力于通過視覺AI技術解決社會問題,幫助弱勢群體。
騰訊優(yōu)圖實驗室的研究成果已被CVPR 2023 VAND研討會收錄。將于6月18日的11:50 AM - 12:00 PM進行相關Talk和QA可以點擊閱讀原文了解詳情。
閱文原文鏈接:(https://sites.google.com/view/vand-cvpr23/schedule )。
參考文獻
[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision."International conference on machine learning. PMLR, 2021.
[2] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale."arXiv preprint arXiv:2010.11929(2020).
[3] Jeong, Jongheon, et al. "Winclip: Zero-/few-shot anomaly classification and segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[4] Li, Yi, et al. "Clip surgery for better explainability with enhancement in open-vocabulary tasks."arXiv preprint arXiv:2304.05653(2023).
[5] Roth, Karsten, et al. "Towards total recall in industrial anomaly detection."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )