阿里的追光者:每天為數(shù)億張圖片把脈幫數(shù)十萬(wàn)盲人“聽圖”

7月3日?qǐng)?bào)道

聽取顧客發(fā)來(lái)的評(píng)論意見、發(fā)布最新制作的商品介紹圖片,這是淘寶店主小峰5年來(lái)每天起床后必做的兩件事。

來(lái)自浙江的小峰自幼雙目失明,2015年在淘寶開了一家專賣電子產(chǎn)品的店鋪。通過(guò)“手耳并用”的方式,小峰可以和明眼人一樣,毫無(wú)障礙地和眾多買家進(jìn)行溝通交流。

這一切得益于OCR(光學(xué)字符識(shí)別)技術(shù)。在阿里達(dá)摩院讀光OCR團(tuán)隊(duì)的努力下,數(shù)十萬(wàn)盲人登陸淘寶時(shí),只要手指劃過(guò)相關(guān)頁(yè)面和商品,手機(jī)就會(huì)準(zhǔn)確地讀出的信息 。

OCR技術(shù)的應(yīng)用并不止于為視障人群修建“盲道”,小峰和數(shù)以百萬(wàn)計(jì)的商家每天會(huì)在淘寶發(fā)布超過(guò)1億張商品圖片。

廣告發(fā)布是否違規(guī)?商品圖片是否侵權(quán)?在每天為海量圖片“把脈”的過(guò)程中,鍛造了讀光OCR強(qiáng)大的能力,這項(xiàng)原本只專注于商品治理的安全技術(shù),逐漸進(jìn)化為不同行業(yè)提供人工智能服務(wù)的全能識(shí)圖產(chǎn)品。

不久前,阿里達(dá)摩院和阿里安全成立聯(lián)合實(shí)驗(yàn)室,意味著“讀光”這一高精尖技術(shù)將在更多場(chǎng)景落地,而在“新基建”快速發(fā)展的當(dāng)下,數(shù)字技術(shù)將展示出前所未有的普惠性。

每天為數(shù)億張圖片把脈

每天在淘寶新增的商品圖片達(dá)數(shù)億張。

如果用相紙把這些圖片打印出來(lái),假設(shè)每張相紙厚度為0.2毫米,摞在一起的厚度超過(guò)20公里。

從這些圖片中找出違規(guī)發(fā)布的商品和信息,依靠人的肉眼,即使每秒鐘能查看一張圖片,24小時(shí)內(nèi)看完這些商品圖,需要1158人團(tuán)隊(duì)不間斷持續(xù)作業(yè)才能完成。

在商品圖片內(nèi)容豐富、場(chǎng)景復(fù)雜多樣的狀況下,讀光OCR技術(shù)的出現(xiàn)大大提高了平臺(tái)治理的效率。

讀光OCR團(tuán)隊(duì)負(fù)責(zé)人、高級(jí)算法專家永攀介紹說(shuō),“讀光”的前身是成立于2011年的“圖像把脈團(tuán)隊(duì)”。

彼時(shí),淘寶商品主要信息傳遞方式是圖片,消費(fèi)者搜索任何商品,映入眼簾的是首先是各個(gè)搜索結(jié)果的商品主圖,這張圖片傳遞的信息可以在很大程度上影響用戶的購(gòu)買判斷。

當(dāng)圖片成為搶奪消費(fèi)者注意力最直接的手段,很商家把商品主圖和呈現(xiàn)文字做得異常夸張,就像電線桿上的“牛皮蘚”廣告。

為了改善淘寶的商品呈現(xiàn),“圖像把脈團(tuán)隊(duì)”上線治理“牛皮癬”的專項(xiàng)技術(shù),判斷商品圖片中的文字以及整體圖片是否違規(guī)。

對(duì)圖片的識(shí)別、判定的意義并不只是是否美觀和夸張。更重要的是,通過(guò)對(duì)商品發(fā)布圖片的審核,可以及時(shí)發(fā)現(xiàn)銷售假貨侵權(quán)產(chǎn)品的商家。

今年2月2日,身在重慶的永攀在藥店買口罩時(shí),發(fā)現(xiàn)線下要點(diǎn)的口罩已經(jīng)被搶購(gòu)一空。永攀很快意識(shí)到,大量口罩購(gòu)買需求涌入線上,很多不法商家也可能會(huì)趁機(jī)混水摸魚。

與此同時(shí),淘寶、天貓成立了“保衛(wèi)口罩小分隊(duì)”,他們的任務(wù)就是守住口罩商品上線的關(guān)口。

這一天,讀光OCR團(tuán)隊(duì)緊急優(yōu)化技術(shù),確保有貨源的商家能發(fā)布商品的同時(shí),讓疑似假冒偽劣的商品無(wú)法上線。

“由于口罩以前是個(gè)小眾產(chǎn)品,突然爆發(fā)的需求和商品發(fā)布量,讓圖片掃描以及識(shí)別的工作量非常大?!庇琅驶貞浾f(shuō),這一仗把能調(diào)用的全部服務(wù)器都用上了。有了每天檢測(cè)數(shù)億張圖片的磨礪,讀光OCR在口罩保衛(wèi)戰(zhàn)這一役圓滿的完成了任務(wù)。

在阿里安全圖靈實(shí)驗(yàn)室負(fù)責(zé)人薛暉看來(lái),讀光OCR技術(shù)在知識(shí)產(chǎn)權(quán)保護(hù)領(lǐng)域的應(yīng)用,不僅可以對(duì)商品發(fā)布進(jìn)行檢測(cè),配合其他技術(shù)的應(yīng)用,還能對(duì)制售假分子予以限制。

一名曾因店鋪售假被淘寶關(guān)店,為再上淘寶開店,偽造了8次假身份,連戶籍地址都配套換了8次。但每次都被系統(tǒng)識(shí)別攔截,無(wú)緣再上淘寶的他,終于選擇放棄。

從管理到服務(wù)的有溫度治理

2015年9月1日,新廣告法開始執(zhí)行,這為“讀光團(tuán)隊(duì)”帶來(lái)了巨大的挑戰(zhàn)。

新廣告法禁用“最佳”、“最優(yōu)秀”、“世界級(jí)”、“獨(dú)家”、“史上第一”等多種“極限詞”表達(dá)。

淘寶的存量商品超過(guò)了15億個(gè),每個(gè)商品平均有17張描述圖片,90%的商品描述都在圖片中。由于很多商家并不具備專業(yè)知識(shí),根本無(wú)法判斷自己是否違反了廣告法。

很多商家違法了但卻不自知,不但面臨處罰,還會(huì)遭遇惡意索賠團(tuán)伙的敲詐勒索。

阿里安全在集團(tuán)內(nèi)部拉幾支團(tuán)隊(duì)一起PK解決方案,最終“讀光團(tuán)隊(duì)”接下了這個(gè)難題。

永攀回憶說(shuō),當(dāng)時(shí)統(tǒng)計(jì)發(fā)現(xiàn),淘寶存量商品圖多達(dá)數(shù)百億張,圖片上的文本內(nèi)容非常復(fù)雜,常用字體就有100多種,還有一些非常個(gè)性藝術(shù)創(chuàng)造的字體。此外,圖片中經(jīng)常會(huì)有各種透明半透明的背景,識(shí)別難度很高。

為了實(shí)現(xiàn)高效提速,“讀光團(tuán)隊(duì)”做出了有別于市面通用的解決方案。

如果說(shuō)外界當(dāng)時(shí)處理一張主圖需要3到5秒,處理復(fù)雜圖需要1分鐘的話,“讀光團(tuán)隊(duì)”提出的解決方案可將識(shí)別圖片的平均時(shí)間降到0.25到0.3秒。產(chǎn)品上線后,所有違規(guī)圖片可以在24小時(shí)內(nèi)被處理。

一年之內(nèi),“讀光團(tuán)隊(duì)”將技術(shù)能力進(jìn)化到了實(shí)時(shí)處理,讓商家發(fā)布的違規(guī)圖片根本無(wú)法上線。

“當(dāng)我們的安全技術(shù)能力從單純的管控變成風(fēng)險(xiǎn)服務(wù),可以幫助到那些無(wú)意犯錯(cuò)的商家,讓違反廣告法的圖片在沒(méi)有產(chǎn)生任何影響的情況下就被攔截下線?!庇琅收f(shuō),通過(guò)技術(shù)打擊作惡的壞人,而讓無(wú)意犯錯(cuò)的商家“少踩坑”,這是“有溫度治理”的應(yīng)有之義。

為數(shù)十萬(wàn)盲人修建網(wǎng)絡(luò)盲道

在數(shù)字經(jīng)濟(jì)時(shí)代,依托人工智能技術(shù)的治理模式和經(jīng)驗(yàn),不僅在解決商業(yè)問(wèn)題上發(fā)揮作用,創(chuàng)造新的商業(yè)機(jī)遇,在參與社會(huì)治理和解決各類社會(huì)問(wèn)題上,提供了更多的想象空間,為社會(huì)創(chuàng)造更多新價(jià)值。

從2011年開始,“讀光團(tuán)隊(duì)”為視障群體提供文字識(shí)別服務(wù)。不過(guò),很多盲人朋友反饋依然存在理解障礙和錯(cuò)誤的情況。

永攀解釋說(shuō),淘寶的圖片版式包括了廣告圖、商品圖、表格圖、圖文注解圖等,不同頁(yè)面的閱讀方式差異很大,絕不僅是把所有文字從左到右、從上到下閱讀一遍這么簡(jiǎn)單。這就需要研究將文字以合理的順序進(jìn)行組織后,為視障人士閱讀,幫助他們正常理解。

團(tuán)隊(duì)一邊與浙江大學(xué)、中國(guó)殘聯(lián)合作,共同研究商品圖片無(wú)法被視力殘疾人閱讀的問(wèn)題,一邊邀請(qǐng)盲人測(cè)試者參與研發(fā)。

2019年,“讀光團(tuán)隊(duì)”開始研發(fā)和落地版式分析和閱讀順序的深度學(xué)習(xí)技術(shù),盲人商家小峰參加了無(wú)障礙工作組的測(cè)試,并以團(tuán)隊(duì)成員的身份參與到優(yōu)化讀光OCR的文本語(yǔ)序識(shí)別算法的工作中。

“對(duì)普通人來(lái)說(shuō),新興互聯(lián)網(wǎng)技術(shù)的發(fā)展很多時(shí)候發(fā)揮著錦上添花的作用,但對(duì)盲人而言,具備著雪中送炭的意義,實(shí)實(shí)在在的幫助我們回歸社會(huì)、融入社會(huì)、參與社會(huì)。”小峰感慨。

截至2019年,數(shù)十萬(wàn)視障人士因?yàn)椤白x光”團(tuán)隊(duì)的努力,在淘寶享受著足不出戶,購(gòu)遍全球的互聯(lián)網(wǎng)新生活。2019年雙11期間,淘寶對(duì)“盲道”進(jìn)行升級(jí)后,視障人士在實(shí)現(xiàn)無(wú)障礙購(gòu)物的基礎(chǔ)上,首次可以用手機(jī)在雙11參加游戲互動(dòng)體驗(yàn),并得到更多實(shí)惠。

在數(shù)字時(shí)代主動(dòng)尋找未來(lái)的光

2019年底,阿里達(dá)摩院與阿里安全成立聯(lián)合實(shí)驗(yàn)室,讀光團(tuán)隊(duì)與阿里安全圖靈實(shí)驗(yàn)室實(shí)現(xiàn)了“握手”。

事實(shí)上,在日常平臺(tái)治理的業(yè)務(wù)中,兩個(gè)團(tuán)隊(duì)早已并肩戰(zhàn)斗多年,聯(lián)合實(shí)驗(yàn)室的負(fù)責(zé)人薛暉與永攀更是老相識(shí)了。

兩人同畢業(yè)于浙江大學(xué)光電系,永攀是薛暉隔壁實(shí)驗(yàn)室的師妹,永攀所在的實(shí)驗(yàn)室為嫦娥四號(hào)探測(cè)器提供了的相機(jī)光學(xué)技術(shù),讓嫦娥四號(hào)向地球順利傳回世界上第一張近距離拍攝的月背影圖像。

在隔壁實(shí)驗(yàn)室技術(shù)“上了天”的時(shí)候,薛暉正在阿里安全死磕AI圖像識(shí)別技術(shù),將其落地應(yīng)用在線下新零售場(chǎng)景中,兩人開玩笑地說(shuō)這樣的場(chǎng)景恰好印證了人工智能“上天入地”的說(shuō)法。

如今,兩人的愿景是讓高精尖的視覺技術(shù)在更多場(chǎng)景中落地。

“這個(gè)聯(lián)合實(shí)驗(yàn)室要在數(shù)字化浪潮下,開拓‘AI+辦公’、‘AI+教育’等新模式,為新基建鑄就城墻;在技術(shù)上要以建設(shè)高效、通用、安全的OCR系統(tǒng)為抓手,聚焦小樣本學(xué)習(xí)、遷移學(xué)習(xí)與領(lǐng)域自適應(yīng)、模型可解釋性研究、對(duì)抗魯棒性等課題,探索下一代人工智能技術(shù),為新基建構(gòu)建安全的技術(shù)底座,這也是阿里提出的新一代安全架構(gòu)的核心理念?!毖煘閳F(tuán)隊(duì)規(guī)劃出了大的方向,接下來(lái)團(tuán)隊(duì)的重點(diǎn)將聚焦在圖片、視頻治理和辦公數(shù)智化兩個(gè)方面。

薛暉說(shuō),人們?cè)谌粘?吹降氖乔謇示W(wǎng)絡(luò)空間,這背后其實(shí)是安全算法團(tuán)隊(duì)與違法違規(guī)圖片視頻的持續(xù)對(duì)抗。而OCR技術(shù)具有非常強(qiáng)的辦公屬性,如財(cái)務(wù)票據(jù)報(bào)銷、文件電子化、證件審核等,未來(lái)的辦公數(shù)智化解決方案可以輻射金融、司法、教育、醫(yī)療等行業(yè),將人們從機(jī)械的、重復(fù)性的工作中解脫出來(lái)。

“我們想要兩條線推進(jìn),為OCR技術(shù)找到對(duì)業(yè)務(wù)、社會(huì)真正有價(jià)值的新方向。”永攀說(shuō),疫情中興起的非接觸式會(huì)議和教學(xué)已經(jīng)證明,AI技術(shù)已經(jīng)改變了傳統(tǒng)的內(nèi)容生成方式。

這也是“合并”賦予讀光OCR團(tuán)隊(duì)的新意義:不僅要讀光、追光,更要在數(shù)字時(shí)代主動(dòng)尋找未來(lái)的光。

作者:尹子璇來(lái)源:獵云網(wǎng)

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-07-05
阿里的追光者:每天為數(shù)億張圖片把脈幫數(shù)十萬(wàn)盲人“聽圖”
7月3日?qǐng)?bào)道聽取顧客發(fā)來(lái)的評(píng)論意見、發(fā)布最新制作的商品介紹圖片,這是淘寶店主小峰5年來(lái)每天起床后必做的兩件事。來(lái)自浙江的小峰自幼雙目失明,2015年在淘寶開了一家專賣電子產(chǎn)品的店鋪。

長(zhǎng)按掃碼 閱讀全文