“如果機器在某些現實的條件下,能夠非常好地模仿人回答問題,讓提問者在相當長時間里誤認它不是機器,那么機器就可以被認為是能夠思維的。”
—— 阿蘭·圖靈
人機對話是人類對人工智能最初的設想,也一直是人工智能領域的目標之一。
即使我們經常聽到“這個問題我還沒有學會”,但是不可否認,人工智能已經基本實現”可以說話”了。那么,機器人是怎樣學習的呢?這就需要提到人工智能需求下誕生的一個新職業(yè),也是人工智能背后的“隱形者”——數據標注專員。
眾所周知,我們教小孩子認識海豚,就要拿海豚的圖片告訴他,這是海豚。久而久之,他記住了海豚的特征,當他去動物園看到了海豚,就知道那是海豚。類比機器人,為了讓機器人“像人一樣說話”,我們先要教它學習,通過大量的學習之后,它才能對事物做出分辨。
在AI領域,教機器人學習必須有大量的訓練集和測試集,訓練集通俗說就像是我們學習時做的習題集,測試集像我們考試做的試題。測試集和訓練集里的數據必須是支持算法可用的標注數據,而將采集的原始數據變成算法可用數據的過程叫做“數據標注”。即對采集來的文本、圖片、語音數據進行梳理、整理、定性的過程。而數據標注專員就成了為人工智能的發(fā)展供應重要且源源不斷的“數據燃料”的人。
云知聲就有一個龐大的數據標注團隊從事數據服務工作,并且,僅有的數據標注團隊還在云知聲的東南總部廈門公司哦。團隊的小伙伴幾乎每天默默戴著耳機對著電腦7-8小時,真的是此處無聲勝有聲!
數據標注是一項重復且繁瑣的工作,如果把人工智能比作金字塔,最頂端的是人工智能應用(比如機器人、無人駕駛等),而最底端的則是數據服務,數據服務既是根基,也是人工智能必要且必不可少的一環(huán)。
數據標注工作真的像是工廠里的流水線操作嗎?只是重復性地對數據進行標注嗎?
云知聲數據標注團隊的負責人許建說,目前人工智能領域對于數據采集和標注的需求量非常大,數據采集后首先進行數據清洗,清洗之后才是數據標注,標注要求盡可能地詳盡、清楚,最后的審查階段對標記的數據進行正確率、精確度、完備性等方面的審查。實際是,數據質量會影響到算法效果,一旦標注人員出現了錯誤,也會影響到機器犯錯。
目前主要有語音、圖像、文本、視頻數據的采集標注。云知聲日常所涉及的是語音的標注,與智能產品進行語音交互和我們平時與人的交流對話相似,在生活中,你可能突然問你身邊的人,“小云,現在幾點了”,“現在3點十五分”,“小云”就是喚醒詞,“現在幾點了”就是命令詞,喚醒詞和命令詞均要采集。為了讓即便帶有背景嘈雜聲、或是略帶方言口音也能準確識別,這背后有一個數量龐大的數據訓練集支撐。每個語音命令需要采集至少100人的語音數據,既要羅列出所有可能的句子,又要搜集盡可能多的人不同的說話方式,覆蓋到地域、性別、各年齡段。
比如我們的PandoraA1客房智能管家,當查詢酒店服務時,就有多種表達方式,“提供什么服務”、“包括哪些服務”、“有哪些服務”、“有什么服務”等。同時,會有嚴格的性別、年齡段、口音采集人數占比,以保證最終的精準識別。
對每一個采集的詞句,都要做到精細標注,采集的語音需要符合相應的技術要求,標注的時間點要精準控制在100毫秒以內。數據標注的速度決定了AI 產品的研發(fā)速度,提高標注的效率也就顯得很重要。
為了配合數據標注團隊的工作廈門展廳還藏著一個神秘的聲學實驗室,這里可以說是整個公司最安靜的地方了。
聲學實驗室的主要用途是采集原始聲音數據,為了貼近產品實際使用場景,整個裝修布置符合家居場景。
實驗室采用減振隔聲墻體,房間被墻體隔開,墻面、吊頂與外部房間沒有任何剛性連接,完全與外界隔絕。墻內的吸聲材料主要由多孔的玻璃纖維板組成,具有較好的聲音吸收能力,除了吸聲材料外,聲學實驗室四周還布置了窗簾,可以讓聲音充分擴散,使整個空間內的聲場均勻分布。地板采用的是地磚和吸聲地毯,實現實驗室與建筑基座的分隔,無反射和回聲。
聲學實驗室內五臟俱全—標準麥克風、高保真音箱、聲卡……應有盡有。
許建說,為了達到設備在實際應用場景中達到最優(yōu)效果,在聲學實驗室采集時就要模擬真實環(huán)境,需要覆蓋不同的噪音、信噪比、距離和角度。
為了保證支持遠講的語音產品出廠前的效果,在前期的采集階段就要把產品在實際應用中受到的噪音干擾和不同距離、角度的聲音效果考慮進去。
像我們有些設備是支持5米遠講識別的,就要求錄音人距離錄音設備一米、三米、五米距離的錄音數據,同時會設置0°、-30°、-60°等不同角度的設備疊加采集。經常在采集的過程中根據場景需要加入音樂噪聲、電視噪聲、辦公噪聲、室外噪聲等,模擬出真實場景的噪音干擾。
人工智能的發(fā)展,催生了數據標注這個新職業(yè),隨著人工智能大規(guī)模的落地應用,至少在未來的五六年內,人工智能像是一個嗷嗷待哺的嬰兒,等待著數據的喂養(yǎng)。數據標注專員賦予冷冰冰的機器以鮮活的“生命”,教他們我們的知識,讓他們變得有“溫度”。
- 抖音封禁汪小菲賬號引熱議,哪吒客服遭曝光,網絡文明需共建
- 三星中國換帥:崔勝植黯然退場,李大成能否翻盤引人關注
- Steam Machine前景不明,AMD合作驅動改進成疑,Valve如何應對?
- OpenAI疑似數據泄露,用戶隱私岌岌可危,公司緊急調查
- Meta被指大規(guī)模下載盜版電子書用于AI模型訓練,侵犯知識產權引爭議
- 車市重燃價格戰(zhàn):開年車市“卷瘋”了,消費者迎來購車新格局
- 寶駿汽車深度融合新技術,DeepSeek助力汽車駛向未來
- 哪吒汽車客服錄音風波:車主怒懟下爆粗口辱罵,公司道歉引熱議
- 索尼集團高層變動:十時裕樹接棒成為新CEO,重塑公司管理架構
- iPhone神話在華失寵:銷量下滑,市場份額萎縮,時代變遷?
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。