慧科訊業(yè)AI實(shí)驗(yàn)室文本摘要技術(shù)奪冠

第七屆國際自然語言處理與中文計(jì)算大會(huì)(NLPCC 2018)“單文本摘要”技術(shù)評(píng)測結(jié)果公布,慧科訊業(yè)AI實(shí)驗(yàn)室(Wisers AI Lab)以其專有的自動(dòng)摘要技術(shù)從來自世界各地學(xué)術(shù)界與業(yè)界共18支隊(duì)伍中脫穎而出,成功獲得第一名。

隨著近些年信息的爆發(fā)式增長,人們每天能接觸到海量的文本信息,如新聞、博客、聊天、報(bào)告、論文、微博等。從大量文本信息中提取重要的內(nèi)容,已成為我們的一個(gè)迫切需求,而自動(dòng)文本摘要?jiǎng)t提供了一個(gè)高效的解決方案。單文本自動(dòng)摘要技術(shù)通過使用計(jì)算機(jī)軟件及其底層分析算法自動(dòng)從原始文本中創(chuàng)建一個(gè)簡明、全面且反映該文章核心思想的摘要,從而輔助人們實(shí)現(xiàn)大量信息的快速閱讀與檢索。甚至更進(jìn)一步,可以通過在單文本自動(dòng)分析的基礎(chǔ)上分析多文本,實(shí)現(xiàn)對(duì)同一事件不同報(bào)道的多維度、多角度自動(dòng)文摘。

慧科訊業(yè)(Wisers)奪冠的自動(dòng)文本摘要技術(shù)使用人工智能(AI)與自然語言處理(NLP)技術(shù),支持中英文跨語言自動(dòng)文章摘要,采用無監(jiān)督式摘要生成技術(shù),不依賴于訓(xùn)練數(shù)據(jù),可勝任各類文本的自動(dòng)摘要。

該技術(shù)包含兩個(gè)重要模塊。第一個(gè)內(nèi)容分析模塊自動(dòng)分析文本的話題大意,利用統(tǒng)計(jì)學(xué)和語言學(xué)特征,識(shí)別出文本中最精確且全面地涵蓋文本討論主題的重要語句。

第二個(gè)摘要編輯模塊,通過精心設(shè)計(jì),不僅解決了提取式摘要技術(shù)通常因簡單提取句子并拼接所造成的上下文不連貫問題,同時(shí)也克服了生成式摘要技術(shù)產(chǎn)出句子可讀性差的問題。

慧科訊業(yè)奪冠技術(shù)的秘訣在于:

·通過內(nèi)容分析與識(shí)別檢測并糾正摘要中不清晰的指代表述(例如代詞等)和不完整語段(例如編號(hào)不完整的列舉項(xiàng)等);

·通過文本去噪和句子壓縮確保最終生成摘要的簡潔度、流利性與可讀性;

·集成了基于深度學(xué)習(xí)和語義嵌入模型的垃圾廣告過濾與話題分割技術(shù),以保證最終摘要的信息多樣性和清潔度。

慧科訊業(yè)AI實(shí)驗(yàn)室自動(dòng)文本摘要技術(shù)自2018年1月起已在慧科訊業(yè)產(chǎn)品后臺(tái)廣泛應(yīng)用,支持日常數(shù)據(jù)管理與運(yùn)營。

除獲得自動(dòng)文本摘要評(píng)測第一名之外,慧科訊業(yè)AI實(shí)驗(yàn)室的自動(dòng)話題分類技術(shù)也在第七屆國際自然語言處理與中文計(jì)算大會(huì)(NLPCC 2018)“知乎問題自動(dòng)標(biāo)注”技術(shù)評(píng)測的16支參賽隊(duì)伍中名列前四。該評(píng)測任務(wù)旨在對(duì)任意未先指定的知乎問題從超過2萬5千多個(gè)可選標(biāo)簽集中自動(dòng)判斷話題分類?;劭朴崢I(yè)的自動(dòng)話題分類技術(shù)采用了基于語義向量模型與深度學(xué)習(xí)相結(jié)合的集成學(xué)習(xí)技術(shù);并且透過高效定制化工具,可快速支持話題擴(kuò)展。

國際自然語言處理與中文計(jì)算大會(huì)(NLPCC)是由中國計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專業(yè)委員會(huì)(CCF TCCI)組織的專注于自然語言處理和中文計(jì)算技術(shù)領(lǐng)域的一流國際會(huì)議。參加者包括來自世界各地自然語言處理和中文計(jì)算領(lǐng)域的專家和學(xué)者。今年第七屆年會(huì)NLPCC 2018將于2018年8月26日至30日在中國呼和浩特舉行。

NLPCC評(píng)測單元涵蓋自然語言處理和中文計(jì)算領(lǐng)域中各種經(jīng)典和新興的重要課題,受到學(xué)術(shù)界和業(yè)界的廣泛歡迎和參與。本屆評(píng)測任務(wù)于2018年1月份公布并開始接受報(bào)名,3月份正式啟動(dòng),4月底提交結(jié)果,5月份結(jié)束。每個(gè)評(píng)測任務(wù)統(tǒng)一給參賽隊(duì)提供一份供算法開發(fā)的訓(xùn)練數(shù)據(jù)集,之后由評(píng)測任務(wù)組織者根據(jù)嚴(yán)格設(shè)計(jì)的測試數(shù)據(jù)集和性能指標(biāo)對(duì)每個(gè)參賽隊(duì)提交的解決方案進(jìn)行評(píng)估并排名。

慧科訊業(yè)AI實(shí)驗(yàn)室(Wisers AI Lab)2014年7月成立于香港,專注于以人工智能技術(shù)解決中文全媒體資訊自動(dòng)化分析與大數(shù)據(jù)情報(bào)挖掘,于2016年4月成功獲取香港特別行政區(qū)政府逾八百五十萬港幣創(chuàng)新科技基金。團(tuán)隊(duì)由畢業(yè)于國際知名院校的AI及計(jì)算語言學(xué)專家組成。所有成員均擁有碩士以上學(xué)位,其中35% 的成員擁有博士學(xué)位。

慧科訊業(yè)AI實(shí)驗(yàn)室文本摘要技術(shù)奪冠

慧科訊業(yè)AI實(shí)驗(yàn)室自主研發(fā)的,面向?qū)嶋H應(yīng)用、開放領(lǐng)域、多元化數(shù)據(jù)的AI分析技術(shù)全面涵蓋自動(dòng)化媒體情報(bào)處理與挖掘的各個(gè)層面,既包括基于文本分析的實(shí)體識(shí)別,關(guān)系提取,話題分類,情感分析和事件檢測追蹤等技術(shù),也包括基于圖像分析的品牌標(biāo)識(shí)和人臉識(shí)別技術(shù)。以上技術(shù)均可以在慧科訊業(yè)AI實(shí)驗(yàn)室提供的實(shí)時(shí)技術(shù)演示中獲得體驗(yàn)。

慧科訊業(yè)有限公司(Wisers Information Limited)是全球領(lǐng)先的全媒體大數(shù)據(jù)智能商業(yè)情報(bào)專家,憑借20年累積的數(shù)百億海量媒體數(shù)據(jù),先進(jìn)的人工智能技術(shù),以及科學(xué)的分析模型體系,為全球超過2500家客戶提供創(chuàng)新的產(chǎn)品服務(wù)和解決方案,助力企業(yè)及各類機(jī)構(gòu)做出明智決策。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-08-22
慧科訊業(yè)AI實(shí)驗(yàn)室文本摘要技術(shù)奪冠
第七屆國際自然語言處理與中文計(jì)算大會(huì)(NLPCC 2018)“單文本摘要”技術(shù)評(píng)測結(jié)果公布,慧科訊業(yè)AI實(shí)驗(yàn)室(Wisers AI La

長按掃碼 閱讀全文