證監(jiān)會(huì)攜手庖丁科技 賦能資本市場(chǎng)前線監(jiān)管

近日,庖丁科技中標(biāo)證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡(jiǎn)稱“深交所”)——“證券文本信息抽取技術(shù)研究”項(xiàng)目,以證券市場(chǎng)文本信息為對(duì)象,研究利用自然語言處理技術(shù),從披露公告中抽取指定的文本信息,并且滿足具有一定技術(shù)性能指標(biāo)要求的課題。

證監(jiān)會(huì)攜手庖丁科撫???AIOi1i+iDvei1hOacrOW4guWcuuWJjee6v+ebkeeuoQ=="/>

資本市場(chǎng)上,信息披露作為法規(guī),通常要求信息披露義務(wù)人“應(yīng)當(dāng)真實(shí)、準(zhǔn)確、完整、及時(shí)地披露信息”。我國上市公司信息披露的內(nèi)容大體可分為三類:證券發(fā)行文件、定期報(bào)告和臨時(shí)報(bào)告。

上市公司的公告信息披露必須在指定信息披露網(wǎng)站發(fā)布,主要為PDF格式。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇,隨著上市公司數(shù)量日益增多,這一數(shù)字也會(huì)逐年增加,不但為深交所的合規(guī)檢查帶來壓力,也給投資者帶來極大的信息負(fù)載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中通過自然語言處理、深度學(xué)習(xí)等技術(shù)將公告信息結(jié)構(gòu)化提取成為關(guān)鍵所在。

庖丁科技透露,現(xiàn)正在持續(xù)而堅(jiān)定地推進(jìn)該項(xiàng)工作:首先通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)公告中的段落表格等信息進(jìn)行分割抽取。為了適應(yīng)樣本數(shù)量稀少的問題,他們還提出了一種輕量級(jí)的機(jī)器學(xué)習(xí)方法。該方法能夠高效地將不同類別公告的關(guān)鍵語句抽取出來,并使之具有在線學(xué)習(xí)的能力,抽取過程僅需公告制作業(yè)務(wù)專家對(duì)少量公告進(jìn)行標(biāo)注,即可達(dá)到可用效果。關(guān)鍵語句抽取后,再通過LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行細(xì)粒度提取,從而將公告結(jié)構(gòu)化。目前,庖丁科技對(duì)并購重組公告的結(jié)構(gòu)化抽取的工作已取得較為理想的結(jié)果,提升了深交所監(jiān)管工作的效率。這項(xiàng)工作的探索不僅為擴(kuò)展更多公告類型奠定基礎(chǔ),也為其他類型文本處理帶來了寶貴經(jīng)驗(yàn)。

“利用非結(jié)構(gòu)化信息抽取技術(shù),我們能夠把隱藏在海量公開公告中企業(yè)與企業(yè)、企業(yè)與個(gè)人關(guān)系進(jìn)行深度挖掘,并且透視、洞察企業(yè)的價(jià)值及風(fēng)險(xiǎn)。作為國內(nèi)擁有世界領(lǐng)先的金融文本信息抽取技術(shù)、有能力利用深度學(xué)習(xí)和金融知識(shí)庫進(jìn)行高精度的結(jié)構(gòu)化信息提取的先進(jìn)團(tuán)體。”庖丁科技表示,未來將繼續(xù)全力服務(wù)金融行業(yè),助力金融機(jī)構(gòu)進(jìn)一步提升服務(wù)實(shí)體經(jīng)濟(jì)的能力。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-11-16
證監(jiān)會(huì)攜手庖丁科技 賦能資本市場(chǎng)前線監(jiān)管
近日,庖丁科技中標(biāo)證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡(jiǎn)稱“深交所”)——“證券文本信息抽取

長(zhǎng)按掃碼 閱讀全文