2019年9月份開始,一部分大數(shù)據(jù)公司在用戶不知道的情況下通過網(wǎng)絡爬蟲爬取個人隱私數(shù)據(jù),監(jiān)管機構針對大數(shù)據(jù)風控行業(yè)進行了一場聲勢浩大的合規(guī)檢查,數(shù)家大數(shù)據(jù)公司被協(xié)助調(diào)查甚至直接被查封。這場風暴,讓整個大數(shù)據(jù)行業(yè)如履薄冰,很多人近日談爬蟲色變。
據(jù)了解,互聯(lián)網(wǎng)上 超過50%以上的流量都是爬蟲創(chuàng)造的,爬蟲本身只是互聯(lián)網(wǎng)中常見的一種工具,例如我們用的搜索引擎,還有很多熱門數(shù)據(jù)都是通過高性能的爬蟲,才能有效地為用戶提供更好的服務,技術是中立的,其實并不存在非法的性質。
另一方面,國家十三五規(guī)劃綱要在2016年出臺時,就提出將在 2020 年把大數(shù)據(jù)產(chǎn)業(yè)做到一萬億產(chǎn)值。雖然國內(nèi)的大數(shù)據(jù)行業(yè)還處于初級階段,但每家金融機構潛在的大數(shù)據(jù)資源非常豐富,只是很多數(shù)據(jù)在企業(yè)內(nèi)部是分散的、凌亂的、沒有體系化的數(shù)據(jù),屬于破解等待發(fā)掘的“金礦”。
那么,在這種背景下,如何有效利用合規(guī)數(shù)據(jù),避免違規(guī)陷阱呢?如何在監(jiān)管機構允許的數(shù)據(jù)隱私保護條例下,將外部的合規(guī)數(shù)據(jù)與企業(yè)內(nèi)部的數(shù)據(jù)內(nèi)外結合,形成高價值的“大數(shù)據(jù)資產(chǎn)”呢?如何基于數(shù)據(jù)打造自己的獨特核心競爭力呢?這就涉及一個金融機構的數(shù)據(jù)戰(zhàn)略問題:如何有效利用合規(guī)數(shù)據(jù),避免違規(guī)陷阱?這就需要我們對爬蟲和數(shù)據(jù),有個系統(tǒng)的了解與準確的認識。
一、網(wǎng)絡爬蟲是什么?有哪些價值?
網(wǎng)絡爬蟲又稱網(wǎng)絡機器人、網(wǎng)絡蜘蛛,是互聯(lián)網(wǎng)時代一項運用非常普遍的網(wǎng)絡信息搜索技術。爬蟲的本質是一種能自動獲取網(wǎng)頁信息并按照指定規(guī)則提取相應內(nèi)容的程序。一個最簡單的例子,我們經(jīng)??吹慕袢疹^條、微博等,其新聞資訊大都來源于對合作媒體及相關網(wǎng)頁采取的爬蟲。通過網(wǎng)絡爬蟲,可以將互聯(lián)網(wǎng)各個角落收集來的信息,匯總后再進行分類、排序,梳理出熱點新聞,實現(xiàn)及時、動態(tài)更新推送。
在金融行業(yè),以網(wǎng)絡爬蟲為基礎獲取合規(guī)數(shù)據(jù),進而基于人工智能機器學習、NLP、知識圖譜等技術,可以發(fā)揮高價值的應用場景主要包括:
1、精準營銷領域:通過采集用戶消費行為數(shù)據(jù),分析和用戶消費偏好,形成千人千面的“用戶畫像”,進而有針對性的推送商品、促銷、廣告等行為,提升營銷效果。
2、風險控制領域:基于大數(shù)據(jù)、云計算、機器學習、知識圖譜等技術,把網(wǎng)絡采集到的工商、司法等合規(guī)數(shù)據(jù)與自有數(shù)據(jù)結合,挖掘數(shù)據(jù)資產(chǎn)的價值,對企業(yè)及用戶的貸前、貸中、貸后等全領域進行更加準確的評估,最大程度的避免風險、減少損失;
3、輿情監(jiān)測領域:通過爬取網(wǎng)頁、論壇、微博、微信等開放的網(wǎng)絡信息,自動分析出正面積極的或者色情、暴力、負面信息等,提前做風險預警。
二、什么是合規(guī)的數(shù)據(jù)?
一方面,網(wǎng)絡爬蟲技術,極大促進了數(shù)據(jù)資源的流通和變現(xiàn);另一方面,隨著金融、電商等各類場景的數(shù)據(jù)爬取案件頻發(fā),如何將這一“灰色地帶”提上數(shù)據(jù)治理議程已成為非常緊迫的現(xiàn)實問題。
1、哪些是正確的爬法?
2019年10月30日,上海交通大學數(shù)據(jù)法律研究中心執(zhí)行主任、數(shù)據(jù)法盟創(chuàng)始人何淵在2019數(shù)字信用與風控年會暨零壹財經(jīng)新金融秋季峰會上表示,官方的態(tài)度實際上是很明確的,數(shù)據(jù)并不是不能爬,“說得很清楚,收集的時候不能采取妨礙網(wǎng)站的正常運行,甚至有一個尺度,流量不能超過別人網(wǎng)站的1/3”。這個觀點,可以作為一個參考。
2、哪些是違規(guī)的爬法?
通過侵入他人計算機信息安全系統(tǒng)去爬個人信息、國家秘密、商業(yè)秘密以及爬取數(shù)據(jù)導致影響市場競爭秩序的,就構成了違法。
在不能爬什么方面,可以總結為“三全一穩(wěn)定,兩秘密一隱私”。所謂“三全”是指國家安全、公共安全、經(jīng)濟安全;“一穩(wěn)定”指社會穩(wěn)定;“兩秘密一隱私”是指國家秘密、商業(yè)秘密和個人隱私。
2019年12月,上海數(shù)據(jù)治理與安全產(chǎn)業(yè)發(fā)展專委會秘書處與賽博研究院聯(lián)合發(fā)布了《數(shù)據(jù)爬取治理》研究報告,報告里提出,合規(guī)的爬蟲,主要依賴于行為人在數(shù)據(jù)爬取的“訪問進入-數(shù)據(jù)獲取-使用數(shù)據(jù)”三個階段下是否合規(guī)來進行綜合的考量。
其實,在法律方面, 無論是我國的《著作權法》、《反不正當競爭法》、《反壟斷法》、《民法》、《刑法》、《網(wǎng)絡安全法》等,還是歐盟的 GDPR 合規(guī)落地方案,都對數(shù)據(jù)利用是否合規(guī),制定了相應的條款。
總體而言,如果企業(yè)為了謀取自身利益,在未經(jīng)當事人同意的情況下,通過爬蟲軟件爬取了公民的個人信息或者其他禁止類信息數(shù)據(jù),就是不合法的,會受到相關的法律制裁。
三、如何利用合規(guī)數(shù)據(jù),發(fā)揮數(shù)據(jù)資產(chǎn)的價值
目前,數(shù)據(jù)爬取在治理中面臨著不少的挑戰(zhàn),包括:安全與發(fā)展難以平衡,數(shù)據(jù)基本權屬仍無定論,數(shù)據(jù)法制體系尚不完善,行業(yè)性共識規(guī)范缺乏,數(shù)據(jù)壁壘嚴重,數(shù)據(jù)散亂而高質量數(shù)據(jù)較少等困境與難點。但另一方面,國家對人工智能和大數(shù)據(jù)行業(yè),又鼓勵創(chuàng)新,并給予了極大的支持。
在這種背景下,很多金融機構對如何發(fā)掘“數(shù)據(jù)資產(chǎn)”,產(chǎn)生了一定的困惑。
那么,金融機構如何合法的利用各種大數(shù)據(jù)信息,形成有價值的“數(shù)據(jù)資產(chǎn)”呢?在面臨數(shù)據(jù)的采集和使用的壁壘變得越來越高的情況,結合一些領先的金融機構的做法,在東方林語的觀點看來有兩個思路可以借鑒:
首先,可以從三種維度獲取合規(guī)數(shù)據(jù),包括第一種,基于互聯(lián)網(wǎng)的公開合規(guī)數(shù)據(jù)的挖掘;第二種,合法的第三方數(shù)據(jù)源的獲??;第三種,企業(yè)內(nèi)部分散的數(shù)據(jù)的統(tǒng)一整合。如果把這三種數(shù)據(jù)的價值能夠統(tǒng)一梳理整合呈現(xiàn),將會形成自己企業(yè)真正的“有價值數(shù)據(jù)資產(chǎn)”,進而形成基于數(shù)據(jù)的“核心競爭力”。
其次,打造企業(yè)內(nèi)部的“數(shù)據(jù)中臺”,將過往、現(xiàn)有、未來產(chǎn)生的數(shù)據(jù),以及內(nèi)部、外部的數(shù)據(jù)全部打通,繼而再通過通過機器學習、NLP、知識圖譜等領先型人工智能技術,將整合后的數(shù)據(jù)轉化為業(yè)務上可以理解的“數(shù)據(jù)資產(chǎn)”,例如:精準用戶畫像、精準營銷、風險控制、股權穿透、集團派系分析、反洗錢等場景。
總而言之, 通過構建內(nèi)外部數(shù)據(jù)一體的數(shù)據(jù)中臺架構,真正實現(xiàn)大數(shù)據(jù)的融合,再通過“數(shù)據(jù)升級”從而真正實現(xiàn)實體產(chǎn)業(yè)轉型升級,進而建立“與數(shù)據(jù)對話”的分析流程,對內(nèi)實現(xiàn)數(shù)據(jù)的智能服務,對外打造個性化產(chǎn)品和服務,才能真正實現(xiàn)金融機構的數(shù)字化轉型和跨越式發(fā)展!
本文已標注來源和出處,版權歸原作者所有,如有侵權,請聯(lián)系我們。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 萬事達卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長風萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數(shù)智金融未來
- 移動支付發(fā)展超預期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財務收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費用支出
- IMF經(jīng)濟學家:加密資產(chǎn)背后的技術可以改善支付,增進公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國銀行業(yè)祭出限額措施
- 北銀消費金融公司【遠離各類不良校園貸】風險提示
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。