全民參與、十萬機構、百萬搜索詞:百度打響公立機構官網保護戰(zhàn)

提起城市中熟悉的醫(yī)院,相信大家會脫口而出一連串諸如“某某三院”、“某軍某院”、“幾零幾醫(yī)院”等一系列名字。我們很容易發(fā)現(xiàn),其實我們所熟悉的醫(yī)院名字基本都是俗稱、簡稱。除去這些,還有些全國知名醫(yī)院的俗稱幾乎讓人摸不著頭腦:例如因為房頂是紅色所以被稱為“紅房子醫(yī)院”的復旦大學婦產科醫(yī)院和一直用著曾用名“南京皮研所”的中國醫(yī)學科學院皮膚病醫(yī)院。

有時仔細想想,會發(fā)現(xiàn)很多時候我們只知道這些醫(yī)院的俗稱、簡稱,而不知道他們的全名。對于那些跨省就醫(yī)的人來說,更是很難分辨信息。而被這些復雜名稱弄糊涂的,不僅僅有普通人,還有搜索引擎。

此前百度已經對超過21000家公立醫(yī)院實行了品牌保護。在百度中搜索這些公立醫(yī)院的全稱時,搜索結果的第一位是這些公立醫(yī)院的官方網站。百度希望以此來保證搜索用戶可以準確地找到自己想找的公立醫(yī)院。

但問題很快出現(xiàn)了:在搜索公立醫(yī)院時,很多用戶不知道這些醫(yī)院的全稱,或者習慣性地使用民間稱呼去搜索,導致有可能無法準確找到自己真正想要就醫(yī)的醫(yī)院官網。

如何確保用戶在不搜索全稱的情況下也能準確搜索到自己想找的公立醫(yī)院?百度必須盡可能全面地統(tǒng)計不同公立醫(yī)院的簡稱、俗稱。在沒有現(xiàn)成統(tǒng)計數據的情況下,百度開始嘗試“集思廣益”。先是百度內部員工開始收集提交自己所知道的醫(yī)院俗稱,接下來又號召身邊的親戚朋友收集信息。

來自全國的公立醫(yī)院資料被陸陸續(xù)續(xù)地匯總起來。但很快百度又發(fā)現(xiàn),很多用戶會從自己理解角度去“創(chuàng)造”出一些搜索關鍵詞,光靠百度自己的力量,很難實現(xiàn)對于這些關鍵詞的全面覆蓋。于是百度干脆發(fā)動了群眾的力量,對外公開收集信息,并在雙微上打開溝通窗口。得來的信息,也要根據衛(wèi)健委的名單反復核驗,甚至去實地走訪。

目前,百度已經為超過3萬家公立醫(yī)院、14.5萬個詞條(包括全稱詞、簡稱詞、俗稱詞、變體詞)提供保護,覆蓋率高達99%。

這一場“名稱之戰(zhàn)”,才剛剛吹響戰(zhàn)歌。

公立機構官網保護:以權威之名

實際上,除了公立醫(yī)院之外,學校、景點、政府機關等公立機構都會面對類似的問題。百度“公立機構官網保護計劃”正是為解決這些問題而生。通過該計劃,網民在百度搜索政府機關、事業(yè)單位等公立機構時,百度將優(yōu)先展示經過認證的公立機構官網或相關信息,并對搜索結果標注官方認證標識。

截至目前,百度“公立機構官網保護計劃”已引入超過10萬家公立機構官網,涉及700萬個搜索詞,覆蓋了政府機關、事業(yè)單位、醫(yī)院、殯儀館、學校、博物館、景區(qū)等公立機構,未來覆蓋范疇還將持續(xù)增加。

為什么執(zhí)著于做公立機構的官網保護?如果把搜索引擎比作一個碼頭,聚集來的人們有著不同的目的地。有人想要知道某一座城市的天氣,有人想要知道某一位明星的信息。但最“古老”同時又需求量極大的目的地,一定是“尋址需求”,幫助用戶找到權威官方網站發(fā)布的內容或正確的地址。換句話說,就是為用戶提供權威信息,保證能讓他們搭乘上安全的船只,去往正確的方向。

但“保證權威”這件事并沒有想象中那么簡單。搜索引擎的應用率越高、用戶量越大,人與計算機之間思維模式的差異就愈發(fā)凸顯。對于人類來說,建立在自己常識累積之上,可以對信息的正確與否進行一個基本的判斷。但對于計算機來說,所有信息都是0和1的字符,同時也很難通過交互徹底理解搜索者的意圖。計算機本身沒有辨別權威的能力,那么人類是否能夠按照計算機的思維邏輯,建立出一套識別體系來?

答案是確定的。

為了保證搜索的權威性,百度多年來摸索出了一套適合自己的“權威性AI系統(tǒng)”,通過“基礎數據+搜索策略+前端展現(xiàn)”等手段,來保證公立機構官網的優(yōu)先呈現(xiàn)。

首先,作為搜索引擎,百度的爬蟲系統(tǒng)和日志系統(tǒng)會盡可能地窮盡網絡上的海量信息數據,包括從網站的標題、內容、圖片、音視頻到網頁間的鏈接指向關系等,并通過人工智能、大數據等手段,進一步分析各類數據中內外部之間的關聯(lián)信息。

其次,在數據之上,百度通過自研的各種策略,進一步過濾清洗數據,降低互聯(lián)網中不良數據對各類搜索效果的影響,同時進一步建立圍繞官網識別和排序的自動化策略,當用戶發(fā)起搜索需求時,百度會將相關官網的信息優(yōu)先展現(xiàn)出來。

舉例來講,當用戶搜索“蘋果手機電池維修”時,更傾向于瀏覽蘋果官網中的內容,而不是和關鍵詞匹配度更高的內容。從人類思維的角度來看,多半是因為人們普遍認為在官方渠道修理手機更加安全保險。當百度通過數據識別到這種特殊情況,就會制定出專門的策略,讓官網內容優(yōu)先顯示,以更好地滿足用戶需求。

最后,在前端展現(xiàn)上,百度通過對公立機構官網增加“官網”標志、優(yōu)先展示等方式,來讓用戶更放心地點擊進入官網。

由此我們可以清晰地看到百度在增強搜索權威性時采取的邏輯:通過豐富的用戶行為累積,結合強大的數據分析能力,把人的經驗轉換成計算機的智能行為準則。也就是說在建立權威性AI系統(tǒng)的過程中,龐大的數據累積、強大的數據分析能力和AI構建能力都是缺一不可的。

全民參與“名稱之戰(zhàn)”

但技術并非萬無一失,“權威性AI系統(tǒng)”也會遇上難題。

比較明顯的例子,是前文提到的用戶搜索習慣問題,不同地域的人們有著對本地機構豐富的俗稱、簡稱,光靠百度自己的能力很難把這些關鍵詞統(tǒng)統(tǒng)收錄起來。

另外一個難點,存在于各種公立機構官網本身的的不規(guī)范性。很多公立機構在建站時完全依靠外包系統(tǒng),自身又缺乏互聯(lián)網方面的常識。有時會出現(xiàn)頻繁變更域名,又不在原來域名基礎上做定向跳轉的情況。這樣一來,即使是AI系統(tǒng)也很難識別出域名變化,無法進一步幫助官網進行保護。

更別說封禁IP和Robots聲明這樣的問題了——個別官網本身不允許搜索引擎進行抓取和收錄,或是封禁了搜索的IP。對于百度這樣的搜索引擎來說,不論是官網網址本身還是官網里面的內容,都無法呈現(xiàn)給用戶。

在重重困難面前,百度仍然在借助技術手段,不斷優(yōu)化基礎數據和搜索策略、前端展現(xiàn)等環(huán)節(jié),盡力提升搜索體驗。因為不論搜索引擎從PC進化到移動端,還是像今天這樣打開語音交互的入口,用戶對于權威信息的需求是從未改變的,這也是“名稱之戰(zhàn)”最需要獲得的戰(zhàn)果。

但顯然,想要獲得這一戰(zhàn)果,僅憑改善技術是不足夠的。百度也開始尋求一種新的方式,來引入更多社會公眾的力量。百度“公立機構官網保護共建平臺”誕生了。

當你搜索的公立機構官網不在百度保護之列,可以登陸“百度公立機構官網保護共建平臺”進行反饋和數據提交,經百度審核通過后,該公立機構官網即可在搜索結果中給予官網認證、置頂和廣告避讓。

這場全民參與的“名稱之戰(zhàn)”,顯然比僅憑一己之力來得效率高?!肮C構官網保護共建平臺”上線僅一個月,就收到了來自600多位用戶提交的748個網站數據,覆蓋了1674個不同搜索名稱。經審核后,最終上線了662個有效官網,包含1249個“常用名稱”。

世界,與科技一起進化

隨著科技互聯(lián)網的普及,科技產品與人們的生活已經連接的非常的緊密。對于用戶來說,科技產品讓他們獲得了豐富的信息和便利的服務,在未來還會關系到他們的出行、教育、金融、政務等等。在這樣的全面覆蓋之下,即使是一個小小的保護用戶權益的舉措,也能為整個社會帶來巨大的價值。

除了百度自己在加強搜索引擎的權威性以外,我們也能看到很多企業(yè)在做著相同的努力:智能音箱正在加入越來越多的障礙人士友好功能、AI技術可以幫助人們識別出聽障人士的手語、大量級的互聯(lián)網平臺開始向公益事業(yè)輸送流量……優(yōu)化自己的業(yè)務,也間接改變了世界的模樣。

但是從百度公立機構官網保護計劃的案例中,我們也有了新的發(fā)現(xiàn)。科技互聯(lián)網產品本身擁有強大的連接性,也正因如此,僅僅憑借科技企業(yè)本身,不能完全實現(xiàn)對用戶權益的保護。

相信類似的問題絕不僅僅發(fā)生在搜索引擎中??萍颊诎颜麄€世界以一種不可想象的方式捏合在一起,為了讓這種組合更加安全和牢靠,僅僅依靠科技產業(yè)自己的努力是不夠的。被組合在一起的每一份子,都有去參與和改變的責任。

整個世界的滾滾向前,也就在每一份子的微小改變中被推動著。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-10-09
全民參與、十萬機構、百萬搜索詞:百度打響公立機構官網保護戰(zhàn)
但問題很快出現(xiàn)了:在搜索公立醫(yī)院時,很多用戶不知道這些醫(yī)院的全稱,或者習慣性地使用民間稱呼去搜索,導致有可能無法準確找到自己真正想要就醫(yī)的醫(yī)院官網。

長按掃碼 閱讀全文