前幾天寫過一篇「哪些職業(yè)容易被機器算法取代」,很多人不以為然:我天天上網(wǎng),怎么沒感到機器算法呢?真那么智能,注冊個賬戶又是密碼又是安全問題兩步驗證,怎么不搞智能一點呢?
現(xiàn)階段的機器算法,并不是指具備高等智能的機器人,也不是有人類情感的仿生人,不過算法確實在我們的生活中發(fā)揮著各種各樣的作用。比如你打開瀏覽器在網(wǎng)上閑逛的時候,你會發(fā)現(xiàn)某個網(wǎng)站的某個廣告會出現(xiàn)一個你心儀品牌的羽毛球鞋的圖片,點進去之后你發(fā)現(xiàn)可以直接購買這款鞋子,出現(xiàn)這樣的推薦是因為你前幾天在這個網(wǎng)站上買了一只同品牌的羽毛球拍。為了學習人工智能,你買了一本《深度學習》,在付款的時候,你會發(fā)現(xiàn)頁面下方會冒出了幾本《機器學習實戰(zhàn)》《Python 機器學習》的書,你忍不住又買了一本……
這就是算法的力量,確切的說,是推薦算法在起作用。
隨著信息技術和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的盲區(qū)走入了信息過載(information overload)的時代。以推薦算法為核心技術的推薦系統(tǒng)憑借其個性化推薦和有效降低信息噪音的特點開始被廣泛使用,比如國外的Google、Facebook 和國內(nèi)的今日頭條。
不過,就像談到程序員和工程師就會想到修電腦的一樣,很多人,尤其是非IT 領域從業(yè)者,對算法的理解游走在「算數(shù)」與「魔法」兩個邊緣,有很大的認知誤區(qū)。下面我主要以內(nèi)容推薦領域的今日頭條和商品推薦領域的亞馬遜為例,跟大家聊聊推薦算法,幫助讀者更好的理解這個時代的互聯(lián)網(wǎng)生活。
誤區(qū)一:推薦算法是根據(jù)用戶點擊率來推薦
這可能算是對算法最大的誤解之一了。
我們經(jīng)常說,推薦算法實現(xiàn)了個性化推薦效果,每個人看到的東西都是不一樣的。這個說法忽略了一個重要的事實:大多數(shù)人喜歡的東西實際上高度類似,比如最火的流行歌曲、最新的明星八卦。
多年前今日頭條出現(xiàn),喊出了你感興趣的才是頭條。門戶網(wǎng)站之所以覺得很平常沒有跟進,也是陷入了算法等于點擊的陷阱—— 按照熱度排新聞,是各大門戶網(wǎng)站早就有的功能,有什么新鮮的呢?
真正能挖掘長尾的個性化推薦,其實是反點擊的,否則很難實現(xiàn)個性化的需求挖掘。系統(tǒng)需要跟進更多的用戶信息維度和多種算法模型來發(fā)現(xiàn)和挖掘長尾需求?!堕L尾理論》曾經(jīng)舉過一個著名的例子。1988年,喬·辛普森寫了一本登山類的書籍《觸及巔峰》,但銷量一直很普通。10年后,另一本講述登山災難的書《進入稀薄空氣》引起了美國出版業(yè)的轟動。亞馬遜發(fā)現(xiàn)有讀者在評價《進入稀薄空氣》時提到了《觸及巔峰》,同時給出了高評價,于是將《觸及巔峰》推薦給了《進入稀薄空氣》的深度讀者。很快,《觸及巔峰》在經(jīng)過十年的慘淡銷量后,獲得了巨大的成功。
實際上,亞馬遜做的事情就是算法推薦現(xiàn)在做的事。推薦過程不僅要考慮用戶的閱讀軌跡,同時還要考慮用戶的性別,年齡,甚至手機機型等信息,同時還要綜合考慮新聞的時效性、以及地理位置等信息對內(nèi)容進行相應推薦。而如果只看點擊(銷量),《觸及巔峰》可能永遠也不會獲得推薦。
誤區(qū)二:冰箱都買完了還推薦冰箱,點了不喜歡還推薦,算法一點都不聰明
假如你的微信只有一個好友聯(lián)系人,會覺得朋友圈好玩嗎?
朋友圈需要更多的好友,算法推薦也需要更多的數(shù)據(jù)。對新用戶來說,一個系統(tǒng)或者平臺可以推薦的內(nèi)容是天文數(shù)字。以淘寶為例,2013 年的時候,淘寶在線商品數(shù)就超過了8 億,8 億個候選,推哪一個?
這時候,點擊或者瀏覽過的商品/文章,顯然權(quán)重是最高的。對直接銷售物品的電商來說更是如此,所以無論是國外的亞馬遜還是國內(nèi)的淘寶、京東,實踐下來,當前瀏覽內(nèi)容都是最重要的推薦因素。
而且,買過冰箱推薦冰箱,也未必是算法笨,這可能只是一個簡單的策略問題—— 你買了冰箱,周圍的朋友可能會咨詢你冰箱的問題;如果你看到了更喜歡的新款冰箱,很可能在退貨時間內(nèi)選擇了退了原來商家的冰箱,買個新冰箱。并且這個策略很可能造成最后的銷售數(shù)據(jù)的極大提升。
對相關新聞點擊「不敢興趣」也類似。當你第一次對奧巴馬演講點擊「不感興趣」時,系統(tǒng)不知道你是對奧巴馬不感興趣還是對演講不感興趣,或者單純不喜歡這次的演講主題,所以反而會繼續(xù)給你推薦相關的話題,從整體數(shù)據(jù)來看,這樣的推薦策略有時候是更優(yōu)的。
當然,個性化推薦為了防止過渡擬合出現(xiàn),會根據(jù)讀者的閱讀紀錄通過嚴謹?shù)臄?shù)學理論分析計算,推測出同類用戶偏好,依興趣標簽的關聯(lián)程度,推測出同類用戶其他偏好,并進行「聯(lián)想式」的推薦。比如當機器發(fā)現(xiàn)閱讀「總統(tǒng)大選」相關信息的用戶群體中,有很大部分人都在同時關注「股票」信息,那么機器就會把「股票」信息推薦給那部分關注「總統(tǒng)大選」但尚未關注「股票」信息的人,而不會單一推薦「總統(tǒng)大選」的信息。
誤區(qū)三:推薦算法會導致「信息繭房」
有一種論調(diào)是,由于算法只給你推送你喜歡的內(nèi)容,從而造成了信息繭房。
展開來說,這個論調(diào)包括兩層,一是大家只關心自己的小世界,看不到更重要、更有意義的公共事件。二是算法越來越懂你,你喜歡特朗普,就只給你推薦特朗普好的新聞。最終的結(jié)果,造成了「信息繭房」和偏食。
這其實是不成立的。在實際情況中,算法很難實現(xiàn)「信息繭房」。公共事件之所以成為公共事業(yè),是因為其公共性,這決定了其天然具有穿透性,所有算法都會對此類事件賦予極高的權(quán)重,否則這將違反算法準確性的初衷。
其次,關于態(tài)度傾向。因為每個人可能感興趣的文章非常多,用專業(yè)話就是數(shù)據(jù)非常稀疏,所以對算法來說,正向情緒和負向情緒,都是對某一個話題的正相關,這種相關性本身大于情緒。這句話翻譯過來就是,無論你討厭特朗普還是喜歡特朗普,在數(shù)據(jù)意義上的表現(xiàn),都是對特朗普這個話題高度相關的。對于算法來說,正常情況下,所有關于特朗普的重要內(nèi)容,都會被優(yōu)先推薦給你。
從哲學思辨的角度來看,「信息繭房」或許有其意義,但從實際操作中,不可能出現(xiàn)這樣的極端情況。另外,互聯(lián)網(wǎng)時代,由于信息的極大豐富,任何選擇都會對信息本身進行過濾和篩選。你的微博、朋友圈也是「信息繭房」—— 因為你看到的都是朋友們關心的。
誤區(qū)四:推薦算法技術含量不高按照算法模型拿Cookie 信息套一下就行
首先,嚴格來說,算法是解決問題的一個過程,包括特定輸入與特定輸出。我們講的數(shù)學公式只是算法的理論基礎,無論是推薦算法還是深度學習網(wǎng)絡不僅僅需要理論基礎,也就是公式,還要有相應的數(shù)學模型實現(xiàn),并且這個實現(xiàn)過程是動態(tài)的,需要不斷調(diào)整的。
實際上算法的自我修正和學習是非常重要的,比如阿爾法狗就是不斷的和人類對弈來優(yōu)化自身模型來提高算法準確性。推薦算法也不例外,個性化推薦會隨著用戶的閱讀軌跡、用戶的行為記錄進行反饋優(yōu)化,逐步提高其準確性。公開資料顯示,今日頭條每個星期都會對算法模型進行一些優(yōu)化和調(diào)整,近一年內(nèi)今日頭條的算法進行了4 次比較大的模型迭代。亞馬遜在過去二十年間也對推薦系統(tǒng)進行了無數(shù)次改進和優(yōu)化,才有今天非常精準的推薦結(jié)果。
PC 時代的推薦非常原始,無非是拿瀏覽器里的Cookie 數(shù)據(jù)進行關鍵詞匹配。很多人會覺得,現(xiàn)在的算法不也這樣么,無非是多了一些用戶年齡屬性,性別屬性,偏好屬性,然后套入公式,性別*0.3 + 年齡*0.5 + 偏好*0.2,再加上一些地理位置等屬性,就可以進行推薦了。
實際上,這大概是二十年前推薦1.0 時代的做法。如今推薦系統(tǒng)建立、使用和優(yōu)化是一個非常復雜的過程。比如推薦系統(tǒng)的建立方式就包括基于用戶、基于關聯(lián)規(guī)則和基于模型的推薦。現(xiàn)在做的好的推薦系統(tǒng)都不會只采用某一種推薦的機制和策略,往往是結(jié)合多種推薦方法,以達到更好的推薦效果。
誤區(qū)五:推薦算法發(fā)展的很快,未來可以洞察人性,無所不能
推薦算法的出現(xiàn)提高了信息分發(fā)效率,很好的解決了信息過載的問題。盡管個性化推薦需要用到一定的用戶特征,但都是以公開特征和定向內(nèi)容為主,很難全面的刻畫出一個人,了解人性更是談何容易。真正做到了解人性,就需要算法比你還了解你自己,以現(xiàn)在的科技水平,算法想要達到科幻小說里的洞悉人性是不可能的。
更重要的是,任何算法都會有反例。簡單說,如果一個分類算法單純按照頭發(fā)長短區(qū)分男女,有些男生頭發(fā)比較長就會出現(xiàn)分類錯誤。作為新技術,機器推薦還有不完美的地方,仍然需優(yōu)化和改進,這也是眾多科學家努力的方向。當然,從比例上看優(yōu)秀的算法肯定對絕大多數(shù)的案例進行正確分類,并有效的推薦給用戶。
誤區(qū)六:算法都是公開的,競爭壁壘不高
首先,數(shù)據(jù)是非常重要的壁壘。真正應用到工業(yè)的推薦系統(tǒng)需要大量數(shù)據(jù)進行建模計算的。并非簡單的少量的數(shù)據(jù)即可,一般情況下需要上億的數(shù)據(jù)和上億的屬性特征進行推薦,沒有數(shù)據(jù)只有理論基礎都是紙上談兵。
因此,如果想要做出一套好的推薦系統(tǒng)模型,需要在大數(shù)據(jù)的基礎上建立非常龐大和成熟的工程師團隊。Google、微軟聘用了大量的高端人才進行推薦算法優(yōu)化,無非是針對一些特定的知識點做專門的Feature Engineering,國內(nèi)的今日頭條也有近半數(shù)的員工都是技術工程師。
一些算法可能會在推薦算法的相關比賽中取得非常好的結(jié)果,但并不是說這就是一個最優(yōu)的算法模型。很可能是機器把樣本數(shù)據(jù)的所有特征都學習到了,獲得了過多的局部特征和假特征,形成過擬合。當你用它識別新的數(shù)據(jù)樣本的時就會發(fā)現(xiàn),推薦準確率有可能非常低。
算法模型必須經(jīng)過大量數(shù)據(jù)的學習和演化,沒有任何一種機器模型可以被當做權(quán)威規(guī)則來使用。算法的學習和演化本身也是一種壁壘。換句話說,哪怕張一鳴自己離開今日頭條,重新做一套推薦算法,也無法達到現(xiàn)在今日頭條推薦算法的水平。
如果你是一位工程師,如果你讀到了這里,還會覺得數(shù)據(jù)、算法和數(shù)學不重要嘛?不說了,我去學習算法去了。
- iPhone 17系列機模意外曝光,小米SU7 Pro交付時間嚇壞用戶
- 福耀科技大學獲批,曹德旺回應:壓力山大,批下來就要做好,求真務實才是關鍵
- 特斯拉Cybertruck新功能:FSD大更新,輕松實現(xiàn)停車啟動、智能召喚與倒車,駕駛更智能!
- 大眾汽車裁員風暴來襲:軟件部門Cariad大刀揮向三成崗位,風雨飄搖中的裁員序幕?
- 保時捷扛不住壓力裁員3900人:全球跑車銷量王也難逃經(jīng)濟寒冬?
- 小米SU7 Pro交付時間“神話”被打破:承諾變泡影,小米王化緊急回應
- 小米旗艦手機SU7Pro生產(chǎn)延期,王化回應:力爭確保30萬臺目標,全力提速
- 蔚來裁員風波:低調(diào)背后暗藏服務優(yōu)化秘密?
- 華為新機下周亮相:鴻蒙手機顛覆傳統(tǒng),體驗升級引期待
- 啟信慧眼發(fā)布《國央企風控合規(guī)案例白皮書》,數(shù)字化賦能國央企風控體系升級
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。