作者:楊杰
用戶畫像的含義用戶畫像(persona)的概念最早由交互設計之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真實用戶的虛擬代表,是建立在一系列屬性數(shù)據(jù)之上的目標用戶模型。隨著互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在我們說的用戶畫像又包含了新的內涵 ——通常用戶畫像是根據(jù)用戶人口學特征、網(wǎng)絡瀏覽內容、網(wǎng)絡社交活動和消費行為等信息而抽象出的一個標簽化的用戶模型。 構建用戶畫像的核心工作,主要是 利用存儲在服務器上的海量日志和數(shù)據(jù)庫里的大量數(shù)據(jù)進行分析和挖掘 ,給用戶貼“標簽”,而“標簽”是能表示用戶某一維度特征的標識。具體的標簽形式可以參考下圖某網(wǎng)站給其中一個用戶打的標簽。
用戶畫像的作用
提取用戶畫像,需要處理海量的日志,花費大量時間和人力。盡管是如此高成本的事情,大部分公司還是希望能給自己的用戶做一份足夠精準的用戶畫像。
那么用戶畫像有什么作用,能幫助我們達到哪些目標呢?
大體上可以總結為以下幾個方面:
精準營銷 :精準直郵、短信、App消息推送、個性化廣告等。用戶研究 :指導產品優(yōu)化,甚至做到產品功能的私人定制等。個性服務 :個性化推薦、個性化搜索等。業(yè)務決策 :排名統(tǒng)計、地域分析、行業(yè)趨勢、競品分析等。用戶畫像的內容
用戶畫像包含的內容并不完全固定,根據(jù)行業(yè)和產品的不同所關注的特征也有不同。 對于大部分互聯(lián)網(wǎng)公司,用戶畫像都會包含人口屬性和行為特征。 人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻情況、生育情況、工作所在的行業(yè)和職業(yè)等。行為特征主要包含活躍度、忠誠度等指標。
除了以上較通用的特征,不同類型的網(wǎng)站提取的用戶畫像各有側重點。
以內容為主的媒體或閱讀類網(wǎng)站,還有搜索引擎或通用導航類網(wǎng)站,往往會 提取用戶對瀏覽內容的興趣特征 ,比如體育類、娛樂類、美食類、理財類、旅游類、房產類、汽車類等等。社交網(wǎng)站的用戶畫像,也會提取用戶的 社交網(wǎng)絡 ,從中可以發(fā)現(xiàn)關系緊密的用戶群和在社群中起到意見領袖作用的明星節(jié)點。電商購物網(wǎng)站的用戶畫像,一般會提取用戶的 網(wǎng)購興趣和消費能力 等指標。網(wǎng)購興趣主要指用戶在網(wǎng)購時的類目偏好,比如服飾類、箱包類、居家類、母嬰類、洗護類、飲食類等。消費能力指用戶的 購買力 ,如果做得足夠細致,可以把用戶的實際消費水平和在每個類目的心理消費水平區(qū)分開,分別建立特征緯度。另外還可以加上用戶的 環(huán)境屬性 ,比如當前時間、訪問地點LBS特征、當?shù)靥鞖?、?jié)假日情況等。
當然,對于特定的網(wǎng)站或App,肯定又有特殊關注的用戶緯度,就需要把這些維度做到更加細化,從而能給用戶提供更精準的個性化服務和內容。
用戶畫像的生產
用戶特征的提取即用戶畫像的生產過程,大致可以分為以下幾步:
用戶建模 ,指確定提取的用戶特征維度,和需要使用到的數(shù)據(jù)源。數(shù)據(jù)收集 ,通過數(shù)據(jù)收集工具,如Flume或自己寫的腳本程序,把需要使用的數(shù)據(jù)統(tǒng)一存放到Hadoop集群。數(shù)據(jù)清理 ,數(shù)據(jù)清理的過程通常位于Hadoop集群,也有可能與數(shù)據(jù)收集同時進行,這一步的主要工作,是把收集到各種來源、雜亂無章的數(shù)據(jù)進行字段提取,得到關注的目標特征。模型訓練 ,有些特征可能無法直接從數(shù)據(jù)清理得到,比如用戶感興趣的內容或用戶的消費水平,那么可以通過收集到的已知特征進行學習和預測。屬性預測 ,利用訓練得到的模型和用戶的已知特征,預測用戶的未知特征。數(shù)據(jù)合并 ,把用戶通過各種數(shù)據(jù)源提取的特征進行合并,并給出一定的可信度。數(shù)據(jù)分發(fā) ,對于合并后的結果數(shù)據(jù),分發(fā)到精準營銷、個性化推薦、CRM等各個平臺,提供數(shù)據(jù)支持。下面以用戶性別為例,具體介紹特征提取的過程 :
提取用戶自己填寫的資料,比如注冊時或者活動中填寫的性別資料,這些數(shù)據(jù)準確率一般很高。提取用戶的稱謂,如文本中有提到的對方稱呼,例如:xxx先生/女士,這個數(shù)據(jù)也比較準。根據(jù)用戶姓名預測用戶性別,這是一個二分類問題,可以提取用戶的名字部分(百家姓與性別沒有相關性),然后用樸素貝葉斯分類器訓練一個分類器。過程中遇到了生僻字問題,比如“甄嬛”的“嬛”,由于在名字中出現(xiàn)的少,因此分類器無法進行正確分類。考慮到漢字都是由偏旁部首組成,且偏旁部首也常常具有特殊含義(很多與性別具有相關性,比如草字頭傾向女性,金字旁傾向男性),我們利用五筆輸入法分解單字,再把名字本身和五筆打法的字母一起放到LR分類器進行訓練。比如,“嬛”字的打法:『 女V+罒L+一G+衣E = VLGE 』,這里的女字旁就很有女性傾向。另外還有一些特征可以利用,比如用戶訪問過的網(wǎng)站,經常訪問一些美妝或女性服飾類網(wǎng)站,是女性的可能性就高;訪問體育軍事類網(wǎng)站,是男性的可能性就高。還有用戶上網(wǎng)的時間段,經常深夜上網(wǎng)的用戶男性的可能性就高。把這些特征加入到LR分類器進行訓練,也能提高一定的數(shù)據(jù)覆蓋率。數(shù)據(jù)管理系統(tǒng)用戶畫像涉及到大量的數(shù)據(jù)處理和特征提取工作,往往需要用到多數(shù)據(jù)來源,且多人并行處理數(shù)據(jù)和生成特征。因此,需要一個數(shù)據(jù)管理系統(tǒng)來對數(shù)據(jù)統(tǒng)一進行合并存儲和分發(fā)。我們的系統(tǒng)以約定的目錄結構來組織數(shù)據(jù),基本目錄層級為:/user_tag/屬性/日期/來源_作者/。以性別特征為例,開發(fā)者dev1從用戶姓名提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170101/name_dev1,開發(fā)者dev2從用戶填寫資料提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170102/raw_dev2。
從每種來源提取的數(shù)據(jù)可信度是不同的,所以各來源提取的數(shù)據(jù)必須給出一定的權重,約定一般為0-1之間的一個概率值,這樣系統(tǒng)在做數(shù)據(jù)的自動合并時,只需要做簡單的加權求和,并歸一化輸出到集群,存儲到事先定義好的Hive表。接下來就是數(shù)據(jù)增量更新到HBase、ES、Spark集群等更多應用服務集群。
應用示例:個性化推薦
以電商網(wǎng)站的某種頁面的個性化推薦為例,考慮到特征的可解釋性、易擴展和模型的計算性能,很多線上推薦系統(tǒng)采用LR(邏輯回歸)模型訓練,這里也以LR模型舉例。很多推薦場景都會用到基于商品的協(xié)同過濾,而基于商品協(xié)同過濾的核心是一個商品相關性矩陣W,假設有n個商品,那么W就是一個n * n的矩陣,矩陣的元素wij代表商品Ii和Ij之間的相關系數(shù)。而根據(jù)用戶訪問和購買商品的行為特征,可以把用戶表示成一個n維的特征向量U=[ i1, i2, ……, in ]。于是U*W可以看成用戶對每個商品的感興趣程度V=[ v1, v2, ……, vn ],這里v1即是用戶對商品I1的感興趣程度,v1= i1*w11 + i2*w12 + in*w1n。如果把相關系數(shù)w11, w12, ……, w1n 看成要求的變量,那么就可以用LR模型,代入訓練集用戶的行為向量U,進行求解。這樣一個初步的LR模型就訓練出來了,效果和基于商品的協(xié)同過濾類似。
這時只用到了用戶的行為特征部分,而人口屬性、網(wǎng)購偏好、內容偏好、消費能力和環(huán)境特征等其他上下文還沒有利用起來。把以上特征加入到LR模型,同時再加上目標商品自身的屬性,如文本標簽、所屬類目、銷量等數(shù)據(jù),如下圖所示,進一步優(yōu)化訓練原來的LR模型。從而最大程度利用已經提取的用戶畫像數(shù)據(jù),做到更精準的個性化推薦。
點評
用戶畫像是當前大數(shù)據(jù)領域的一種典型應用,也普遍應用在多款網(wǎng)易互聯(lián)網(wǎng)產品中。本文基于網(wǎng)易的實踐,深入淺出地解析了用戶畫像的原理和生產流程。
精確有效的用戶畫像,依賴于從大量的數(shù)據(jù)中提取正確的特征,這需要一個強大的數(shù)據(jù)管理系統(tǒng)作為支撐。網(wǎng)易大數(shù)據(jù)產品體系中包含的一站式大數(shù)據(jù)開發(fā)與管理平臺 – 網(wǎng)易猛犸,正是在網(wǎng)易內部實踐中打磨形成的,能夠為用戶畫像及后續(xù)的業(yè)務目標實現(xiàn)提供數(shù)據(jù)傳輸、計算和作業(yè)流調度等基礎能力,有效降低大數(shù)據(jù)應用的技術門檻。
- 消息稱去年全球IT支出超過5萬億美元 數(shù)據(jù)中心系統(tǒng)支出大幅增加
- 2025年全球數(shù)據(jù)中心:數(shù)字基礎設施的演變
- 谷歌押注多模態(tài)AI,BigQuery湖倉一體是核心支柱
- 數(shù)字化轉型支出將飆升:到2027年將達到4萬億美元
- 量子與人工智能:數(shù)字化轉型的力量倍增器
- 華為OceanStor Dorado全閃存存儲榮獲CC認證存儲設備最高認證級別證書
- 2024年終盤點 | 華為攜手伙伴共筑鯤鵬生態(tài),openEuler與openGauss雙星閃耀
- 特朗普宣布200億美元投資計劃,在美國多地建設數(shù)據(jù)中心
- 工信部:“點、鏈、網(wǎng)、面”體系化推進算力網(wǎng)絡工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎設施的4大趨勢
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。