作者:sexycoder
最近入門了一下scrapy,找了一個網(wǎng)站練手,半天的時間爬取了簡書20w用戶數(shù)據(jù)和40w的follow關系。這些存在mysql里面的閑著也是閑著,想做一些有意思的數(shù)據(jù)統(tǒng)計和社交關系分析。
最受歡迎的作者
我統(tǒng)計了簡書上面粉絲數(shù)最多和被喜歡次數(shù)最多的用戶,簡書上最受歡迎的作者,如下圖所示:
我把最受歡迎的作者的放到一張圖上面,橫坐標表示粉絲數(shù),縱坐標表示被喜歡的次數(shù),如下圖所示。可以很明顯的看出來,這些最受歡迎的作者里面,大多數(shù)的作者還是聚集在圖的左下角,but,還有幾個超級受歡迎的,他們分別分布在圖的右側和上側。他們分別是,劉淼,彭小六,簡黛玉。很可惜,截圖上不能附上作者的名字。
這是同濟最受歡迎的作者的原始數(shù)據(jù),我也貼在這里,如下圖所示,數(shù)據(jù)爬取的時間是 2017年10月20日左右。下圖的這四列分別是,uid,昵稱,粉絲數(shù),被喜歡數(shù)。
最能寫的作者
統(tǒng)計了發(fā)表文章數(shù)最多的top20作者,如下圖所示:
排名第一的這位孤鳥差魚 ( http://www.jianshu.com/u/a4bb86f4ba07),寫了1799篇文章??!我的天!但是這里有一個bug,這位作者雖然能寫,但是每篇文章被喜歡的次數(shù)很低,基本上是個位數(shù)。可能是一位孤獨but高產(chǎn)的作者。
平均每個字被喜歡次數(shù)坐高的作者
從上面的一個統(tǒng)計里面吸取到的一個靈感,雖然上面的作者很能寫,但是被喜歡的次數(shù)卻很低,這一次統(tǒng)計的是平均每個字被喜歡次數(shù)坐高的作者。如下圖所示:
這個結果就更加意外了,排在前面的這幾個大哥,就寫了一個字,but 收獲了48個喜歡!?。?!每個字被喜歡的比例是1:48?。?!于是,很好奇這位大哥,這一個字寫得是什么,跑去圍觀。。
用戶的粉絲數(shù)分布的比例
分析了一下每個用戶的粉絲數(shù),絕大多數(shù)用戶的粉絲數(shù)只有10人以下,而粉絲數(shù)分布在[10,20]之間的用戶明顯少了很多,簡直是銳減?。?!這也基本上符合一個社交網(wǎng)絡的結果,絕大多數(shù)的人都是圍觀者,都是內(nèi)容或者是消息的的接收者。擁有大量粉絲的人,往往很少,這一部分的人是這個社交網(wǎng)絡的核心,是信息或者是消息的創(chuàng)造者,擁有更加強大的話語權。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風險加劇
- Crunchbase:2024年AI網(wǎng)絡安全行業(yè)風險投資超過26億美元
- 調查報告:AI與云重塑IT格局,77%的IT領導者視網(wǎng)絡安全為首要挑戰(zhàn)
- 長江存儲發(fā)布聲明:從無“借殼上市”意愿
- 泛微·數(shù)智大腦Xiaoe.AI正式發(fā)布,千人現(xiàn)場體驗數(shù)智化運營場景
- IDC:2024年第三季度北美IT分銷商收入增長至202億美元
- AI成為雙刃劍!凱捷調查:97%組織遭遇過GenAI漏洞攻擊
- openEuler開源五年樹立新里程碑,累計裝機量突破1000萬
- 創(chuàng)想 華彩新程!2024柯尼卡美能達媒體溝通會煥新增長之道
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。