哪個國家的億萬富豪最多?男女比例如何?哪個國家的富豪擁有的財富比例最高?他們的錢都是哪來的?誰是最年輕和最老的億萬富翁?目前他們的身價有何變化?每個國家的首富分別是誰?近日,紐約數(shù)據(jù)科學學院的Nilesh Patel采用爬蟲對福布斯富豪榜進行大數(shù)據(jù)分析,揭開了全球億萬富豪們的財富密碼。
世界財富的分布是一個倒金字塔形狀的,來自71個國家的2212人共同擁有9.1萬億美元的財富。他們中的大多數(shù)人是白手起家,在科技、金融、時尚和體育行業(yè)建立起了自己的“帝國”。有一些人事業(yè)剛起步時就處在領(lǐng)先位置上,因為他們從自己的家族企業(yè)繼承了一大筆財產(chǎn)。這個項目就是要通過數(shù)據(jù)可視化,分析這些富豪們。
▍項目介紹
在數(shù)據(jù)源方面我選擇了福布斯富豪榜(福布斯雜志于1917年發(fā)起的富豪排名的榜單)的數(shù)據(jù),我用Selenium工具進行了數(shù)據(jù)爬取。
至于為什么是福布斯?因為它是一家聚焦商業(yè)、投資、科技、企業(yè)家、領(lǐng)導藝術(shù)以及生活方式的超過百年歷史的媒體。他現(xiàn)在有超過3800萬的社交網(wǎng)絡(luò)粉絲。重要的是它維護著一個富豪數(shù)據(jù)庫,并且一直進行著及時更新。
▍項目目標
我的項目是為了回答下面的所有問題:
● 哪個國家的億萬富豪最多?
● 男女比例如何?
● 哪個國家的富豪擁有的財富比例最高?
● 他們的錢都是哪來的?
● 誰是最年輕和最老的億萬富翁?
● 目前他們的身價有何變化?
● 每個國家的首富分別是誰?
▍數(shù)據(jù)爬取
爬取數(shù)據(jù)的過程如下:
● 進入福布斯億萬富翁專題首頁
● 找到頁面的URL地址
● 爬取每個人的細節(jié)信息(排名、姓名、身價、年齡、收入來源、國籍、性別)
● 在過程中尋找X path時遇到一些麻煩,因為有時候掃描全網(wǎng)頁會發(fā)現(xiàn)并沒有什么獨特的X path
● 對于性別和最新身價的信息,我單獨進行了爬取,因為它們和其他信息不在同一頁面
▍數(shù)據(jù)清洗
在得到初步的數(shù)據(jù)后,新的挑戰(zhàn)是如何清洗數(shù)據(jù)并不丟失重要信息。我使用了Python Numpy、Pandas、正則表達式以及其他方法。我利用我擁有的另一組數(shù)據(jù)框架,給我的數(shù)據(jù)增加了兩列。之后我增加了一列數(shù)據(jù),它顯示的是年初的身價和最新身價相比的變化。
清洗后的數(shù)據(jù)長這樣:
▍數(shù)據(jù)清洗
在制作數(shù)據(jù)可視化圖表時,我使用了Matplotlib和Seaborn文庫包。
● 哪個國家億萬富翁數(shù)最多?
從下圖可以看到,美國最多,有585名億萬富翁,其次是中國,有373名。之后是德國、印度和俄羅斯。
● 男女比例
男性1972人,占比89.2%,女性240人,占比10.8%。我自己是覺得有點吃驚,我本來以為女性占比會更多一些。
● 哪個國家億萬富翁們的財富占整體的比例最高?
如我們所期待的那樣,美國排名第一,而且由于數(shù)據(jù)和其他國家情況差別很大,所以沒有在圖中展示。第二是中國。第三到第五比較有意思,分別是巴西、加拿大和澳大利亞。
● 最主要的收入來源?
下圖可以看出人們的收入來源都很相似,地產(chǎn)收入是所有人的重要收入來源,投資排在第二。藥物、零售、對沖基金、銀行等也是很重要的收入來源。
● 最年輕和最老的富翁
在分析年齡方面我做了一個直方圖,我發(fā)現(xiàn)大多數(shù)人的年齡在50到75歲之間,平均年齡是63歲,中位數(shù)是64歲。
最年輕的億萬富翁是安德烈森,她是丹麥人,年齡22歲,身價達到14億美元。最老的是新加坡航運公司的創(chuàng)始人Chang Yun Chung,今年已經(jīng)100歲了,身價為19億美元。
● 身價最新變化
下圖是前11位富豪在2018年1月和10月的身價變化。
● 各國首富
下圖是各國首富的身價以及具體的信息。美國首富貝索斯,身價在1470億美元左右。
▍結(jié)論
這個項目只是一個開始,并沒有結(jié)束。未來,我希望對過去5年的情況進行分析,這樣可以更好地看到這些變量帶來的影響。此外我還希望解答下列問題:
● 哪些人加入或者離開了這個富豪榜?
● 富豪個人的排名等變化如何影響了他們的國家?
● 他們每年的財產(chǎn)增減幅度是怎樣的?
關(guān)于作者:
Nilesh Patel 擁有通信工程學位,最初曾擔任程序員,之后在商業(yè)方面積累了許多工作經(jīng)驗。他是紐約數(shù)據(jù)科學院的數(shù)據(jù)科學家,他喜歡團隊合作,并且工作努力,熱衷于發(fā)現(xiàn)新的方式來解決各種問題。
關(guān)于紐約數(shù)據(jù)科學學院
紐約數(shù)據(jù)科學學院 (NYC Data Science Academy) 成立于2013年,是美國行業(yè)領(lǐng)先的數(shù)據(jù)科學教學機構(gòu)。學院提供最高質(zhì)量的數(shù)據(jù)科學和數(shù)據(jù)工程培訓,致力于推進全球數(shù)據(jù)科學和大數(shù)據(jù)應(yīng)用進程、以及向企業(yè)界輸送數(shù)據(jù)分析人才。欲了解更多歡迎掃描下方二維碼關(guān)注紐約數(shù)據(jù)科學學院官方公號。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應(yīng)對航天業(yè)務(wù)虧損與供應(yīng)鏈挑戰(zhàn)
- 科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展:江陰市與清華大學攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務(wù)
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設(shè)立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。