大數(shù)據(jù)分析福布斯富豪榜 揭開全球億萬富豪們的財富密碼

哪個國家的億萬富豪最多?男女比例如何?哪個國家的富豪擁有的財富比例最高?他們的錢都是哪來的?誰是最年輕和最老的億萬富翁?目前他們的身價有何變化?每個國家的首富分別是誰?近日,紐約數(shù)據(jù)科學學院的Nilesh Patel采用爬蟲對福布斯富豪榜進行大數(shù)據(jù)分析,揭開了全球億萬富豪們的財富密碼。

世界財富的分布是一個倒金字塔形狀的,來自71個國家的2212人共同擁有9.1萬億美元的財富。他們中的大多數(shù)人是白手起家,在科技、金融、時尚和體育行業(yè)建立起了自己的“帝國”。有一些人事業(yè)剛起步時就處在領(lǐng)先位置上,因為他們從自己的家族企業(yè)繼承了一大筆財產(chǎn)。這個項目就是要通過數(shù)據(jù)可視化,分析這些富豪們。

▍項目介紹

在數(shù)據(jù)源方面我選擇了福布斯富豪榜(福布斯雜志于1917年發(fā)起的富豪排名的榜單)的數(shù)據(jù),我用Selenium工具進行了數(shù)據(jù)爬取。

至于為什么是福布斯?因為它是一家聚焦商業(yè)、投資、科技、企業(yè)家、領(lǐng)導藝術(shù)以及生活方式的超過百年歷史的媒體。他現(xiàn)在有超過3800萬的社交網(wǎng)絡(luò)粉絲。重要的是它維護著一個富豪數(shù)據(jù)庫,并且一直進行著及時更新。

▍項目目標

我的項目是為了回答下面的所有問題:

● 哪個國家的億萬富豪最多?

● 男女比例如何?

● 哪個國家的富豪擁有的財富比例最高?

● 他們的錢都是哪來的?

● 誰是最年輕和最老的億萬富翁?

● 目前他們的身價有何變化?

● 每個國家的首富分別是誰?

▍數(shù)據(jù)爬取

爬取數(shù)據(jù)的過程如下:

● 進入福布斯億萬富翁專題首頁

● 找到頁面的URL地址

● 爬取每個人的細節(jié)信息(排名、姓名、身價、年齡、收入來源、國籍、性別)

● 在過程中尋找X path時遇到一些麻煩,因為有時候掃描全網(wǎng)頁會發(fā)現(xiàn)并沒有什么獨特的X path

● 對于性別和最新身價的信息,我單獨進行了爬取,因為它們和其他信息不在同一頁面

▍數(shù)據(jù)清洗

在得到初步的數(shù)據(jù)后,新的挑戰(zhàn)是如何清洗數(shù)據(jù)并不丟失重要信息。我使用了Python Numpy、Pandas、正則表達式以及其他方法。我利用我擁有的另一組數(shù)據(jù)框架,給我的數(shù)據(jù)增加了兩列。之后我增加了一列數(shù)據(jù),它顯示的是年初的身價和最新身價相比的變化。

 

清洗后的數(shù)據(jù)長這樣:

▍數(shù)據(jù)清洗

在制作數(shù)據(jù)可視化圖表時,我使用了Matplotlib和Seaborn文庫包。

● 哪個國家億萬富翁數(shù)最多?

從下圖可以看到,美國最多,有585名億萬富翁,其次是中國,有373名。之后是德國、印度和俄羅斯。

● 男女比例

男性1972人,占比89.2%,女性240人,占比10.8%。我自己是覺得有點吃驚,我本來以為女性占比會更多一些。

● 哪個國家億萬富翁們的財富占整體的比例最高?

如我們所期待的那樣,美國排名第一,而且由于數(shù)據(jù)和其他國家情況差別很大,所以沒有在圖中展示。第二是中國。第三到第五比較有意思,分別是巴西、加拿大和澳大利亞。

● 最主要的收入來源?

下圖可以看出人們的收入來源都很相似,地產(chǎn)收入是所有人的重要收入來源,投資排在第二。藥物、零售、對沖基金、銀行等也是很重要的收入來源。

● 最年輕和最老的富翁

在分析年齡方面我做了一個直方圖,我發(fā)現(xiàn)大多數(shù)人的年齡在50到75歲之間,平均年齡是63歲,中位數(shù)是64歲。

最年輕的億萬富翁是安德烈森,她是丹麥人,年齡22歲,身價達到14億美元。最老的是新加坡航運公司的創(chuàng)始人Chang Yun Chung,今年已經(jīng)100歲了,身價為19億美元。

● 身價最新變化

下圖是前11位富豪在2018年1月和10月的身價變化。

● 各國首富

下圖是各國首富的身價以及具體的信息。美國首富貝索斯,身價在1470億美元左右。

▍結(jié)論

這個項目只是一個開始,并沒有結(jié)束。未來,我希望對過去5年的情況進行分析,這樣可以更好地看到這些變量帶來的影響。此外我還希望解答下列問題:

● 哪些人加入或者離開了這個富豪榜?

● 富豪個人的排名等變化如何影響了他們的國家?

● 他們每年的財產(chǎn)增減幅度是怎樣的?

關(guān)于作者:

Nilesh Patel 擁有通信工程學位,最初曾擔任程序員,之后在商業(yè)方面積累了許多工作經(jīng)驗。他是紐約數(shù)據(jù)科學院的數(shù)據(jù)科學家,他喜歡團隊合作,并且工作努力,熱衷于發(fā)現(xiàn)新的方式來解決各種問題。

關(guān)于紐約數(shù)據(jù)科學學院

紐約數(shù)據(jù)科學學院 (NYC Data Science Academy) 成立于2013年,是美國行業(yè)領(lǐng)先的數(shù)據(jù)科學教學機構(gòu)。學院提供最高質(zhì)量的數(shù)據(jù)科學和數(shù)據(jù)工程培訓,致力于推進全球數(shù)據(jù)科學和大數(shù)據(jù)應(yīng)用進程、以及向企業(yè)界輸送數(shù)據(jù)分析人才。欲了解更多歡迎掃描下方二維碼關(guān)注紐約數(shù)據(jù)科學學院官方公號。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-01-25
大數(shù)據(jù)分析福布斯富豪榜 揭開全球億萬富豪們的財富密碼
哪個國家的億萬富豪最多?男女比例如何?哪個國家的富豪擁有的財富比例最高?他們的錢都是哪來的?誰是最年輕和最老的億萬富翁?目前他們的身價有何變化?每個國家的首富分別是誰?近日,紐約數(shù)據(jù)科學學院的Nilesh Patel采用爬蟲對福布斯富豪榜進行大數(shù)據(jù)分析,揭開了全球億萬富豪們的財富密碼。

長按掃碼 閱讀全文