數(shù)據(jù)護城河已成空頭支票,強大的防御能力到底靠不靠譜?

編者注:本文作者Martin Casado和Peter Lauten來自風險投資公司Andreessen Horowitz。Martin頭銜有很多:SDN之父、第一家SDN初創(chuàng)公司Nicira的聯(lián)合創(chuàng)始人,在Nicira被VMware收購之后曾擔任VMware的網(wǎng)絡和安全業(yè)務組執(zhí)行副總裁,他在2016年年初從VMware離職之后,成為Andreessen Horowitz的合伙人。

長期以來,數(shù)據(jù)一直被譽為企業(yè)的一條具有競爭力的護城河,而最近一波人工智能初創(chuàng)企業(yè)的出現(xiàn),進一步強化了這種說法。同樣地,網(wǎng)絡效應也被稱為構建軟件業(yè)務的一股防御力量。因此,我們經常能聽到有人將這兩個詞組合在一起,即所謂的“數(shù)據(jù)網(wǎng)絡效應”。

但對于那些我們關注的初創(chuàng)企業(yè)來說,我們現(xiàn)在想知道是否有能證明數(shù)據(jù)網(wǎng)絡效應的實際證據(jù)。此外,我們懷疑,即使是更直接的數(shù)據(jù)規(guī)模效應,作為許多公司的防御策略,其價值也有限。這不僅僅是一個學術問題,它對于指導企業(yè)創(chuàng)始人更好地分配時間和資源具有重要意義。如果你創(chuàng)辦了一家初創(chuàng)企業(yè),假設你正在收集的數(shù)據(jù)相當于一條牢固的護城河,那么你在其他領域的投資可能會相對不足,而這些領域實際上能真正提高你的企業(yè)的長期防御能力,例如垂直化發(fā)展、市場主導地位、售后賬戶控制、品牌制勝等等。

換句話說,將數(shù)據(jù)視為一條神奇的護城河,可能會對企業(yè)的創(chuàng)始人產生誤導,使他們無法專注于贏得勝利真正需要的東西。那么,數(shù)據(jù)網(wǎng)絡效應真的存在嗎?規(guī)模效應與傳統(tǒng)的網(wǎng)絡效應有何不同?初創(chuàng)企業(yè)如何才能建立更持久的數(shù)據(jù)護城河,或者至少我們應該弄清楚數(shù)據(jù)在他們的戰(zhàn)略中發(fā)揮的最佳作用是什么?

數(shù)據(jù)+網(wǎng)絡效應≠數(shù)據(jù)網(wǎng)絡效應

廣義上講,當用戶、客戶或者端點等等組成的系統(tǒng)在網(wǎng)絡中按結構排列時,“網(wǎng)絡”就會發(fā)揮作用。無論這些網(wǎng)絡是否圍繞參與特性(如社交網(wǎng)絡)或協(xié)議(如以太網(wǎng)、電子郵件、加密貨幣)構建,它們通常都會圍繞支持網(wǎng)絡結構的技術、產品或服務來構建。

當參與網(wǎng)絡的價值隨著更多的節(jié)點進入網(wǎng)絡,或者隨著現(xiàn)有節(jié)點之間的參與增加而增加時,網(wǎng)絡效應就會發(fā)生。想象一下,如果你試著打一個單向電話,或者只給世界上的某五個特定的人打電話;隨著越來越多的用戶加入網(wǎng)絡,電話系統(tǒng)變得越來越有價值。網(wǎng)絡效應的例子很多,更常見的、更現(xiàn)代的可能還包括社交網(wǎng)絡、在線市場和加密網(wǎng)絡。

具有網(wǎng)絡效應的系統(tǒng)通常具有一種特性,即節(jié)點之間通過定義的接口或協(xié)議進行直接交互。加入網(wǎng)絡需要遵守一些標準,這就增加了所有節(jié)點的直接交互,并使這些交互變得越來越有粘性。但是,當談到關于數(shù)據(jù)網(wǎng)絡效應的流行說法時,我們通常不會看到相同的粘性的、直接交互,更不用說由于協(xié)議或接口導致的節(jié)點間的機械依賴關系了。

一般來說,僅僅擁有更多的數(shù)據(jù)并不會帶來固有的網(wǎng)絡效應。

大多數(shù)數(shù)據(jù)網(wǎng)絡效應實際上是規(guī)模效應

大多數(shù)關于數(shù)據(jù)防御的討論實際上都歸結為規(guī)模效應,這是一種動態(tài)效應,適用于網(wǎng)絡效應的更寬松定義,其中節(jié)點之間沒有直接交互。例如,如果你最喜歡的電影X的大部分觀眾也傾向于看Y節(jié)目,即使這些用戶之間沒有直接互動,Netflix的推薦引擎可以預測,你很可能也喜歡看Y節(jié)目。更多的數(shù)據(jù)意味著更好的推薦,會吸引更多的客戶,又會帶來更多的數(shù)據(jù)……這就是著名的“飛輪效應”。

然而,即使有規(guī)模效應,我們仍然認為數(shù)據(jù)在大多數(shù)情況下都不算是一個足夠強大的護城河。在傳統(tǒng)經濟中,隨著時間的推移,固定前期投資的經濟效益會隨著規(guī)模變得越來越有利,而數(shù)據(jù)規(guī)模效應往往會產生完全相反的動態(tài)效應:向語料庫添加惟一數(shù)據(jù)的成本實際上可能會上升,而增量數(shù)據(jù)的價值卻會下降!

以一家使用聊天機器人來回應客戶咨詢的公司為例。從下圖中可以看出,從客戶支持記錄入手,創(chuàng)建一個初始語料庫可能會為一些簡單的咨詢直接提供答案,例如“我的包在哪里?”。但絕大多數(shù)的問詢都要比上述情況混亂得多,其中許多問題只被問過一次,例如“我一直在等的那個會放到我前門臺階上的東西現(xiàn)在在哪里?”。因此,在這種有限的情況下,隨著時間的推移,收集有用的查詢變得更加困難。而且,在本例中收集了40%的查詢之后,我們發(fā)現(xiàn)收集更多的數(shù)據(jù)實際上沒有任何好處!

當然,數(shù)據(jù)規(guī)模效應減小的點隨域而異。但無論這種情況在什么時候發(fā)生,最終的結果往往是相同的:在數(shù)據(jù)規(guī)模方面,保持領先的能力往往會放緩,而不是加快。隨著數(shù)據(jù)量的增長和競爭的加劇,具有防御能力的護城河非但沒有變得更強,反而受到了侵蝕。

這樣做的目的不是要對數(shù)據(jù)作為防御護城河的效用作出明確的說明,我們的目的是要說明防御能力不是數(shù)據(jù)本身固有的。而且,除非你了解目標域的數(shù)據(jù)旅程的生命周期,否則無法保證數(shù)據(jù)的可防御性。下文列出的框架可能會提供些許幫助。

一個用于理解數(shù)據(jù)旅程的實用框架

最小可行語料庫

當大多數(shù)人談論網(wǎng)絡效應時,他們關注的是克服激活或冷啟動的問題(通俗地稱為“先有雞還是先有蛋”問題),即獲得足夠的早期節(jié)點,使網(wǎng)絡對所有節(jié)點都有用,并使業(yè)務的經濟效益具有競爭力。在大多數(shù)網(wǎng)絡效應業(yè)務中,激活問題很難解決,特別是當你需要網(wǎng)絡已經啟動好并在運行中以吸引流量的時候。

但對于許多具有數(shù)據(jù)規(guī)模效應的企業(yè)業(yè)務來說,這并不一定正確。激活我們所認為的“最小可行語料庫”就足以開始針對它進行訓練,這也是初創(chuàng)企業(yè)數(shù)據(jù)旅程的第一個轉折點。這個初始語料庫可以有多種來源:從可用的來源自動捕獲數(shù)據(jù),比如抓取網(wǎng)頁;讓早期用戶用他們的數(shù)據(jù)交換一些東西;通過轉移學習重新利用來自其他領域的數(shù)據(jù);甚至是綜合生成數(shù)據(jù),通過編程創(chuàng)建數(shù)據(jù)進行訓練。

在數(shù)據(jù)旅程的早期,達到最小可行語料庫需要相對較低的投資,而且這顯然不會是一條持久的護城河。

數(shù)據(jù)采集成本

在給定的語料庫中,隨著時間的推移,獲取下一個數(shù)據(jù)塊的成本往往會越來越高。為你的語料庫帶來新信號的獨特數(shù)據(jù)可能更難在噪聲中找到,而且隨著時間的推移需要更長的時間來清晰地標記。這在許多依賴于所謂“數(shù)據(jù)網(wǎng)絡效應”的領域里是正確的。

另一方面,由于傳統(tǒng)的網(wǎng)絡效應,用戶獲取成本會隨著時間的推移而下降,因為加入網(wǎng)絡的價值會增加。此外,伴隨著傳統(tǒng)網(wǎng)絡效應,也往往會出現(xiàn)一種伴隨而來的、更內在的病毒式傳播。在這種模式下,激發(fā)節(jié)點是為了促進網(wǎng)絡增長,從而為網(wǎng)絡增加更多的價值。這些特性都不適用于數(shù)據(jù)效應,因為數(shù)據(jù)成本上升。

增量數(shù)據(jù)價值

當你在收集數(shù)據(jù)時,添加到語料庫中的數(shù)據(jù)的價值也會變得越來越小。這是為什么呢?即使新的任意批數(shù)據(jù)的收集成本與最后獲得的批數(shù)據(jù)相同,但考慮到你獲得的一些新數(shù)據(jù)已經與現(xiàn)有語料庫重疊,因此它的價值更低。隨著時間的推移,情況只會變得更糟:新數(shù)據(jù)帶來的價值會越來越低。

在我們所見過的大多數(shù)初創(chuàng)企業(yè)中,早期的新數(shù)據(jù)適用于整個客戶群。但是,超過某個特定的點——例如上面示例圖中的漸近線——所收集的新數(shù)據(jù)將只適用于特殊用例中的小子集。因此,隨著數(shù)據(jù)集的擴展,任何數(shù)據(jù)規(guī)模效應護城河的價值都會降低。

數(shù)據(jù)新鮮度

這一點似乎很明顯,但再怎么強調也不為過。在許多實際的用例中,數(shù)據(jù)會隨著時間的推移而過時,變得無關。比如說街道變了,氣溫變了,態(tài)度變了等等。

不僅如此,隨著時間的推移,許多數(shù)據(jù)初創(chuàng)公司的專有見解最初都會減弱,因為隨著越來越多的人收集數(shù)據(jù),數(shù)據(jù)的價值也會下降。當競爭對手在同一領域追逐你時,你的預測優(yōu)勢就會減弱。而且,隨著時間的推移,隨著規(guī)模的擴大,僅僅保持現(xiàn)有語料庫的新鮮度就需要大量的工作,更不用說保持領先了。

從這個意義上說,數(shù)據(jù)就像一種商品。

什么時候數(shù)據(jù)是具有防御性的?可以通過什么方式來管理它們?

這并不是說數(shù)據(jù)毫無意義!但擁有大量數(shù)據(jù)并不代表有長期防御能力。要在這之間劃上等號確實需要更多深思熟慮。由于數(shù)據(jù)護城河顯然不能單獨通過數(shù)據(jù)收集持續(xù)(或自動發(fā)生),因此,仔細考慮映射到數(shù)據(jù)旅程上的策略可以幫助你與數(shù)據(jù)優(yōu)勢競爭,并且是以更有意識、更主動的方式保持數(shù)據(jù)優(yōu)勢。當你的公司突然逼近一條漸近線或收益遞減點時,針對性地制定計劃總比盲目行動要好得多。

激活初始語料庫,與現(xiàn)有對手競爭

正如前文所述,在某些域中激活數(shù)據(jù)并沒有那么困難。然而,創(chuàng)始人實際上可以利用這一優(yōu)勢,與擁有數(shù)據(jù)但未能正確應用數(shù)據(jù)的現(xiàn)有對手正面交鋒。在激活到一個最小可行的語料庫之后,在構建正確數(shù)據(jù)集方面處于領先地位的初創(chuàng)企業(yè)可以充分利用這一技術,在現(xiàn)有競爭對手尚未搞清楚如何理解數(shù)據(jù)之前加快速度,占領高地。

要趕上現(xiàn)有的存儲大量數(shù)據(jù)的公司,生成合成數(shù)據(jù)是另一種方法。據(jù)我們所知,有一家初創(chuàng)公司生產合成數(shù)據(jù),用于在企業(yè)自動化領域培訓系統(tǒng)。因此,一個團隊只需要少數(shù)工程師,就能夠激活他們的最小可行語料庫了。該團隊最終擊敗了兩家大型企業(yè),贏得了勝利。這兩家大型企業(yè)都依賴于數(shù)十年來在全球范圍內收集的現(xiàn)有數(shù)據(jù)。對于當前問題的解決,他們都不是合適的人選。

了解數(shù)據(jù)的分布情況

對數(shù)據(jù)語料庫的分布有一個清晰的理解將會促進你對數(shù)據(jù)策略的認知,也會讓你感知到你實際上可以創(chuàng)建的防御能力有多大,這取決于應用程序空間。

數(shù)據(jù)的分布及其對應的值隨領域的不同而有很大的差異。因此,深入了解分布的形狀,并制定正確的策略來捕捉它是至關重要的。是否存在難以獲取的大量關鍵數(shù)據(jù)?如果真的存在,將語料庫擴展成“長尾”的計劃是什么?在你的領域,準確性有多重要?什么樣的錯誤率是可以接受的?如果機器學習在發(fā)給同事的電子郵件中預測出錯誤的自動完成功能,這并不是世界末日,但在自動駕駛汽車的領域中,對象分類不準確可能是一個生死攸關的問題。如果不仔細觀察,例如,如果沒有正確地將權重應用于時間序列數(shù)據(jù)(請參閱“災難性遺忘”),甚至很難發(fā)現(xiàn)錯誤的數(shù)據(jù)分布。

如果你是先行者,那么我們之前分享的挑戰(zhàn)——許多領域的大量經驗教訓都是在異常用例的長尾中獲得的——也可能成為一個優(yōu)勢。對于將這些經驗教訓嵌入產品和銷售過程的企業(yè)公司來說尤其如此。盡管一些投資者不愿在復雜的市場中艱難跋涉,因為他們只看到了規(guī)模和利潤率上的困難,但我們相信,進入復雜市場的道路上必然會留下傷疤,而傷疤本身是有防御功能的。

了解數(shù)據(jù)對產品的改進程度

在某些領域,擁有更多的數(shù)據(jù)會帶來更好的產品,以至于隨著時間的推移而增加的開銷和數(shù)據(jù)價值的遞減都將被克服。例如,如果你有一個準確率達到85%的癌癥篩查,它會比準確率80%的更容易被使用。使用越多就能提供更多的數(shù)據(jù),從而提高準確性。

雖然我們還沒有看到這些效應在實踐中發(fā)揮出來,但有幾個例子表明,數(shù)據(jù)優(yōu)勢可以在產品方面建立贏家通吃的風格優(yōu)勢,這顯然是一個強大護城河的形成基礎。

當然,理解數(shù)據(jù)對產品的貢獻程度并不總是那么簡單直接。通常,選擇算法或其他產品特性調優(yōu)的影響要比單獨擁有更多數(shù)據(jù)要大得多。

在質量和數(shù)量之間權衡

在創(chuàng)建數(shù)據(jù)語料庫時,最棘手的問題之一就是如何平衡質量和數(shù)量之間的關系。為什么要平衡關系呢?解決規(guī)模過大的問題可能會導致在廣泛的用例范圍內得到相對不錯的估計,但對其中任何一個用例來說都不算好;而解決規(guī)模過小的問題可能導致一個語料庫能夠很好地解決范圍狹窄的問題,但是卻不能滿足客戶期望的整個用例集。

在實踐中,這可能意味著將更多的精力放在為一個范圍狹窄的用例標記豐富的數(shù)據(jù)上,或者更廣泛地向在更多用例中有用的數(shù)據(jù)開放。顯然,對任何語料庫來說,深度和寬度都是關鍵屬性,但是在任何方向上的平衡錯誤都會嚴重影響性能。當涉及到保持競爭優(yōu)勢時,保持對特定領域的質量和數(shù)量權衡的領先地位將使你添加到數(shù)據(jù)護城河中的增量數(shù)據(jù)的價值能夠實現(xiàn)最大化。

保障專有數(shù)據(jù)來源安全

我們在這篇文章中提出的問題是數(shù)據(jù)規(guī)模效應究竟存在于何處,又會持續(xù)多久?對于這個問題,我們希望創(chuàng)始人能夠捫心自問。這并不意味著一家公司無法從專有數(shù)據(jù)中獲得實際的防御能力。顯然,有很多行業(yè)(比如制藥業(yè))和反例主宰了它們的市場數(shù)十年,特別是當它們出于行業(yè)結構原因有權訪問專有數(shù)據(jù)集時(如Equifax、LexisNexis、Experian等),他們便獲得了防御能力。

積累專有數(shù)據(jù)是一種能夠增強防御能力的策略。當數(shù)據(jù)源不足或不愿向多個供應商(如政府采購商)提供數(shù)據(jù)時,這種策略最為有效。現(xiàn)在,安全性要求和遵從性標準的門檻升至歷史最高水平,為獲得敏感數(shù)據(jù)而進行的供應商審查本身就可能成為針對競爭對手的一道護城河。

即使承擔組裝、清理和標準化大型公共數(shù)據(jù)集池的所有前期成本,也會產生一種規(guī)模效應,新興競爭對手將不得不從頭再創(chuàng)造這種效應,尤其是在首先需要專門知識來查找、理解和清理數(shù)據(jù)的情況下。那些被證明是負責任的數(shù)據(jù)保管人的初創(chuàng)企業(yè)可以贏得客戶的信任,而客戶只會與他們分享日益敏感的數(shù)據(jù),從而形成一道護城河。

數(shù)據(jù)護城河不是萬能的

數(shù)據(jù)是許多軟件公司產品戰(zhàn)略的基礎,它可以通過多種方式增強防御能力,但不要把它當作魔杖。大多數(shù)關于數(shù)據(jù)網(wǎng)絡效應的敘述都是圍繞著數(shù)據(jù)規(guī)模效應展開的,正如我們在本文中所概述的,如果沒有正確地規(guī)劃,這些效應有時會產生相反的效果。但是,記住不要假設您有數(shù)據(jù)網(wǎng)絡效應,因為您可能沒有;也不要假設數(shù)據(jù)規(guī)模效應將永久存在,因為這幾乎可以肯定不會發(fā)生。

相反,我們鼓勵初創(chuàng)企業(yè)更全面地考慮防御能力。更強大的長期防御能力更可能來自包裝差異化技術;了解該領域,并將其反映在您的產品中;主導市場競爭,并贏得人才大戰(zhàn),打造一支世界級的一流團隊。這些努力終將有所回報,你會獲得強大的防御能力,最終贏得市場,這遠比獲得數(shù)據(jù)本身來得更有價值。(來源:獵云網(wǎng))

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-05-14
數(shù)據(jù)護城河已成空頭支票,強大的防御能力到底靠不靠譜?
更強大的長期防御能力更可能來自包裝差異化技術。

長按掃碼 閱讀全文