大數據云計算和商業智能這三者的關系到底如何?
人工智能時代,數據將取代土地成為最重要的資源,誰控制了它誰就控制了社會。屆時,由巨量數據驅動的機器學習系統將成為科技行業競爭成敗的關鍵,掌握巨量數據和先進系統的企業很有可能成為壟斷性企業,打敗一家科技巨頭可能要比以往任何時候都更困難。
謝邀。7月8日在上海舉行的造就·未來大會上,《未來簡史》作者尤瓦爾·赫拉利和電子科技大學博導周濤、紅杉資本中國基金專家合伙人車品覺就這個問題進行了探討。
周濤:我想問車品覺先生,車老師曾是阿里健康的外部董事。我的問題是,當阿里健康擁有越來越多的醫療健康資源后,他會如何選擇患者?比如說他擁有100個腎器官,但需要換腎的尿毒癥患者卻有10000個,阿里健康會做出何種選擇?他該如何決定把腎給哪一些人,又不給哪一些人呢?
他會不會考慮把腎給芝麻信用分高的人?而只有在淘寶、天貓購物,你的芝麻信用分才高;而去京東上購物,你的芝麻信用分就會被扣掉。那我想問車老師,在那個時代,你還敢買京東的東西嗎?
車品覺:我覺得你的問題最主要就是說大家都有很多算法,但是把算法連在一起時,我們就要看看它究竟是為了大眾的利益,還是只為了一家公司的利益?當一家公司足夠大,它就可以串聯起幾種算法或是數據,甚至可以說壟斷整個社會,我個人認為,我們應該要開始重視這個現象。
如果那個時代真的來了,我還是會選擇買京東的東西。
周濤:是吧,這是勇士,真的厲害。如果沒有很多像你這樣的人,我們就會被綁架。
那我再問一下尤瓦爾先生,如果未來有一些企業它足夠的大,大到不僅是擁有一套可以評價人、給人打分的算法,同時還擁有一些我們必需的資源,如教育資源,可以決定誰能接受更好的教育;甚至是決定在世界上最窮的撒哈拉以南地區,哪些人能夠得到援助。
那么在這個時候,我們應該用什么辦法來對付這些公司呢?還是說,我們不得不屈服于這種壟斷性的企業?
尤瓦爾·赫拉利:到了那時,如果我們還沒有做足工作,就為時太晚了,基本上你可以黑掉整個人類,而不僅僅是黑進電腦。問題是,我們能不能事先做一些準備?
在這里,最為關鍵的問題就是到底誰控制、擁有數據?特別是那些關乎個人身體、大腦的生物醫學數據。數據將成為最重要的資產,就好像幾千年前最重要的資源是土地,我們所有的沖突都因土地而起,誰能控制土地,誰就能控制社會。
而現在,最重要的資源就是數據,誰控制了數據,誰就控制了社會。除非我們去管制擁有數據的一方,否則若是任由它們發展下去,到時候就為時已晚。
《連線》雜志也發表了相關的評論文章,認為人工智能和“巨數據”可能讓科技巨頭更難被打敗。以下是由造就獨家翻譯的文章內容:
上周,谷歌(Google)又公開了一項創紀錄的新人工智能研究。
這一次,研究的成果向我們提示了當前人工智能繁榮下的一項重要業務動態。傳統上人們認為,消費者和社會經濟日益倚重的科技公司生態系統通過顛覆來保持創新、杜絕壟斷,小公司也正是憑借這種顛覆過程打敗大企業。然而,一旦科技行業的競爭成敗系于由巨量數據驅動的機器學習系統,打敗一家科技巨頭可能要比以往任何時候都更困難。
谷歌在周一發布了新論文的預印版本,其中描述了該公司跟卡內基梅隆大學(Carnegie Mellon University,以下簡稱CMU)成本高昂的合作項目。他們的圖像識別實驗在整整兩個月里整合了50個強大的圖形處理器,并使用了一個前所未有的龐大圖集,其中包含了3億張經過標記的圖片(圖像識別領域大多數研究工作所使用的標準圖集僅包含100萬張圖片)。該實驗項目旨在測試,能否通過向算法饋入更多的數據來使其得出更準確的圖像識別結果,而不是對現有的算法設計進行調整。
答案是:可以。
在谷歌和CMU的研究人員使用規模龐大的新數據集對一套標準的圖像處理系統進行訓練之后,他們稱,系統在數項標準測試中得到了新的高分——這些測試旨在評估軟件解讀圖像的能力,比如識別照片中的對象。
研究人員饋入的數據量跟圖像識別算法的準確性之間存在著明確的關聯。這些發現在某種程度上解答了一個在人工智能學界流傳的問題,即我們能否僅僅通過向現有算法饋入更多的數據來獲得更強大的性能。
該研究揭示,即便本身就具備極大的規模,更多的數據也還是會帶來更強大的性能表現。
這表明,成為谷歌、Facebook或微軟(Microsoft)那樣掌握大量數據的公司,其好處遠遠超過我們此前的設想。圖像處理系統基于谷歌包含3億張圖片的巨大數據集進行學習,這并未產生巨大的好處——從100萬張圖片到3億張圖片,系統識別對象能力的得分僅僅提升了3個百分點——但論文作者表示,他們認為可以通過調整軟件更好地適應超大型數據集來擴大這種優勢。
即便事實證明情況并非如此,但在科技行業當中,很小的優勢也可能造成重要影響。
比如,就自動駕駛汽車視覺技術的準確性來說,每一點增益都是至關重要的;而對一款能夠創收數十億美元的產品而言,小小的效率提升將能產生滾雪球效應。
在聚焦人工智能的公司當中,囤積數據已經作為一種防御性戰略相沿成習。
谷歌、微軟以及其他公司已經開源了大量軟件,乃至硬件設計,但卻收緊了對那些能夠讓軟、硬件工具發揮作用的數據的控制。科技公司確實公開了一些數據:去年,谷歌發布了一個采集自700多萬段YouTube視頻的大型數據集,Salesforce也開放了一個取自維基百科(Wikipedia)的數據集以幫助算法分析語言。但盧克·德奧利維拉(Luke de Oliveira)表示——他是人工智能研發實驗室Manifold的合伙人,同時也是勞倫斯伯克利國家實驗室(Lawrence Berkeley National Lab)的訪問研究員——(如你所想)這些被公開的數據通常不會對潛在競爭對手提供太大的價值。“它們從來不是那種對一款產品持續市場地位具有重要影響的數據集,”他說道。
谷歌和CMU的研究人員倒是說,他們希望自己關于“巨數據”價值的最新研究成果能夠起到促進作用,催生出谷歌規模的更大開源圖像數據集。“我們真誠地希望,這項研究能夠啟發計算機視覺技術領域的人士,讓他們不要低估數據的價值,并共同努力來創建規模更大的數據集,”研究人員寫道。來自CMU的阿比納夫·古普塔(Abhinav Gupta)參與了這項研究,他表示,有一個選項是跟通用視覺數據基金會(Common Visual Data Foundation)合作,這是一家得到Facebook和微軟支持的非營利機構,曾經發布開源的圖像數據集。
與此同時,在一個擁有更多數據就能讓算法變得更智能的世界中,那些缺少數據的公司如果想要生存下去,就必須要富有創造性。初創公司DataRobot的首席執行官杰里米·亞齊(Jeremy Achin)猜測,隨著機器學習變得對越來越多的公司和行業舉足輕重,一種見于保險行業的模式可能在更大范圍內流行起來,即眾多小保險公司(認真地)把各自數據“拼”到一起,以使其風險預測能夠匹敵那些規模更大的競爭對手。
讓機器學習不再那么渴求數據,這方面的進步有可能顛覆人工智能的數據經濟學;優步(Uber)去年就收購了一家從事相關研究的公司。但現在,后來者仍然有可能試著避開人工智能巨頭公司慣有的數據優勢。Fast.ai是一家致力于讓機器學習變得更易于訪問的公司,其聯合創始人蕾切爾·托馬斯(Rachel Thomas)表示,初創公司可以在通常由互聯網巨頭把持的領域之外找到應用機器學習技術的地方,就比如說農業。“我不確信這些巨頭公司一定在所有領域占據著優勢,在很多特定領域中,根本沒有人在收集數據,”她如是說。即便是人工智能領域的巨頭也有盲點。
翻譯:何無魚
來源:WIRED
造就:劇院式的線下演講平臺,發現最有創造力的思想