Illustration by Sandbox Studio, Chicago with Ana Kova
無法想象的複雜(zá)。在頭腦真空地帶和數據集群之間的光線。就像城市的燈光,在消退。
——William Gibson, Neuromancer
或許連黃鼎隆自己都沒有意識到,他的名字首字母(DingLong)的縮寫恰好也是深度學習(Deep Learning)的縮寫。
他和美國人碼特(Matt Scott)創立的是一(yī)家專注于深度學習的技術公司。兩位創始人,一(yī)個出生(shēng)于30多年前剛剛被改革開(kāi)放(fàng)春風拂過的深圳,入學清華讀博士從未有海外(wài)留學的經曆;另一(yī)人則來自大(dà)蘋果城紐約,身爲猶太人早在90年代就來到中(zhōng)國并這塊土地及人結下(xià)了不解之緣。
在差異性和多元化的浪潮在太平洋彼岸的美國逐漸退卻之時,在中(zhōng)國,兩個有着不同文化背景及人生(shēng)經曆的人走在一(yī)起結成創業夥伴,一(yī)種微妙而有趣的關系蔓延在兩人之間。
盡管來到中(zhōng)國十多年,但是碼特的中(zhōng)文依然不靈光,在接受采訪時還要黃鼎隆充當翻譯。但是,想必是在中(zhōng)國同事的耳濡目染下(xià),碼特已經習慣成自然地将 C++ 稱作“C 加加”,而在黃鼎隆慢(màn)條斯理地向别人介紹公司的情況的同時,美國人卻又(yòu)往往扮演起熱情而熾烈的布道者,他帶着紐約人特有的自豪與誇耀的語氣向别人講述他對中(zhōng)國和中(zhōng)國人民的愛。
在過去(qù)兩年多的時間裏,創業的兩人始終處在深邃卻又(yòu)激烈的漩渦之中(zhōng),何止是他們,還有某個因爲工(gōng)作上除了纰漏就哭鼻子的兼通英日雙語的小(xiǎo)姑娘,他們都在宵衣旰食的創業人生(shēng)中(zhōng)沉浮激蕩。
又(yòu)何止這家公司,在過往的兩年甚至可以追溯得更久遠的時間裏,以人工(gōng)智能及深度學習爲例的技術領域和整個商(shāng)業世界都在猛烈地生(shēng)老病死進行着新陳代謝,而更大(dà)的現實世界更是如此。
世界一(yī)直在變,在此變化着的世界裏,那些本就各異的人,他們又(yòu)發生(shēng)着怎樣的變化,他們又(yòu)在自己力所能及的範圍如何改變這個世界。
巴别塔
早在兩千多年前,希臘的亞裏士多德(Aristotle)就說過,了解你自己是智慧的初始。然而自圖靈(Alan Turing)提出他偉大(dà)的計算機和人工(gōng)智能構想之後,自機器出現以後,人類就已經不再隻是滿足于僅僅了解自身,他們試圖建築一(yī)座後現代的技術巴别塔,讓人和機器之間不再有隔閡,他們想更多地了解機器,了解蘊含于0和1裏的混沌世界。
正是這樣的野心和好奇心,不斷推動着人工(gōng)智能和随後的機器學習深度學習的進步發展。
1943年,沃倫. 麥卡洛克(Warren McCulloch)和沃爾特·皮茨(Walter Pitts)在阈值邏輯算法的基礎上提出了可以應用于神經網絡的計算模型。8年後,被後人譽爲“人工(gōng)智能之父”的馬文·明斯基(Marvin Minsky)在他24歲的時候就組裝了出了曆史上第一(yī)台神經網絡學習機器 SNARC。
年輕時的羅森(sēn)布拉特 來源:peoples
基于隻有簡單加減法運算的兩層電腦神經網絡,弗蘭克•羅森(sēn)布拉特(Frank Rosenblatt)在1957年創造出了可以進行模型識别的“感知(zhī)器”(Perceptron),他同時還提出了加入數學符号的神經網絡層,而這樣的想法直到整整20年後才得以實現,同時,羅森(sēn)布拉特描繪的在“感知(zhī)器”中(zhōng)應用的異或邏輯電路系統直到保羅·維博思(Paul Werbos)在近20年後提出“反向傳播算法”(Backpropagation)時才應用到神經網絡之中(zhōng)。
然而,明斯基和西摩爾·帕普特(Seymour Papert)在1969年出版的書(shū)裏提出了計算器機器應用神經網絡的兩大(dà)阻礙因素,他們認定感知(zhī)器無法處理或與邏輯電路,同時,他們還相信電腦沒有足夠的運算能力來滿足大(dà)規模神經網絡的長時間運行。兩位權威人物(wù)的意見意外(wài)地中(zhōng)斷了人工(gōng)智能研究的勢頭和方向,羅森(sēn)布拉特的天才設想被業界抛棄,人工(gōng)智能的發展在整個70年代幾乎陷入了萬馬齊喑的境地。
1971年,在43歲生(shēng)日當天,羅森(sēn)布拉特乘船不幸發生(shēng)意外(wài)英年早逝,而就在這年,有科學家提出了利用 GMDH(Group Method of Data Handling,數據分(fēn)組處理)算法來訓練組成一(yī)個8層的深度網絡,直到1979年,斯坦福大(dà)學的團隊終于造出了可以自行在房間内導航并規避障礙物(wù)的“斯坦福車(chē)”(Stanford Cart),一(yī)年後,福島邦彥公布了用于識别手迹的多層神經網絡“神經認知(zhī)機”(Neocognitron),這套算法激發了随後的卷積神經網絡的誕生(shēng)。
在1989年,法國的燕樂存(Yann LeCun)團隊成功地将反向傳播算法應用了深度神經網絡中(zhōng)以實現識别郵件上的手寫郵編,但缺點同樣也異常顯著,他們光用算法訓練深度網絡就耗費(fèi)了3天的時間,深度神經網絡在此時顯然沒有任何實用性可言。
三年後,翁巨揚提出了“生(shēng)長認知(zhī)網”(Cresceptron),成功地從2維和3維混雜(zá)的場景中(zhōng)自動識别出了3D 對象,和日本科學家的神經認知(zhī)機需要程序員(yuán)手動合并識别中(zhōng)的某些特征不同的是,生(shēng)長認知(zhī)網可以自動學習每一(yī)層神經網絡裏未被監督的特征,後者還同時能在神經網絡裏通過後台分(fēn)析将習得的項目分(fēn)門别類。
尤爾根·施密特胡博(Jürgen Schmidhuber)在1993年利用神經曆史壓縮機通過“遞歸神經網絡”(recurrent neural networks,RNNs)解決了一(yī)個同時有上千層神經網絡展開(kāi)的“非常深度學習”的任務。
兩年後,科學家們進一(yī)步證明了,利用算法可以成功訓練一(yī)個緊密聯系的6層神經網絡,盡管整個訓練過程耗時長達2天。根據燕樂存的估計,在本世紀初時,遞歸神經網絡識别處理全美一(yī)到兩成的手寫支票。
但是,由于在人工(gōng)智能神經網絡(Artificial Neural Networks)過長的計算時間以及科學家們當時一(yī)直不清楚人類大(dà)腦通過生(shēng)物(wù)網絡自主連線的運行機理,于是,在90年代及整個千禧年初期,神經網絡和深度學習在實踐上并沒有大(dà)規模開(kāi)展。
2014年時在 Google 工(gōng)作的辛頓 Photo: Josh Valcarcel/WIRED 來源:WIRED
事實上,早在80年代中(zhōng)期,深度學習的相關理論就已經在機器學習領域開(kāi)始得到傳播,而到了新千年,前者也開(kāi)始流傳到了人工(gōng)智能神經網絡界,但是直到2006年,傑弗裏·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉庫蒂諾夫(Ruslan Salakhutdinov)的研究成果引起了大(dà)家的關注和熱情。
他們指出,一(yī)個多層的“前向反饋神經網絡”(feedforward neural network)可以一(yī)次預訓練一(yī)層神經網絡并像未被監督的受限玻爾茲曼機(restricted Boltzmann machine)一(yī)樣依次訓練每一(yī)層,在此基礎上調整好它對監督下(xià)的反向傳播算法的應用。這使得提升深度學習速度有了切實的操作可能性。
深度學習越來越多地從實驗理論投入到了應用領域。
深度學習在語音識别領域體(tǐ)現出了前所未有的巨大(dà)優勢
2009年,鄧力邀請辛頓到雷蒙德的微軟研究院進行深度學習在語音識别上的應用研究,兩人共同組織了當年 NIPS 上該領域的研讨會,是次主要讨論了語音深度生(shēng)成模型(deep generative model)方面的限制和基于深度神經網絡(deep neural nets,DNN)的大(dà)數據領域存在的可能性。
兩位科學家的研究最終得出讓人驚喜的成果,他們發現,即使沒有預訓練,通過對數據尤其是大(dà)量基于文本輸出層的深度神經網絡的訓練,錯誤率較之 GMM-HMM 和其他高級生(shēng)成模型的語音識别系統都出現了顯著的降低,其他幾個主要的語音識别研究團隊也證實了鄧力和辛頓的結論。
深度學習震動了整個語音識别領域,同樣是在這一(yī)年,斯坦福大(dà)學的李飛飛教授開(kāi)放(fàng)了她在2007年創建的 ImageNet 的數據庫。
2012年還在 Google 的吳恩達 Credit Jim Wilson/The New York Times 來源:《紐約時報》
在過往,被用來訓練圖片處理識别的數據庫主要是 MNIST,它涵蓋了6萬張訓練圖片和1萬張測試圖片,截至目前爲止,研究團隊在 MNIST 上取得的最佳成績是0.23%的錯誤率,到了2012年,丹·奇雷商(shāng)(Dan Ciresan)團隊在 CVPR 上提交的論文向大(dà)家展示了 GPU 上最大(dà)池化(max-pooling)的卷積神經網絡在提升視覺 Benchmark 記錄上的驚人表現。
是年,吳恩達(Andrew Ng)和傑夫·迪恩(Jeff Dean)帶領下(xià)的 Google Brain 利用超過1.6萬台電腦處理器組建了一(yī)個神經網絡,他們從1000萬段 YouTube 的視頻(pín)中(zhōng)抽取一(yī)幀分(fēn)辨率爲200 X 200的縮略畫面來訓練神經網絡從中(zhōng)識别出貓。
深度學習第一(yī)次赢得了 ImageNet 競賽
在這一(yī)年,辛頓團隊裏的兩名年輕人利以巨大(dà)優勢赢得了當年的 ImageNet 競賽,這是深度學習首次參加到競賽中(zhōng)去(qù),随後,奇雷商(shāng)團隊也在醫學圖片的癌症發現上赢得了 ICPR,深度學習所體(tǐ)現出的巨大(dà)威力震驚了整個世界。
到了2013年時,ImageNet 競賽的前20名無一(yī)例外(wài)全部采用了深度學習技術,排名第一(yī)的紐約大(dà)學将錯誤率降低到了0.11197,在物(wù)體(tǐ)識别項目中(zhōng),排名第一(yī)的阿姆斯特丹大(dà)學(University of Amsterdam)和 Euvision Technologies 組建的團隊的平均正确率均值(Mean Average Precision)還隻有0.22581。到次年時,Google 在兩個類别的競賽都獲得了第一(yī),錯誤率和均值則分(fēn)别爲0.06656和0.43933。
終于,深度學習從理論的象牙塔裏走到了現實世界裏中(zhōng)。
在1960年的阿爾弗雷德·科日布斯基紀念演講(Alfred Korzybski Memorial Lecture)上,麥卡洛克這樣指出,探究知(zhī)識的生(shēng)理學基層的目的就在于爲了在“我(wǒ)們如何知(zhī)道我(wǒ)們所知(zhī)”這個問題上獲得一(yī)個讓人滿意的解釋。
半個多世紀以後,科學家們以超人的勇氣和天才将這個問題問得更加深入與更加具有革命性:我(wǒ)們如何讓機器知(zhī)其所知(zhī)。
對另外(wài)一(yī)些人,他們的野心和好奇在于,在讓機器知(zhī)其所知(zhī)之後,在巴别塔建成之後,如何讓“凱撒的歸凱撒”,如何在這個新世界中(zhōng)尋找到那塊商(shāng)業上的應許之地。
危險想法
2009年,就在深度學習将要登上曆史舞台的同時,爲了在搜索市場上和 Google 颉颃,微軟推出了 Bing 搜索,中(zhōng)文名“必應”。
然而,現實情況卻并不容樂觀,Google 此時已經占據了六成以上的本土搜索份額,而在中(zhōng)國市場,百度霸占了超過3/4的搜索領地,谷歌也僅僅能搶下(xià)不到20%的市場。
在搜索市場将近固化的局面下(xià),必應如何才能脫穎而出成了擺在當時微軟中(zhōng)國團隊最大(dà)的考驗和難題。這時候,碼特和黃鼎隆都在微軟亞洲研究院,然而前者屬于研究部門,而後者則在 MSN 做産品,在研究院的架構中(zhōng),兩人之間還橫亘着一(yī)個工(gōng)程部門。
碼特并不适應自己的美國同事和他們的行事習氣,他自己是一(yī)個足夠勤勉爲了工(gōng)作目标可以日以繼夜的人,但是,讓碼特有些遺憾的是,那些同侪卻并沒有如此完全投入。
對黃鼎隆來說,類似的問題也同樣困擾着他,即使設在北(běi)京的亞洲研究院此時成立已經超過了11年,但彼時,微軟對 Bing 更多的期望和目标還是在本土狙擊 Google,沒有多少人會在意關注它在受諸多非可控因素影響并已經被割據殆盡的中(zhōng)國搜索市場上的成長和表現。
兩人都有心想要做出一(yī)些事情來改變局面。然而,大(dà)公司的弊病往往在于,不少時候,想做事的人發現,爲“做事”而做的事情并不比做事本身少。
“大(dà)公司裏面很多的阻力,尤其是中(zhōng)間的那一(yī)層肯定會很不爽嘛,你越過了我(wǒ)來做這個事情,而且還有品牌産品技術市場銷售都有很多問題。”黃鼎隆現在對此已經習以爲常。
那時候,碼特已經在機器學習方面做出了一(yī)些可以轉化應用的成果,但是,研究院的其他部門對此反應平平,隻有黃鼎隆表示了興趣,經過進一(yī)步的切磋,兩人一(yī)拍即合。
碼特的機器學習研究成果則可以把英語文本轉化成朗讀音頻(pín),黃鼎隆則看到了它在市場上的潛力和商(shāng)業前景。在當時,微軟在國内市場上尚有一(yī)戰之力的隻有 MSN,而這個 IM 産品最主要的用戶還是城市中(zhōng)的白(bái)領用戶,在黃鼎隆看來,這批用戶對英語學習和翻譯有着強烈的需求。
技術和用戶需求的結合就意味着商(shāng)業上的可能性。兩人迅速從各自部門拉人組建團隊,最終開(kāi)發出了在線詞典英庫(Engkoo),果不其然,英庫在推出後大(dà)獲成功,彼時,這個内部創新産品爲必應貢獻了超過60%的流量,每月的用戶高達400萬,而且,巨大(dà)的流量爲它帶來了針對目标用戶的英語學習廣告,最終成功實現了商(shāng)業變現。
黃鼎隆喜歡碼特在工(gōng)作上的投入和天才,碼特喜歡在和黃鼎隆合作中(zhōng)的心無旁骛,他們的合作有了一(yī)個成功的開(kāi)端。然而,這卻也成爲了他們此次合作關系的開(kāi)始和結束:一(yī)個人選擇離(lí)開(kāi),一(yī)個人選擇留下(xià)。
不久之後,中(zhōng)國人選擇去(qù)騰訊負責微博業務,此時,誰也不知(zhī)道新浪微博的先發優勢竟然會強大(dà)到所有競争對手最終都先後認輸投降的境地。而碼特則繼續留在了研究院,先後推出了必應詞典和英庫輸入法,當然,美國人也不會料到,即使 Google 敗走之後,微軟依然沒能在這塊市場上占據自己的立足之地,始終不溫不火(huǒ)。
直到2014年,事情才出現了改變。這一(yī)年,發生(shēng)了兩件事,深深地影響了黃鼎隆和碼特兩人。
首先,深度學習在外(wài)界的聚光燈下(xià)熠熠生(shēng)彩,它的價值和意義受到越來越多人的關注重視。
其次,碼特和他的中(zhōng)國女友結婚了。兩位老友見面了,在婚禮結束後,就在舉行婚禮的餐廳裏,兩人一(yī)邊食指大(dà)動啖着烤肉,一(yī)邊興奮地讨論起深度學習會帶來的變化和應用場景,他們構想出一(yī)幅具體(tǐ)而微的圖景,兩人不約而同地意識到技術的進步使曾經的某些構想有了實現的機會。
在那樣的夜裏,談到最盡興的關頭,“創業”的念頭閃過兩人的心頭,并如一(yī)粒不安的種子般紮根。
這時候,兩人都處在自己職業生(shēng)涯中(zhōng)的平穩上升期,黃鼎隆是 TripAdvisor 的中(zhōng)國區副總裁,而碼特亦成爲微軟 HiPo 培訓項目中(zhōng)的一(yī)員(yuán)。在完成拼搏程度幾乎和創業沒有多大(dà)差别的英庫項目之後,在經曆了總有完備資(zī)源支持的大(dà)公司之後,擺在兩人面前的最大(dà)問題是:值得爲了這個他們自己此時也僅僅隻能描繪出大(dà)緻輪廓的圖景而放(fàng)棄眼前的一(yī)切嗎(ma)?
随着對象和時間的不同,黃鼎隆對這個問題的答案也并不相同。
“那天晚上就很興奮,真是晚上回去(qù)睡不着覺的感覺。那時候,就會回想起一(yī)起做英庫那個項目,那對我(wǒ)們來說是職業生(shēng)涯中(zhōng)很愉快很有成就感的一(yī)段時光,我(wǒ)們就感覺很有火(huǒ)花碰撞,不做不行一(yī)定要去(qù)做。”創業兩年的黃鼎隆這樣描述。
黃鼎隆一(yī)直是個理性的人,有時候甚至冷靜低調到讓周圍人感到不可思議的地步。他和公司的同事打招呼說要一(yī)個人回深圳處理私事,歸來後,他給大(dà)家展示的是其深圳政協委員(yuán)的身份。兩年前,也是如此。他并沒有興奮到立即都投身到創業的大(dà)潮之中(zhōng)去(qù),那晚之後,黃鼎隆和碼特花了幾個月的業餘時間做調研,反複切磋預演假想中(zhōng)的創業。
理性與感性,冷靜和沖動,失敗與成功,它們的界限究竟在哪裏呢?
當自忖已然對計劃考慮周全,理性的職業人便轉身成爲脫離(lí)大(dà)公司體(tǐ)制的自由的創業人,當已經考慮到失敗的後果卻依然無所畏懼,再怎麽冷靜的人也會禁不住沖動起來去(qù)追尋内心的召喚,當已經不再畏懼失敗的時候,再怎麽冷靜理性的人也會具備前所未有的信心和勇氣去(qù)追逐成功。
那顆創業的種子在幾個月的時間裏萌芽破土生(shēng)長。終于,在那個讓他們内心波瀾萬丈的夜晚的數月之後,黃鼎隆和碼特終于下(xià)定了決心,他們要去(qù)創業。
黃鼎隆對創業與否這個問題的答案還有另外(wài)一(yī)個版本。
在18個月前,他告訴他的清華後輩們“成敗未定,創業本來就是一(yī)個九死一(yī)生(shēng)的事情”,他告訴年輕學生(shēng)們當時的心情:“理智的話(huà)我(wǒ)覺得都不會選擇創業的,你要是純理性去(qù)分(fēn)析,怎麽選你都不會去(qù)創業”。
黃鼎隆說,如果自己在讀博士的時候選擇去(qù)創業可能會被父母打斷腿。
現在,他和碼特選擇創業則是主動把自己置身到了一(yī)個充滿不确定性風險的境地,這裏将會有他們前所未聞的劇變、可能會失敗而且失敗幾率很大(dà)、生(shēng)活将不再輕松平和而會變得墨突不黔。
無論何時,創業都是危險的。
然而,曆史上最不朽的失敗者王爾德說過,如果一(yī)個想法不夠危險,它又(yòu)有什麽資(zī)格能算是一(yī)個想法。
新世界
在創業的時候,黃鼎隆和碼特甚至都沒有獲得融資(zī)。各取了兩人名中(zhōng)的一(yī)字,公司叫做碼隆。
“當時就不斷在想,搜索引擎的下(xià)一(yī)步是什麽。如果搜索的東西還是放(fàng)在文字文本上的話(huà),那麽這個仗基本上已經結束了,但是再往後一(yī)個更大(dà)的機會是圖像,它巨大(dà)的寶庫,才剛剛拉開(kāi)一(yī)點小(xiǎo)小(xiǎo)的縫。”早在微軟的時候,黃鼎隆就開(kāi)始預想搜索的下(xià)一(yī)個機會。
在創業調研的幾個月裏,他們決定把深度學習技術用在當時已經成熟的圖片識别方面,但是,僅僅是“以圖識圖”這樣的功能并不足以吸引用戶和市場。
在最初的商(shāng)業計劃書(shū)裏,他們給碼隆的産品取的名字叫 kumo,在日文裏,這個詞有兩個意思,“雲”和“蜘蛛”,kumo 依托于雲服務,同時,黃鼎隆他們希望這個産品能像蜘蛛一(yī)樣爬取盡可能多的圖片。最終,他們爲碼隆構思出來的産品商(shāng)業模式是,通過圖片搜索識别來幫助用戶做出決策。
kumo 首先是引擎,而引擎的價值就在于把關鍵字和内容聯系起來,kumo 主攻的是圖片,那如何向别人證明這個價值呢?黃鼎隆用 Google 的例子做了簡單的算數,他把當時 Google 的營收和搜索次數相比,得出來用戶在 Google 的每次搜索價值7美分(fēn)。他在商(shāng)業計劃書(shū)裏向投資(zī)人表明,圖片搜索的需求和價值會比普通的文本搜索更大(dà)。
當時,他爲圖片搜索做出了約550億美元的保守估計,并預測其在随後數年裏将增長成爲一(yī)個千億美元級别的市場。
在2014年,Google 作價4億英鎊收購了人工(gōng)智能創業公司 Deepmind,後一(yī)年,Facebook 提出了它的深度學習技術 DeepFace 用來自動标簽和識别用戶照片,其中(zhōng)包含了超過1.2億個參數。其識别正确率高達97.35%,較 Facebook 之前使用的系統提升了27%。
但是,這些事實和黃鼎隆自己的預測并不足以增加别人相信碼隆成功的可能性,除非他們能夠證明自己。
創立不久,碼隆獲得大(dà)獎
碼隆在7月份注冊,此時距離(lí)科技部主辦的第三屆中(zhōng)國創新創業大(dà)賽報名截止時間隻剩下(xià)一(yī)周不到的時間,黃鼎隆、碼特以及另一(yī)位前微軟的設計師組成的小(xiǎo)團隊抱着一(yī)半測試自己一(yī)半向别人證明的心态踩着截止日期報名參賽。
參賽團隊報名提交資(zī)料的時候并不需要提交實物(wù),于是,剛剛創業不久還隻有一(yī)個概念的黃鼎隆他們趁勢填上了“視覺決策引擎”。從網絡初賽、地區賽、行業半決賽再到最後的全國總決賽,在每輪比賽之間大(dà)約有2到3周時間的間隔,而這就也成了黃鼎隆他們在赢得上輪比賽獲得評委意見之後不多的用來進一(yī)步修正自己的産品的時間。
大(dà)賽持續了約2個月,和其他已經有了成型産品的參賽者不同,他們的産品在每一(yī)輪比賽中(zhōng)都不斷地改動優化,最終,他們獲得了此次大(dà)賽團隊組全國第二名,之後一(yī)個多星期,他們又(yòu)獲得了深圳創業創新大(dà)賽的冠軍,不到兩個月後,碼隆在2015年入選了微軟創投加速器。
此時,深度學習已經成爲一(yī)個洛陽紙(zhǐ)貴的技術概念與實踐。
深度學習的出現推動了整個 AI 和機器學習的大(dà)發展 來源:Nvidia
深度學習究竟如何幫助人們進行“視覺決策”呢?
不妨讓我(wǒ)們從過去(qù)幾十年裏最風行的人工(gōng)智能神經網絡說起。它是在我(wǒ)們對人腦的認識理解基礎上結合人工(gōng)智能産生(shēng)的交叉學科,在大(dà)腦裏,神經在一(yī)定物(wù)理距離(lí)内可以和其他任意神經連接。但是,可惜的是,人工(gōng)智能神經網絡卻受限于自身各個分(fēn)隔的神經層、連接和數據傳播方向。
一(yī)個對象輸入人工(gōng)智能神經網絡的第一(yī)層,然後再由第二層的神經處理自己的任務,在進入到下(xià)一(yī)層,重複這樣的程序直至最後一(yī)層,最終得出輸出結果。每一(yī)個神經都獲得一(yī)個和它執行任務相關的正誤情況的權重,最後的輸出結果便由這些權重決定。然而,問題在于,即使最基本的神經網絡也有着驚人的計算需求,同時,它還需要人工(gōng)來提取樣本的特征,這些極大(dà)阻礙了它的實際應用。
深度學習則從根本上改變了這一(yī)情況。
它由多個線性或非線性變換組成大(dà)量的任務處理神經層,利用非監督或自監督特征學習算法和層次特征提取等算法來實現取代手工(gōng)特征學習提取,從而創造出更好的表達并在大(dà)規模沒有标簽化的數據基礎上利用這些表達建立出更好的模型。
詞向量(distributed representations)假定觀察到的數據是因爲各個神經層中(zhōng)的因子互動而産生(shēng)的,深度學習則進一(yī)步假定這些神經層的活動和不同層級的抽象組成之間有着對應關系,數量和大(dà)小(xiǎo)各異的神經層可以用來提供不同的抽象。
于是,深度學習可以從較低層次開(kāi)始學習從而習得更高層、更抽象的概念,在最底層利用無監督學習逐層預訓練學習特征,将結果作爲更高一(yī)層的輸入,到最上層則改用監督學習進行調整,和貪婪算法結合後,這套方法使得深度學習能夠習得抽象概念并選出那些有助于學習的特征。
也就是說,相比以前以人工(gōng)智能神經網絡爲代表的淺度學習,深度學習可以更好地自主學習數據和對象特征并持續進化自己的學習能力,大(dà)數據的大(dà)行其道讓深度學習有了前所未有的用武之地,數據量越大(dà),它的精度就越高。而 MapReduce 大(dà)規模集群架構的興起、GPU 的大(dà)規模應用和應運而生(shēng)的優化算法更是極大(dà)地縮短了深度學習訓練數據需要的時間。
當深度學習風靡整個業界的時候,不同的模型和算法就成爲了每個公司的獨門武器,黃鼎隆對碼隆的技術頗有信心。他們内部首先建立了一(yī)個量化的評測體(tǐ)系,在新算法投入使用之前,都會在公司裏進行測試打分(fēn)。
在這之前,碼特他們還會先設計一(yī)個系統把個人偏好、界面設計喜好等因素排除掉讓大(dà)家更客觀地評分(fēn),但是這顯然還不夠,更有說服力更有決定性的是客戶的使用反饋。
現在,碼隆面向的是企業用戶,而在創業之初,情況卻并非如此,那時候,他們将目标鎖定在了普通消費(fèi)者身上。
技術的邏輯
11月的深圳,氣溫依然高達27℃。碼特卷上百葉窗,邊呼吸着溫熱的海風,邊吃着剛買來的麥當勞漢堡和薯條充饑。他談到了 give up,碼特告訴我(wǒ),在工(gōng)作上有時候需要不過分(fēn)堅持甚至放(fàng)棄自己的想法來讓更多人說出他們的意見,隻有這樣才可能維持一(yī)個良好的工(gōng)作氛圍促進整個集體(tǐ)的成長。
碼隆一(yī)開(kāi)始推出的産品叫 StyleAI,他們當時決定要從時尚作爲突破口來應用深度學習幫助用戶穿衣打扮。盡管推出了App 和微信微信公衆号,但是,在用戶和市場看來,這始終隻是個“人工(gōng)智能+時尚”噱頭下(xià)的玩具而已,而習慣了大(dà)公司充足資(zī)源從來有過一(yī)線經驗的黃鼎隆和碼特也漸漸回過味來,他們最終意識到,深度學習在2C 領域很難有大(dà)作爲。
最大(dà)的障礙在于,時尚涉及到包括布料、生(shēng)産加工(gōng)、設計等太多的産業上下(xià)遊鏈條,而一(yī)個創新小(xiǎo)公司根本無力同時應付從産業生(shēng)态鏈到消費(fèi)者的商(shāng)業閉環,他們既沒有資(zī)源也不具備精力耐心去(qù)自己補完這個鏈條。在消費(fèi)者端兜兜轉轉不少時間之後,他們忽然意識到自己其實應該把重心放(fàng)到上遊環節上去(qù)。
“這是一(yī)個新的領域,就意味着你要解決很多未知(zhī)的問題,甚至有一(yī)些是沒答案的,所以你就把這些問題裝在腦袋裏面。吃飯的時候也想,洗澡的時候也想,上廁所的時候想,睡覺的時候想,沒日沒夜地想,然後一(yī)下(xià)子靈光乍現,有個點子!解決了!”回憶起過往苦思冥想公司方向的時光,黃鼎隆依然興奮。
在這個技術創新起決定性作用的市場裏,要想讓深度學習技術發揮最大(dà)的作用,要想讓碼隆商(shāng)業上成功的可能性盡可能增多的話(huà),兩個從微軟出來的人想出來的主意是把公司的技術開(kāi)放(fàng)出來,讓更多的企業接觸使用。
讓深度學習幫助這些企業解決它們以往遇到現在需要解決優化的問題,反過來,同時又(yòu)讓這些深度參與到時尚産業各個鏈條的既有資(zī)源又(yòu)有能力的參與者來推廣促進深度學習技術。
于是,他們轉向了2B 市場,推出了平台 ProductAI,他們對這個産品的介紹是 AI for your product。
優料寶是他們的典型用戶。
這個布料交易平台同時面向買家和賣家,一(yī)個典型的應用場景是,買家對某塊面料産生(shēng)興趣的話(huà),就會用以圖搜圖功能在優料寶上搜索相似相同布料的賣家。這樣的用戶需求一(yī)直存在,但問題是對于這些傳統企業而言,要在自己的平台搭建一(yī)個涉及到人工(gōng)智能甚至深度學習技術的圖像搜索引擎并不是他們擅長的,更不要說後續的維護、更新和擴容上的成本投入。
另一(yī)方面,這些相關産業鏈上的企業之前積累了大(dà)量的圖片和用戶行爲數據,但爲這些數據标簽化乃至進行數據挖掘對這些企業而言幾乎是聞所未聞的天方夜譚,于是,這些數據幾乎沒有發揮任何作用。
ProductAI 首先在全網抓取各種圖片,然後将其中(zhōng)沒有标簽的部分(fēn)外(wài)包給分(fēn)散在全國的數百人的團隊進行标記,由此形成數據庫和學習模型。
每個企業客戶都有着各自不同的用戶群體(tǐ)和需求,在這些個性化差異的前提下(xià),對數據模型進行訓練,最終将算法以 API 的形式接入客戶自助搭建的平台上來實現以圖搜圖和圖像鑒别等功能。ProductAI 本身是免費(fèi),它的主要收入來自客戶對 API 的調用。
黃鼎隆的技術觀以及由此産生(shēng)的商(shāng)業觀在人看來如此激進:他認定智能手機和 App 的浪潮正在慢(màn)慢(màn)消退。這不僅是他放(fàng)棄繼續開(kāi)發2C 端上 App 的部分(fēn)原因,也成爲他成爲中(zhōng)國第五位購買 HoloLens 消費(fèi)者的動因,他相信 AR/VR 和可穿戴設備在不久的将來會掀起新的浪潮。
不過,真正吊詭的地方是,黃鼎隆和碼特創業以時尚爲起點,而他們的終點則是革掉傳統時尚的命。
“現在就是有人定義了時尚,所以大(dà)家才會流行,就是因爲現在各種東西太混沌了,導緻各種東西信息不對稱,信息不對稱過的情況下(xià)就是有幾個人就能說了算。我(wǒ)們現在要做的事情的根本就是要消除知(zhī)識的信息不對稱。”大(dà)部分(fēn)可以見到的宣傳照片上,黃鼎隆都穿着風格和時尚絕緣的衣服,他和碼特對時尚都沒有什麽具體(tǐ)的概念。
10年前,在電影《穿普拉達的女魔頭》(The Devil Wears Prada)裏,梅麗爾·斯特裏普(Meryl Streep)扮演的時尚雜(zá)志(zhì)主編米蘭達對新人的時尚觀棄如敝履。這是黃鼎隆最喜歡最常用來說的場景,他告訴我(wǒ),碼隆要做的就是搶占時尚的話(huà)語權。
按照黃鼎隆的想法, 隻要有足夠多的紐約東京米蘭等城市的街拍圖片,那麽就能從中(zhōng)分(fēn)析出這些城市最流行的顔色究竟是什麽甚至可以将流行趨勢用量化的方式計算出來,“比如粉色從上一(yī)周的21%提升到這一(yī)周的38%,這就是一(yī)個趨勢嘛”,他這樣比方。
于是,時尚就不再是設計師、評論家和時尚雜(zá)志(zhì)編輯們的特權,而僅僅成爲深度學習技術下(xià)一(yī)件枯燥理性沒有任何神秘和審美的機械工(gōng)作而已,或者說,每一(yī)個普通人都能直觀地了解到最流行的顔色和時尚。
即使不能站在時尚潮流的風口浪尖,就算不能一(yī)蹴而就地去(qù)引領主導時尚,用黃鼎隆的原話(huà)來說,中(zhōng)國至少不會完全僅僅充當時尚的跟風者,并且還有機會“從世界的服裝工(gōng)廠變成一(yī)個時尚策源地”,這是中(zhōng)國紡織信息中(zhōng)心的目标,這也是當局看重了碼隆技術的可能性而選擇與之合作的最主要原因。
于黃鼎隆個人而言,比起審美話(huà)語權和國家宏大(dà)叙事這些因素,他所謂的“一(yī)個效率的提升和人力的解放(fàng)”或許才是其有了反動時尚念頭的真實動機。
别忘了黃鼎隆他們最初“視覺決策搜索”的設想以及他們對這塊市場的宏願。
圖片連接的不止是圖片而已,它其實和文本搜索其實并沒有太大(dà)差異,我(wǒ)們毋甯說,搜索就是互聯網上最基礎、應用最廣泛的 HUB,它連接的是用戶的需求和内容。内容不止局限于文本、圖片等,它應該而且在本質上涵蓋更豐富更多樣性的内容,是視頻(pín)、音樂、遊戲,還可以是商(shāng)品、服務。
搜索的價值和意義與其說滿足用戶需求尋找到内容,不如說是跨越需求和内容兩端的信息不透明鴻溝,不如說是打破整個商(shāng)業價值鏈條上的冗餘累贅,這是技術演進的必然目的和結果,也是互聯網經濟市場規律的必然方向,這也自然而然地成了搜索引擎進化的最主要趨勢。
這是搜索的一(yī)個動态演化趨勢,它不僅僅隻是幫助用戶尋找答案的工(gōng)具,而是提供最符合用戶需求的内容,深度學習的意義也正在于此,經過漫長的自我(wǒ)演化和學習,它可能做到“如何知(zhī)道我(wǒ)們所知(zhī)”,由此來幫助用戶做出最理性的決策。
ProductAI 面向的是企業用戶,但實際上,它最終服務的還是普通消費(fèi)者。它連接的不止是圖片和圖片、圖片和布料,它還可以通過商(shāng)品包裝、視頻(pín)、AR 等将更多的内容連接起來。連接和内容越多,應用場景越多,用戶和數據也就越多,商(shāng)業上的可能性也就越多,這些反過來也會推動深度學習算法更加智能化。
從某種意義上來說,深度學習不止是視覺引擎的技術基石,它更像是一(yī)個擯除了所有非理性因素的數字化大(dà)腦,假用戶自認爲的選擇權做出基于數據的決策。在以往,搜索是一(yī)個過程和手段,而在可以預見到的将來甚至現在,搜索本身就是目的和結果,于是,它也就具備了商(shāng)業上閉環的可能性。
技術,賦予了商(shāng)業前所未有的可能性。
這種可能性在過去(qù)5年裏在黃鼎隆和碼特的手上逐漸變得觸手可及。
一(yī)個中(zhōng)國人,一(yī)個美國人,他們有着太多不同的地方,但,在僅有的幾個相同點上,他們卻有着驚人的相似。他們對一(yī)些事情極爲在意,對另一(yī)些事情卻無動于衷。
碼特現在還用着那部已經氧化掉色的 iPhone 5,父母曾經堅決反對他和異教外(wài)國人的感情關系,在八九年的時間裏,他在這個問題上始終未曾妥協,最後終于迎來皆大(dà)歡喜的結局。
在微軟亞洲研究院的融資(zī)發布會上,黃鼎隆已經盡了全力讓自己表現得對這樣熱鬧的場景已然熟稔,但,在聚光燈外(wài)的角落裏,他不時顯出些張皇失措和些許的落寞。
之後,已經對大(dà)數字習以爲常的記者問道爲什麽6200萬元的融資(zī)那麽低時,之前就和碼特約定不在融資(zī)問題上作假的黃鼎隆無奈地苦笑了下(xià),隻能生(shēng)硬地擺出耐心平和的架勢回答這樣的問題——隻有他和瑪特知(zhī)道,這筆數字其實并不比那些創業公司的真實融資(zī)額低。
在創業這件事上,兩個人并不熟練。
他們改變什麽了嗎(ma)?他們自己并不确定,這個世界也不确定,唯一(yī)可以确定的隻有一(yī)樣,黃鼎隆說創業這兩年來因爲缺乏鍛煉和加班吃垃圾食品太多的緣故,他們都不約而同地變胖了。
在十一(yī)月某個夜裏的十一(yī)點,深圳燥熱的空氣漸漸涼卻下(xià)去(qù),碼特看了看紙(zhǐ)袋中(zhōng)剩餘不多的薯條,喝(hē)完最後一(yī)口可樂,抿了抿嘴,繼續回到他的座位上和兩三個同事熬夜。這對他來說已經生(shēng)活的常态,但他享受着。此時,在地球另一(yī)端,黃鼎隆依然獨自一(yī)人身在異國參加 APEC 會議,在那裏,他尋找着新的商(shāng)業合作夥伴。
和無數普通的夜一(yī)樣,這是他們普通的一(yī)夜。
和無數創業的故事一(yī)樣,他們的這個故事也才剛剛開(kāi)始。