本文來自微信公眾號:硅谷101 (ID:TheValley101),訪談:泓君、戴雨森(真格基金管理合伙人),文字:鐘子湫,題圖來自:《機械姬》
【資料圖】
隨著AI過火,最近越來越多的中國大模型加入了這場AI大模型之戰。中國的大模型跟海外大模型相比到底怎么樣?真格基金做了一套大模型的大模型測試集Z-Bench,設計了300個問題去評估中外大模型之家的綜合能力。
在這套評分系統下,今年3月份的測試數據,OpenAI推出的GPT03.5得分60多分,之后GPT-4發布得分80分。在這套評分系統剛剛推出來的3月份,真格對中國幾家創業公司的模型水平做了測試:一家是30分,一家是19分,國產的文心一言大概是20分的水平,幾個月前差距還是比較大。
“就在前兩天我們也陸續拿到一些國產的上市公司或者大型公司做的模型,又進行了一些測試,商湯的模型已經到了50分的水平。這也就是說國產大模型得分一開始和GPT差距很大,但現在的差距的確在不斷縮小?!闭娓窕鸸芾砗匣锶舜饔晟诮邮堋豆韫?01》采訪中稱:“但這里面同時也會有一個問題,就是說大模型的提分會不會有個平臺期,可能你從20追到50是容易的,但50到80可能就很難了?!?/p>
本期,《硅谷101》主理人泓君對話真格基金管理合伙人戴雨森,我們將聊聊,他對國內外頂尖大模型的使用體驗;以及除了芯片問題,國產大模型還有哪些要解決的問題。
以下是部分訪談精選:
一、大模型的使用體驗:效果震撼,迭代速度快
硅谷101:我對你特別感興趣的有兩點,第一是想問你對于大模型的使用體驗,因為我看你是一個大模型的深度使用者,不管是語言模型還是Midjourney。第二就是想問作為一個投資人,你是怎么看這些大模型的?今天我們的采訪也會分成這兩個部分去聊。你是什么時候開始注意到大模型然后去使用它的?
戴雨森:首先我非常喜歡嘗試新東西,所以我相信在一個大的革命發生的時候最好的方式就是去使用,體驗,而不是只是研究。在GPT3出來的時候,我其實也在一些 demo 上嘗試過,但坦率來講,那個時候GPT3表現出來的對話能力,尤其是中文對話能力沒有那么強。在ChatGPT出來的當天晚上,我的一位同事第一時間用上了ChatGPT,他非常的興奮,一直用到凌晨五六點鐘。我當時沒有OpenAI賬號,所以我還專門弄了一個國外手機號,結果終于在十幾二十個小時之后用上了ChatGPT。
我最震撼的是我當時給ChatGPT用自然語言描述了一下“20 問”這個游戲的規則。這個游戲本質上就是我心里想一個東西,你可以通過最多問20個問題來嘗試猜到我心中想的是什么,而我只能回答是,否,或者不確定。我大概用100多個字把這個規則跟ChatGPT描述了一遍,他就可以開始和我進行游戲了。第一次我想的是貓,它用了大概五六步就猜到了是貓。第二次我想的是拜登,它用了大概14步就猜到了拜登,我真的徹底被震驚了。
硅谷101:你覺得和真人比,ChatGPT的水平如何?
戴雨森:我覺得第一步是它能夠理解我給它的這個規則。第二步是它能夠有效地使用二分法去進行查找。如何高效地尋找玩家心中所想的詞匯?這時候就需要做一些二分法。比如玩家心里想的詞是不是有生命的?如果有生命,那它是不是人?是一個活著的人還是逝去的人?這些查找的方式都還挺不一樣的,但我覺得ChatGPT其實做得非常好。后來我還嘗試讓ChatGPT跟我下棋,寫代碼,還有當我的英語老師,它可以從初中到研究生水平給我出不同的英語的題,改我寫的英語作文,并且給出很多很好的建議。越使用ChatGPT,我越能發現他能不斷完成不同的任務。
硅谷101:除了ChatGPT,你也是Midjourney的重度用戶,你能感受到它從V3到V5的進化嗎?我們剛剛在講大語言模型,那現在再來說說擴散模型,你覺得它表現怎么樣?
戴雨森:Midjourney我是從V3開始用的。那時候它雖然可以產生一些有意思的概念,但和實際使用還有很大的差距,因為它還是不太能做出逼真的畫面。但V4的效果直接上了個大臺階。V4對于人物、照片的處理,包括一些很風格化的處理,很明顯到了一個能夠打敗大多數的普通藝術從業人員的水平。
接下來再來說說V5。V5讓很多細節和場景變得更真實了,所以有的時候不是那么的風格化,這就更貼近現實生活了。V5還有一個重要的功能就是“describe”。describe的功能是讓你傳一張圖片,然后模型可以給你生成幾個可能的prompt。傳統的文生圖工具需要你直接對著一個輸入框去想你要畫什么,這其實很難,因為人的創作往往是先看到某個圖片或者物體,被激發了靈感,然后再在這個基礎上進行調整。舉個具體例子,假設我看到一個圖片的構圖不錯,但我想改一下圖中的對象,或者我看到一個圖片景色不錯,但我想把畫中的“白天”改成“晚上”,這時候我就可以使用describe功能,讓模型幫我去生成一個很好用的prompt,然后我在此prompt的基礎上再進行修改。這與我之前先在腦子里主動想到一個場景,再根據語言詳細描述該畫面,自己從頭寫prompt的工作方式相比,簡單不少。
再總結一下,describe就是圖生文,只不過生成的文是prompt,然后你可以直接用這個prompt再生成圖。
(Midjourney的describe功能)
硅谷101:我記得你之前說你一直想畫一個大教堂,但是一直沒畫出理想的,卡在哪了?
戴雨森:可能我當時沒用describe這個功能去嘗試,如果我上傳一張科隆大教堂的圖,讓模型給我生成一個prompt,再基于這個prompt進行修改,沒準就能畫出理想的圖片了。但說實話,如果你想很仔細地畫一個東西,Midjourney不太行,在這方面stable diffusion加control net會更有優勢。Midjourney的特長在于幫你進行頭腦風暴和畫出很有藝術感的圖。但當加入了describe這些元素之后,模型的可控性就會變強一些,因為我相信大多數公司都是需要有時候發散,有時候可控。大量的商業場景還是需要可控的,如果它完全不可控,那肯定不是一個最有效率的方式,但是可能是一個最有意思的方式。
硅谷101:剛剛你提到了很多大模型讓你驚艷的部分,但如果反過來想,你覺得這些模型有哪些地方表現得還不夠好?有一個AI研究員告訴我們說如果你不知道某個問題的答案,就不要問ChatGPT,因為他給你的可能是對的,也可能是胡謅的。從你的角度,你覺得ChatGPT在哪些任務中可以被直接應用,而哪些方面還不太行?
戴雨森:首先,我覺得所有和語言相關的任務ChatGPT都可以直接應用。這個語言包括自然語言和編程語言。實際上現在很多人的代碼已經有超過一半是Copilot 寫的了。ChatGPT能夠很好地完成像翻譯、總結、改寫、擴寫等一系列語言任務,因為它本身就是大語言模型。其次,需要頭腦風暴的任務ChatGPT也可以很好的處理。比如列提綱,寫信,或者寫job description,針對這些任務,我都可以先讓ChatGPT把大概的內容列出來,然后我再進行修改。
但是,如果你長期使用ChatGPT,你會意識到它的缺點非常多,但同時你應該也能發現它在非常快地迭代和修正。在ChatGPT剛出的時候,它連三位數的加法都還沒法準確計算,但現在它其實能做更多位數的加法了,不過在乘法運算上還是差一些。
另外,它對于事實性問題的回答肯定還是不太行。所以,你要從語言和邏輯的角度使用ChatGPT。但如果你想從知識的角度去使用它,很多時候還是要通過prompt或者embedding的方式把增值的新信息給它快速灌進去,否則他就很可能會胡謅答案。整體來講,當你意識到它有這些缺點的時候,就不太會被它騙。但如果有一天ChatGPT的知識準確度達到了99%,只有1%的時候胡說八道,那個時候可能才是最危險的。
(由Midjourney繪制)
二、300個問題組成大模型的評分系統
硅谷101:我看到你們做了一個專門評價大模型評估的Benchmark,為什么要設計這樣一款模型?從你的評估模型來看, GPT 4比GPT 3.5好在哪?如果再把它跟一些國產的大模型比,好在哪?
戴雨森:先來介紹一下我們做這個評估模型的背景。當ChatGPT火了之后,出現了很多做聊天機器人或者做國產大模型的初創公司,有的公司用了ChatGPT,有的說自己訓了模型。但是,哪怕很多資深的投資人在面對一個新的類似GhatGPT的應用時,能做的也就是隨便問幾個問題,這種問題可能是隨便想的,或者說是難度比較低的,但這樣的測試其實很難反映出這個類似ChatGPT軟件的真實水平。
我們作為非技術人員,其實也不想做一個特別嚴謹的測試集,但我們希望能實現手工檢驗模型的邊界能力,因此,我們希望讓這些測試問題有區分度,有來歷。我們有時候會問一些日常中比較有意思的問題,比如問它麻辣螺絲釘的做法,看它會不會跟著胡編亂造。同時學界也有很多NLP任務的研究,比如OpenAI在ChatGPT 出來的時候就公布說ChatGPT已經具備了48種基礎能力,然后我們就通過這個構建了第一版本的測試問題。我們還從MMLU和BIG-bench這些比較成熟的NLP測試集中抽取了一些能在各個領域反映模型不同能力的內容。同時,我們也參考了ChatGPT新具備的能力,如涌現能力,寫代碼能力,用SVG語言畫圖的能力,處理更復雜應用題的能力,最后總共設計了300個問題。這樣一來,非技術人員也能夠通過手工輸入測試,來對一個大模型的整體能力進行評價。
(備注:MMLU是一個2020年推出的包含57個不同學科的數據集,科目從STEM到人文,題目難度從初級到高級不等,主要目的是為了檢驗預訓練模型的知識獲取程度。BIG-bench同理也是一個自然語言理解基準測試,旨在評估人工智能模型的泛化能力、理解力和創造性。)
在三月份的時候我們測試了一下,GPT-3.5的分數是60多分,而GPT-4則是大概70分。
硅谷101:這個60多分是怎么打的?怎么樣的評價標準?
戴雨森:用回答正確數量除以300。國產的文心一言大概是20分的水平,我們還測試了幾家創業公司的模型水平,一家是30分,一家是19分,雖然我們需要鼓勵創業公司,但是差距還是比較大。前兩天我們也陸續拿到一些國產的上市公司或者大型公司做的模型,又進行了一些測試,整體來講進步還是很快的。比如說商湯的模型已經到了50分的水平。到了現在,GPT-4現在也許已經可以打80多分了,這也就是說國產大模型得分一開始和GPT差距很大,但現在的差距的確在不斷縮小。但這里面同時也會有一個問題,就是說模型的提分會不會有個平臺期,可能你從20追到50是容易的,但50到80可能就很難了。
硅谷101:除了從分數角度對比不同的模型,能不能給大家舉個例子,假設針對同一個問題,GPT-3.5,GPT-4還有文心一言的回答都是怎么樣的?
戴雨森:假設你問這些大模型麻辣螺絲釘的做法,應該只有GPT-4會瞬間告訴你螺絲釘不是一個菜,不能吃;但其他的模型都會假模假樣地說麻辣螺絲釘的做法是放上辣椒,加上紅油,然后再加入螺絲釘少許。同樣,當時我們還有一個很經典的問題,就是問大模型為什么爸媽的婚禮沒邀請我參加。只有GPT-4回答了正確答案——你當時還沒出生;而其他模型都回答說可能因為當時他們太忙沒邀請你,或者你沒時間。
硅谷101:你剛提到的這個麻辣螺絲釘的例子特別有趣。我們之前在播客錄制的時候,有一個嘉賓直接在播客里問我晚上有沒有吃爆炒籃球。后來在這個播客播出去了以后,就有很多聽眾在GPT-3.5上搜爆炒籃球,我看按照他們評論的時間,最開始GPT-3.5還會一本正經地解釋這個爆炒籃球怎么做。但是隔了一兩天后,GPT-3.5第一次告訴大家爆炒籃球不能吃,或者這樣做是有風險的。再隔一天GPT-3.5就會告訴大家,爆炒籃球不是一個菜,就不應該這樣做,由此可見GPT-3.5是在不斷進化的,而且進化速度很快。
戴雨森:你去用ChatGPT的時候,你會發現下面有一行小字,這個小字就是告訴你現在用的是ChatGPT哪一天的版本。在我們不斷和ChatGPT進行交互的過程中,用戶可以頂,可以踩,也可以重新讓ChatGPT生成新的回答,生成新回答之后ChatGPT可能還會問你這個新答案比原來的更好還是更差。所以其實我們用戶是在不斷通過人工反饋,來讓模型訓練的越來越好,這就形成了數據的飛輪效應。雖然很多地方都有這種用戶的對話數據,但是就用戶跟特定聊天機器人的對話數據而言,ChatGPT的數據量遠遠大于其他人。
硅谷101:說到大模型的變化,過去兩個月的進展真的太快了。在過去一兩個月內,大模型領域有哪些進展?你現在的認知跟兩個月以前有什么不一樣?
戴雨森:我覺得進展非常大。在ChatGPT剛出來的時候,我只是把它當作一個聊天機器人,我們驚訝的是它能夠進行多輪對話,還能夠根據下文給出合適的回答,但這基本都屬于NLP的任務。
后來,我們逐漸發現它可以寫代碼,寫營銷文案,甚至圖像類的生成模型還能幫我們生成精美的圖片、照片、還有漫畫。這時候,ChatGPT就從聊天機器人進入到下個Copilot階段。在這個階段,它能夠幫助我們去做很多事情,而我們要做的就是給出目標,幫助Copilot進行選擇和調整。
接下來,得益于像reflection、Hugging-GPT這幾篇論文,Auto-GPT和Baby AGI這類大模型也逐漸發展起來了。這些模型能夠識別一個任務,把它進行拆解,分解成子任務,調動合適的工具去完成子任務,觀察自己完成的結果,對結果進行反思,并且調整他要做的任務,實現了從識別任務到調整任務的一整個循環。同時,GPT-4也出了插件系統,之后它就可以調用外部的插件去檢索信息,寫代碼,然后完成很多更復雜的任務。在這個階段,大模型又從Copilot進一步變成了Agent。那么在Agent的設定下,大模型就可以基于人給出的初始目標,然后通過自我迭代去完成目標了。
如果我們把大模型的迭代跟自動駕駛去對比的話,大模型也可以有一個五級分類:
L1就相當于AI沒有做任何事,都是人做事情。
到了L2,人可以去問AI很多問題, AI可以給我們信息,但還是人來做事情,這個就比較像現在我們和ChatGPT的交互模式。
L3則是Copilot階段,就是人和AI都要做事情,并且付出的精力都是50,比如像寫代碼的GitHub Copilot,或者像需要人給出prompt才能生成圖片的Midjourney。
到了L4,人更像一個監督者,人要做的主要就是給出目標,監督AI,以及提供一些必要的接口和計算資源。Auto-GPT和Baby AGI就是L4的雛形,當人給出了目標后,AI將會去自主地分解任務,選擇工具,并且最終完成任務和進行匯報。在這個階段,AI做了大部分工作,而人需要做的則是指定任務和監督。
那么L5是什么樣子的呢?到了這個階段,可能人只需要給出目標,連監督都不用了,AI就能把所有的事情全都做完,并且可以一直延續下去。馮諾伊曼提出的馮諾伊曼機器人就是可以進行自我復制的機器人,他可以自己搜集資料,復制自己,最后擴展到整個銀河系。從某種意義上講,人可能也是一種完全自主的生物,如果有上帝的話,人類可能就是一個達到了L5的智能。
綜上,在不同的范式下,人和AI的關系其實是不一樣的。
三、國產大模型:不只是芯片問題
硅谷101:國內最近也有很多大廠的大模型在密集發布,比如說百度、阿里、華為;另外,上一批移動互聯網創業的成功者也在做大模型,比如王慧文,王小川;像賈揚清、李志飛之前說要做大模型,但現在做的應該算是應用。你能否介紹一下,中國市場大家做的大模型分別都是什么?
戴雨森:目前來看,像百度、字節、阿里、騰訊、商湯、360這些大廠,包括王慧文、王小川的公司,唐杰帶隊的智譜,這些都是想做一個類似GPT-3.5或者GPT-4的大模型。這類大模型一般都有上百億參數,能夠解決很多NLP和通用領域的問題。但是像賈揚清,他可能是想做一個偏中間層的創業公司。我覺得在這過程中肯定大家也會去思考到底大模型是不是適合做,以及現在是不是做這件事的最好時機。
同樣,大家現在是基于有了ChatGPT才能夠去延伸的這么一個邏輯。但越到后來大家可能越會有不同的觀點出現:第一,如果出現了一個很好用的國產大模型,沒有搶到頭籌的團隊可能就會去想是不是轉去做應用會更好?第二,做大模型真的是了解現在的AGI或者未來AGI能力的唯一途徑嗎?也許大家未來會有其他理解方式,所以其實也沒必要做大模型。
舉個更形象一點的例子,目前大家只有坐船才能到美洲,所以所有人都先造船。如果有一天大家有飛機了,那也不用造船了。但就目前沒有飛機的情況來看,還是得先造船。現在在中國,所有人都沒有船,因此大家的第一反應都是要自己造,這是個很正常的情況。美國為什么沒有獨立做大模型的新公司了?因為美國已經有幾條固定的“大船”了,如OpenAI號,Claude號(Claude是由Anthropic開發的聊天機器人,Anthropic是由OpenAI黑手黨創立的AI公司),Cohere號(Cohere是一個在多倫多的NLP處理平臺公司,由Google前研究人員創立),還有Bard號(Bard是Google開發的基于LaMDA大語言模型的聊天機器人)。有了船之后,人們就該思考“到美洲之后我該做什么”了,有的人去種棉花,有的人去挖煤炭,于是各種用于不同場景的應用就相繼出現了。
硅谷101:那中國的大模型未來是一個怎么樣的格局?是一家獨大,還是百家爭鳴?
戴雨森:我覺得這個問題目前來看還沒有答案,我覺得未來的大模型格局會是一個光譜。
第一種就是集中度最高,也就是贏者通吃的局面。如果大模型未來是一個主要ToC的場景,也就是說未來很多人都會用像ChatGPT這樣的助理,那么我可以想象,大部分人最后都只會用某一個最領先的助手,可能是ChatGPT,也可能是另一家公司,但我完全沒有理由用一個第二名的。就像Google的搜索引擎占了93%的搜索引擎份額,你如果做的引擎超不過Google,我肯定不用你,就算你超過了,但沒超過太多,我也沒動力為你改變我之前的習慣。
第二種,也有可能形成一個寡頭壟斷的局面。假設未來使用大語言模型的場景是ToB而非ToC,并且OpenAI沒辦法長期保持一個特別遙遙領先的狀態,那么第一梯隊可能會有2到3家或者3到4家都還不錯,各有特點的公司。這就像公有云一樣,有的公司跑在AWS上,有的跑在Azure上,還有的跑在Google Cloud Service上。
第三種,也有可能形成一個百家爭鳴的局面。大模型這事現在很厲害,但當它逐漸變成開源的,越來越多的人都可以把開源的模型微調之后部署在自己的服務器上,那這個時候可能就變成了一種百家爭鳴狀態。也許OpenAI就是一個開創者,未來它的大量技術都變成了人類共有的技術。
硅谷101:在聊到大模型的時候,大家都會談到芯片。如果未來芯片不能持續供應,或者說芯片性能跟不上,但美國的芯片還在持續進化中,你是否覺得中美大模型之間的差距會越來越大?
戴雨森:第一,我們要弄清楚大模型訓練是個百米賽跑,還是百公里長跑?如果它是一個很快會遇到瓶頸的事情,那可能現有的算力就夠了。但是,如果模型未來會變得越來越大,那現在這些芯片就不太能用了。雖然現在很多人認為后者是未來格局,但是也不一定。
第二,模型訓練的效率和方法本身也在不斷提高,在之前需要很多算力才能被訓練的模型,現在也許會有更省算力的訓練方式。
第三,芯片雖然是我們現在看到的一個顯著問題,但我們在數據、基礎設施、算法這些方面其實都有很多待解決的問題,因此我們不能把問題的解決方式只簡化成“買一萬塊A100芯片”。你如果非要一萬塊A100,其實國內是有這個數量的,但是我們離用好1萬塊A100還差很遠。
假設你想探索怎么去做一個像GPT-3.5那樣的模型,其實根本用不到一萬塊A100,你想想GPT-3其實是在一萬塊V100上訓練出來的,而且GPT-3.5 本身就是一個更小的模型。所以,這件事反映出來我們其實有很多跟芯片一樣重要,甚至在短期內比芯片更重要的問題還沒有被解決。
硅谷101:中文互聯網的數據你覺得會是一個問題嗎?
戴雨森:我覺得完全不是問題。簡單來說,ChatGPT并沒有用什么獨有的中文數據,它就已經在中文上具有這么好的表現了。如果從預訓練的部分來看GPT-4的話,實際上維基百科和Common Crawl對應的論文都是通過英文,然后泛化到中文來的。
所以,我并不覺得Open AI擁有我們沒有的中文數據,但如何將現有的中文數據進行清洗,標注,提供人工反饋,這才是真正的難點。可見我們需要解決的是一個工程問題,而非語料問題。
四、AI的安全風險與未來
硅谷101:GPT是怎么做出來的,它中間經歷了哪些重要的時刻?能否介紹一下幾個關鍵節點?
戴雨森:現在微軟可以每天訓練一個GPT-3,因為訓練GPT-3已經變成了一個順手可做的事情。但是微軟自己沒辦法訓練GPT-4 ,只有在Azure那一臺專門為訓練GPT-4打造的超算上才可以訓練,可見 GPT-4的訓練難度高了很多。
硅谷101:為什么微軟可以隨便訓練一個GPT-3?而GPT-4就不行?
戴雨森:GPT-3所需要的算力以及對應的架構已經很成熟了,你可以直接通過云服務獲得算力,但 GPT-4所需要的算力達到了一個新的級別。其實GPT-4初始的能力比現在強很多,我看過一些沒有經過微調的GPT-4畫出來的圖像,它比現在GPT-4畫出的圖像精細很多。如果你看了“通用人工智能的火花”這篇論文,你會發現GPT-4是可以畫圖的。在論文中它畫了個獨角獸,但是那已經是經過微調之后的GPT-4畫的了。沒有經過微調的GPT-4畫的圖其實要比那個精細很多。換句話說,GPT-4為了和人類對齊,犧牲了很多它的能力。
硅谷101:你剛提到GPT-4沒有經過微調的版本比現在強大很多,為了讓它符合安全標準,不要說不該說的話或者有種族歧視,它經歷了八個月的安全測試。你覺得OpenAI的下一步會怎么走?它有可能會把之前未閹割的模型版本再放出來一些嗎?
戴雨森:這個問題可能只有Sam Altman(OpenAI總裁)能回答。首先,OpenAI讓我覺得很厲害的一點就是他們一開始是一個研究機構,而且研究內容比較發散,但后來就變成了一個做產品的公司。
GPT=4發布之后,我聽到兩種聲音:一部分人覺得很失望,因為它沒有做文生圖或者多模態,主要還是文字。但同樣還有一部分人覺得很厲害,當然后面插件和Auto-GPT出現之后,就更厲害了。這恰恰反映了OpenAI在用一種做好產品,做一個上億人使用的基礎產品的態度去做這件事情。如果是個學術研究機構,他可能會更有動力去發表一個視頻到文字,或者說文字到視頻的研究結果。
OpenAI不光把已有的基礎打好了,它還在努力的讓產品去和現有的價值觀匹配,那么這個價值觀主要是美國加州白人男性的價值觀。全世界有很多文明,在一個文明完全正確的事情,在另外一個文明可能就是不正確的。同樣我們的價值觀變化也非???。
在價值觀不斷演變的過程中,你會發現AI該跟什么價值觀對齊,該如何動態調整,都還存在很多問題。那么在這個過程中我覺得也需要一些跨國的合作,就像核不擴散國際公約一樣,但核不擴散條約大家是否遵守還比較好檢驗,但是在計算機里運行著的最先進的AI實際上很難被看出來。因此,我們一定要去思考該如何對這種未知,同時又可能具有很大破壞性的應用進行監管。
舉個例子,電話詐騙、殺豬盤,現在可能是比較弱智的騙術,但以后有了AI的加持,就會變得更加強大。進一步去想,假設在一個選舉中可以用AI打電話給100萬個關鍵選民,結果有1萬人改了投票,也許美國總統就變了,這可能就是非常大的一個變化。另外,如果AutoGPT調用了一個發消息應用的API,它完全可以不知疲倦地生成虛假內容,去填塞整個互聯網。AI消滅人類還是比較偏科幻,但是它目前是個強大的語言工具,而我們又缺乏對于一個看似形式很完善的謊言的識別能力,所以這其實非常危險?,F在有些人抨擊OpenAI說它不開源,但我認為如果我們還沒意識到GPT的能力,冒然開源可能會有很大的風險,至少我們等到知道該怎么防御,再進行開源。
硅谷101:除了AI的安全風險,我覺得OpenAI的股權設置也很值得討論。Sam本人他是沒有任何OpenAI的股權的,主要股權都給了OpenAI的科學家。OpenAI一開始是一個非盈利型公司,但后來又在非盈利下面設了一個盈利型公司。如果在盈利型公司有股權,就意味著可以獲得財務回報,但是在董事會就會沒有投票權。Sam不持盈利性公司的股權,也就是說不要財務回報,而要投票權,我在想為什么Sam要去做這樣一種設置?
戴雨森:Sam其實提到了一點,微軟現在雖然有49%的收益權,可以賺錢,但是它沒有控制權。因為他們從一開始就相信這樣的技術很危險,需要得到有效的監管和控制,不能夠落入邪惡的大公司手里。但是,又因為大公司有錢,能夠幫助小初創公司去開發,所以大家才定下來這種收益和控制分開的協定。這是一個很有意思的設定,大家提前把話說清楚,賺錢,控制,你只能選擇一個。最開始,OpenAI就是因為不在這種大集團里,才吸引了很多優秀人才,但是隨著公司未來越做越大,還是得解決被資本裹挾的問題。
硅谷101:我看到你們也投大模型的應用層,我很好奇從投資的角度,你會怎么去判斷一個項目,甚至是一個人他值不值得投?
戴雨森:底層能力我們一直認為是類似的,比如說學習力、領導力、創新力、意志力,這些都是普世的優秀品質。但是,每個公司的情況不一樣,創始人所需要具備的技能也不一樣。某個新領域的第一家公司可能需要創始人有很強的探索能力,但第二家公司可能就需要更強的執行能力,所以我覺得不宜直接去類比。
另外,OpenAI幾個人的搭配非常厲害,每個人在自己應該做的事情上都是世界頂級的。比如Greg Brockman有90%的時間都在寫代碼,在這里我不是想強調他代碼寫得多么好,而是想說在公司早期很多事情都不確定的時候,組織里面有一個非常有話語權,執行力非常高,且知道每一個環節都在具體做什么的人非常重要。
當公司業務已經比較清楚,且到達了一個學習,研究和探索的階段后,如果核心成員會的東西牽涉到的領域多,牽涉到團隊多,就會很有幫助了。但不管怎么說,有技術背景的人當CEO,也有老王這種商業業務背景的人當CEO,創業它永遠無法是一副完美的牌,哪怕你有看上去完美的牌,你也未必能打得完美它。
硅谷101:最后還有什么要補充的嗎?
戴雨森:首先,我覺得AI這一波跟之前的元宇宙,Web3這種大家覺得有泡沫的浪潮,我覺得還有些不太一樣的地方。任何科技進步都有很多泡沫,沒有泡沫的地方也不會有啤酒,但是我覺得判斷一個事情是不是只有泡沫,取決于他是否給普通的用戶提供了直接的價值。不管是AIGC還是ChatGPT,都做到了在使用門檻低的情況下給普通用戶提供了價值。原來我們所有的技術其實都在改進我們使用的工具,而這次是第一次我們直接改變了工具,并且這個新工具可能是比我們人類還要更強大。數字世界的迭代是非常快的,我們看到的像Auto-GPT這樣的雛形,可能三五年之后就會變得完全不一樣,會完善、成熟很多。所以在這個過程中我們要保持開放心態。
然后最重要的一點,在一個技術革命的早期去預測未來,基本上都是錯的。試想2010年的時候,移動互聯網的浪潮其實已經開始了,然后移動互聯網跟互聯網比其實也差不太多,但如果讓你在2010年預設2023年的移動互聯網贏家,你會想到字節、快手、小紅書、拼多多、美團、滴滴、Uber嗎?我覺得非常難。如果預測移動互聯網都這么難,那預測AI我覺得就更難。就有人說大模型會吞食掉應用的空間,有人說開源會戰勝閉源,我覺得我們一定要記住,這是一個大部分人就只接觸了幾個月的技術,所以這個時候大家可以猜測,但不用特別在意它的精確度。尤其是對于年輕人來講,早點去投身其中,去嘗試、去探索其實才是代表命運最好的方式。
在過去幾年我經常聽人說80后很幸運,因為趕上了互聯網的浪潮。我覺得20年之后,大家會說00后很幸運,因為趕上了AGI火花的誕生。我相信技術成熟有利于成熟創業者,但新技術反而利好年輕人。
本文來自微信公眾號:硅谷101 (ID:TheValley101),訪談:泓君、戴雨森(真格基金管理合伙人),文字:鐘子湫
關鍵詞: