国产乱人伦精品一区二区,国产在线麻豆精品观看,国产在线播精品第三,亚洲欧美国产制服动漫

您的位置:首頁>智東西 >

大模型 GPT-4 預測長這樣:比 GPT-3 略大、純文本、更注重最優計算與對齊

來源:IT之家  

不久前,谷歌發布基于他們最新一代人工智能架構 Pathways 研發的 5400 億參數大模型 ——PaLM,具備標記因果關系、上下文理解、推理、代碼生成等等多項功能,其中常識推理能力更是較以往的語言模型有較大提升。

但同時,大家也一如既往地注意到 PaLM 的計算成本:用了 6144 塊 TPU。如果租顯卡訓練,最高花費可能達到 1700 萬美元(人民幣超過 1 個億,“一個小目標”)。

顯然,這很燒錢,不符合“經濟可用”的原則。難怪業內人士常常吐槽:苦大模型久矣。

如果模型往大走,一個勁地砸錢,何時是個盡頭?有學者也向 AI 科技評論表示:類似 PaLM 這樣的大模型在結果上確實取得了不錯的突破,但訓練與計算的成本非常高,沒必要將許多任務拼在一起。

對于大模型的未來發展,GPT 系列或許能提供一些新的見解。

近日,Cambrian AI 的分析師 Alberto Romero 便發表了一篇文章,基于 OpenAI 首席執行官 Sam Altman 在數月前的說法,推測 GPT-4 即將在今年 7 月到 8 月發布,并基于 Altman 在去年的一場問答,對 GPT-4 的特征進行了預測。

可以肯定的是,Altman 稱,GPT-4 的參數不會達到 100T。

Alberto Romero 也猜測,或許 GPT-4 的規模會比 GPT-3 略大,但“大”不會像 GPT-3 一樣成為 GPT-4 的“賣點”。相反,OpenAI 更致力于如何讓規模較小的模型發揮更大的性能。

預測 1:GPT-4 不會太大

首先,Alberto 判斷,GPT-4 不會是最大的語言模型。Altman 也稱它不會比 GPT-3 大很多。與前幾代的神經網絡相比,GPT-4 肯定會很大,但大小不會是它的顯著特征。GPT-4 可能介于 GPT-3 和 Gopher (175B-280B) 之間。

接著,Alberto 給出了他預測的理由:

去年由英偉達和微軟開發的 Megatron-Turing NLG 有 530B 參數,一直是最大的密集神經網絡 —— 其大小已是 GPT-3 的 3 倍 —— 直到最近出現了谷歌的 PaLM,其大小為 540B。但值得注意的是,MT-NLG 之后的一些較小的模型達到了更高的性能水平。

也就是說,更大 ≠ 更好。小型模型的存在有兩個意義。

其一是,企業已經意識到,要改善性能,擴大模型的規模不是唯一的方法,也不是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事得出結論,當增加的計算預算主要分配到增加參數的數量上時,性能的提高是最顯著的,并且遵循冪律關系。谷歌、英偉達、微軟、OpenAI、DeepMind 和其他開發語言模型的公司從表面上看接受了這一指導原則。

論文地址:https://arxiv.org/ pdf / 2001.08361.pdf

MT-NLG 雖然規模很大,但在性能方面并不是最好的。事實上,它在任何單一類別基準上都不是最好的存在。像 Gopher (280B) 或 Chinchilla (70B) 這種更小的模型 —— 哪怕僅僅是其一小部分 —— 在任務上的表現都比 MT-NLG 好得多。

第二個意義是,公司開始拒絕“越大越好”的教條。雖然增加參數很簡單,但是擁有更多參數只是眾多可以提高性能的因素之一,而附帶損害(如碳足跡、計算成本或進入死路)反而使其成為最糟糕的因素之一。如果企業能夠從一個較小的模型中獲得類似或更好的結果時,在構建一個龐大的模型之前就會三思而后行。

Altman 說,他們不再專注于制造非常大的模型,而是致力于讓較小的模型發揮最大的作用。OpenAI 的研究人員是縮放假設(scaling hypothesis)早期的倡導人,但現在他們可能已經意識到其他還沒走過的路可以改進模型。

相比將 GPT-4 做大,Alberto 更傾向于認為,OpenAI 會將把重點轉移到其他方面 —— 比如數據、算法、參數化或對齊 —— 這些因素可以更顯著地改進模型。

預測 2:GPT-4 試圖尋找“最優”

當涉及到優化時,語言模型會遇到一個關鍵的問題。訓練如此昂貴,以至于企業不得不在準確性和成本之間做出權衡。而這種抉擇常常會導致模型明顯未優化。

GPT-3 只被訓練了一次,仍有一些錯誤,這些錯誤在某些情況下可能會導致重新訓練。由于成本太高、負擔不起,OpenAI 決定不進行優化,而這使得研究人員無法找到模型的最佳超參數集(例如學習速率、批尺寸、序列長度等)。

訓練成本很高導致的另一個后果是模型行為的分析受到限制。當 Kaplan 的團隊總結出模型大小是提高性能最相關的變量時,他們沒有考慮到訓練令牌的數量 —— 也就是輸入模型的數據量。這樣做將需要大量的計算資源。

科技公司遵循 Kaplan 的結論,因為這已是他們所知最好的想法。諷刺的是,正是受到經濟限制的影響,谷歌、微軟、Facebook 和其他公司在越來越大的模型上“浪費”了數百萬美元,并且在這個過程中產生了大量的污染。

現在,以 DeepMind 和 OpenAI 為首的公司正在探索其他方法。他們試圖找到最優模型,而不僅僅是更大的模型。

最佳參數化

上個月,微軟和 OpenAI 證明,如果使用最優超參數訓練模型,GPT-3 可以得到進一步的改進。他們發現,6.7B 版 GPT-3 的性能提高了很多,可以與最初的 13B 版 GPT-3 媲美。超參數調優(對于較大的模型來說不可行)賦予的性能提升相當于參數數量增加了一倍。

他們發現了一種新的參數化 (μP),在這種參數化中,小型模型的最佳超參數也同樣適用于同類大型模型。μP 使他們能夠優化任意大小的模型,而且只需花費很小一部分的培訓成本。然后這些超參數可以幾乎不花錢地轉移到更大的模型中。

最優計算模型

幾周前,DeepMind 重新審視了 Kaplan 的發現,并意識到訓練令牌的數量與模型大小一樣影響性能,而這與人們的看法相反。他們的結論是,隨著更多的計算預算可用,應該將其平均分配給可縮放參數和數據。他們通過訓練 Chinchilla 來證明自己的假設,Chinchilla 是一個 70B 模型(是曾經的 SOTA,比 Gopher 小 4 倍),它使用的數據是 GPT-3 (1.4T 令牌-來自典型的 300B)以來所有大型語言模型的 4 倍。

結果是明確的。在許多語言基準測試中,Chinchilla“一致且顯著地”優于 Gopher、GPT-3、MT-NLG 和所有其他語言模型,而目前的模型有過大的問題,且訓練不足。

考慮到 GPT-4 將略大于 GPT-3,根據 DeepMind 的發現,GPT-4 需要達到計算優化的訓練令牌數量將約為 5 萬億,比當前的數據集高出一個數量級。他們需要訓練模型以達到最小訓練損失的失敗次數,將比他們使用 GPT-3(使用 Gopher 的計算預算作為代替)時多 10 - 20 倍。

Altman 在問答中說 GPT-4 將比 GPT-3 使用更多的計算時,可能就是在指這一點。

OpenAI 肯定會對 GPT-4 進行優化相關的調查 —— 盡管具體到什么程度還無法預測,因為他們的預算是未知的。可以肯定的是,OpenAI 將專注于優化除模型大小之外的其他變量。找到超參數的最佳集合,最優計算模型大小和參數的數量可以在所有基準測試中帶來難以置信的改進。如果將這些方法合并到一個模型中,那這個模型將會達到一個所有預測都難以想象的高度。

Altman 還說,如果不把模型做大,人們就不會相信模型能有多好。他可能是指擴大模型尺寸的工作目前已經結束。

預測 3:GPT-4 將是一個純文本模型

深度學習的未來是多模態模型。人類的大腦有多種感覺,這是因為我們生活在一個多模態的世界。每次只以一種模式感知世界,極大地限制了人工智能處理或理解世界的能力。

然而,良好的多模態模型比良好的僅用語言或僅用視覺的模型要難得多。將視覺信息和文本信息組合成單一的表示形式是一項艱巨的任務。我們對大腦是如何做到這一點的了解非常有限(并不是說深度學習社區考慮了認知科學對大腦結構和功能的見解),所以我們不知道如何在神經網絡中實施。

Altman 在問答中說 GPT-4 不會是多模態的(像 DALL?E 或 LaMDA 那樣),而是一個純文本模型。因此,Alberto 的猜測是,在跳到下一代多模態人工智能之前,他們試圖通過對模型和數據集大小等因素進行調整來達到語言模型的極限。

預測 4:GPT-4 將是一個密集模型

稀疏模型利用條件計算,使用模型的不同部分處理不同類型的輸入。稀疏模型最近取得了巨大的成功,其可以很容易地擴展到超過 1T 參數標記,而不會產生高額的計算成本,能夠在模型大小和計算預算之間創建一個看似正交的關系。然而,MoE 方法的好處在非常大的模型上就沒那么多了。

考慮到 OpenAI 關注密集語言模型的歷史,Alberto 認為,GPT-4 大概率也將是一個密集模型。又因為 Altman 說 GPT-4 不會比 GPT-3 大很多,我們可以得出結論,稀疏性不是 OpenAI 的選擇 —— 至少目前是這樣。

鑒于人工智能的靈感來源,即人類大腦,嚴重依賴于稀疏處理。與多模態一樣,稀疏性很可能會主導未來幾代的神經網絡。

預測 5:GPT-4 會比 GPT-3 更對齊

OpenAI 在解決 AI 對齊問題上投入了大量的精力:如何讓語言模型遵循我們的意圖并堅持我們的價值觀 —— 不管這到底意味著什么。這不僅是一個數學難題(例如,我們如何讓人工智能準確理解我們想要的東西?),而且也是一個哲學難題(比如沒有一種通用的方法可以讓人工智能與人類保持一致,因為人類價值觀在不同群體之間的差異是巨大的,而且常?;ハ鄾_突)。

他們使用 InstructGPT 進行了第一次嘗試,這是一種通過人類的反饋來學習遵守指令的新 GPT-3 (不管這些指令是出于好意還是惡意,都沒有被納入模型中)。

InstructGPT 的主要突破在于,不管其在語言基準上的結果如何,其都被人類評審認為是一個更好的模型(這些評審是一個由 OpenAI 員工和英語人士構成的同質的群體,所以我們應該對得出的結論保持謹慎的態度)。這顯著表明,我們有必要克服把基準作為評估人工智能能力的唯一指標。人類如何感知這些模型可能同樣重要,如果不是更重要的話。

考慮到 Altman 和 OpenAI 要遵守作為一個有益 AGI 的承諾,我相信 GPT-4 將實現并構建他們從 InstructGPT 中獲得的發現。

我認為他們將改進對齊模式的方式,因為目前為這個模型制作標簽的僅限于 OpenAI 員工和英語人士。而真正的對齊應該包括各種性別、種族、國籍等方面群體。這是一個巨大的挑戰,朝著這個目標邁進的任何一步都將受到大眾的歡迎。

6 總結

模型大?。篏PT-4 將比 GPT-3 大,但與目前最大的模型(MT-NLG 530B 和 PaLM 540B)相比不是很大。模型規模不會是一個顯著的特征。

最優性:GPT-4 將比 GPT-3 使用更多的計算。GPT-4 將實現對參數化(最優超參數)和比例法則(訓練令牌的數量與模型大小同樣重要)的新優化見解。

多模態:GPT-4 將是一個純文本模型,而不是多模態模型。OpenAI 希望在完全跳到像 DALL?E 這樣的多模態模型之前先充分利用好語言模型。

稀疏性:按照 GPT-2 和 GPT-3 的趨勢,GPT-4 將是一個密集模型(所有參數將用于處理任何給定的輸入)。在未來,稀缺性將變得更加重要。

對齊:GPT-4 將比 GPT-3 更對齊,其將從 InstructGPT 進行學習,而 InstructGPT 是根據人類的反饋進行訓練的。不過,人工智能的對齊還有很長的路要走,我們應該仔細評估所做出的工作,而不應該對此進行炒作。

你怎么看?

參考鏈接:

https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe

https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/

關鍵詞: 語言模型 人工智能 神經網絡

最新文章
国产乱人伦精品一区二区,国产在线麻豆精品观看,国产在线播精品第三,亚洲欧美国产制服动漫
欧美激情第三页| 黑人极品videos精品欧美裸| 久久免费黄色| 亚洲国产精品久久91精品| 在线免费精品视频| 99日韩精品| 夜夜嗨av一区二区三区网页| 欧美日韩1区2区| 这里只有视频精品| 亚洲伊人色欲综合网| 欧美一区二区三区久久精品| ●精品国产综合乱码久久久久| 国产精品捆绑调教| 亚洲一区二区动漫| 亚洲国产日韩综合一区| 亚洲国产欧洲综合997久久| 久久久精品2019中文字幕神马| 欧美激情成人在线视频| 亚洲精品视频在线观看免费| 国产一区二区三区自拍| 亚洲国产精品电影在线观看| 亚洲嫩草精品久久| 亚洲欧洲一区二区天堂久久| 亚洲欧洲视频| 国产日韩亚洲欧美综合| 欧美特黄a级高清免费大片a级| 久久久夜色精品亚洲| 亚洲经典三级| 久久精品中文字幕一区| 国产精品二区在线观看| 麻豆精品在线视频| 免费成人网www| 欧美视频官网| 欧美电影免费观看高清完整版| 欧美电影免费观看高清完整版| 欧美剧在线免费观看网站| 国产精品看片你懂得| 欧美韩日视频| 黄色成人在线免费| 亚洲欧美一区二区三区在线| 一本久久综合亚洲鲁鲁| 亚洲电影免费观看高清完整版在线观看| 国产午夜精品在线| 亚洲精品孕妇| 国内精品国语自产拍在线观看| 你懂的国产精品| 91久久精品美女高潮| 久久www免费人成看片高清| 亚洲精品综合久久中文字幕| 久久久中精品2020中文| 麻豆精品精品国产自在97香蕉| 午夜精品久久久久久久白皮肤| 亚洲激情小视频| 久久久久国产精品午夜一区| 午夜欧美大尺度福利影院在线看| 欧美福利一区二区| 99在线精品视频| 午夜久久影院| 亚洲国产欧美精品| 久久九九热re6这里有精品| 欧美亚男人的天堂| 中文欧美字幕免费| 在线国产精品一区| 久久青草福利网站| 欧美日韩精品是欧美日韩精品| 亚洲乱码国产乱码精品精| 国产一区二区三区久久悠悠色av| 久久婷婷蜜乳一本欲蜜臀| 欧美日韩视频在线一区二区观看视频| 国产视频在线观看一区二区三区| 亚洲国产精品电影在线观看| 久久精品亚洲| 亚洲一区尤物| 在线亚洲一区观看| 国内自拍亚洲| 久久精品动漫| 一本一本久久| 国产精品99久久久久久久vr| 国产日韩精品视频一区| 亚洲人成啪啪网站| 欧美国产日韩一二三区| 久热国产精品视频| 亚洲国产一区二区三区高清| 国产伊人精品| 最新国产成人av网站网址麻豆| 91久久夜色精品国产九色| 久久精品五月婷婷| 免费试看一区| 久久国产精品久久w女人spa| 在线观看欧美亚洲| 国产欧美欧美| 欧美激情第4页| 欧美日产在线观看| 久久综合九九| 狠狠色丁香婷婷综合| 亚洲人成在线观看一区二区| 欧美日韩1区2区| 国产主播一区二区三区| 久久er99精品| 亚洲欧洲日韩综合二区| 国产午夜精品一区二区三区欧美| 狠狠88综合久久久久综合网| 亚洲女人天堂成人av在线| 欧美精品一区二区三区高清aⅴ| 欧美高清免费| 久久综合免费视频影院| 激情一区二区| 一区二区av在线| 精品动漫av| 亚洲一区二区视频在线观看| 麻豆精品传媒视频| 欧美日韩国产探花| 亚洲综合日本| 亚洲国产一区二区a毛片| 国产欧美一区二区精品性色| 国产精品综合色区在线观看| 欧美成人自拍视频| 欧美日韩在线一区| 美女脱光内衣内裤视频久久网站| 亚洲伦理久久| 久久黄色网页| 亚洲免费在线看| 巨乳诱惑日韩免费av| 久久影视三级福利片| 伊人狠狠色j香婷婷综合| 国产真实乱偷精品视频免| 亚洲精品久久久久久久久久久久| 久久久久久香蕉网| 亚洲视频中文| 亚洲国产一区二区三区在线播| 久久精品91久久香蕉加勒比| 激情综合在线| 免费亚洲电影在线| 激情综合久久| 国产精品美女久久久久aⅴ国产馆| 蜜月aⅴ免费一区二区三区| 亚洲美女精品久久| 亚洲专区国产精品| 欧美三级日韩三级国产三级| 欧美日韩在线视频一区| 91久久久久久国产精品| 性视频1819p久久| 日韩小视频在线观看专区| 欧美伊久线香蕉线新在线| 久久精品日韩欧美| 欧美成熟视频| 欧美一级黄色录像| 国产情侣久久| 欧美区高清在线| 欧美韩日一区二区三区| 一区二区免费在线视频| 国产精品国产三级国产aⅴ入口| 亚洲最新色图| 欧美日韩精品一本二本三本| 欧美精品国产一区二区| 国模 一区 二区 三区| 国产精品麻豆欧美日韩ww| 国产精品美女久久久久久免费| 国产精品黄页免费高清在线观看| 欧美成人免费视频| 国产精品r级在线| 亚洲黄色尤物视频| 亚洲综合色视频| 亚洲午夜视频| 亚洲精品国产精品乱码不99按摩| 亚洲伦理在线| 欧美在线观看一区二区三区| 亚洲精品影视在线观看| 欧美午夜视频一区二区| 91久久精品日日躁夜夜躁国产| 亚洲久色影视| 欧美成人一区二区三区| 亚洲激情亚洲| 亚洲欧美另类在线观看| 99在线观看免费视频精品观看| 国产精品国产三级国产专播品爱网| 欧美日韩国产电影| 欧美日韩不卡视频| 欧美一级久久久久久久大片| 亚洲国产小视频在线观看| 99国产精品99久久久久久粉嫩| 国产欧美一区二区白浆黑人| 欧美视频在线观看一区| 一区二区三区 在线观看视频| 欧美乱妇高清无乱码| 久久久噜噜噜久久| 欧美激情一区二区三区高清视频| 久久九九免费视频| 欧美日韩一区成人| 亚洲欧美国产三级| 国产精品美女久久久久av超清| 欧美巨乳在线| 国产精品视频网站| 乱人伦精品视频在线观看| 欧美不卡一区| 亚洲大片在线观看| 激情成人综合| 日韩亚洲欧美一区| 国产一区二区看久久| 久热精品视频|