您的位置:首頁>智東西 >

放棄指令,如何讓AI更懂你? 每日快訊

來源:微科技  

本文來自微信公眾號:神經現實 (ID:neureality),作者:MelanieMitchell,譯者:Xhaiden,審校:Lemona,編輯:eggriel,頭圖來自:視覺中國


(相關資料圖)

許多年以前,我在一臺老舊的、Symbolics公司的Lisp機*上學會了編程。這個操作系統有一個內嵌的命令“DWIM”,是“Do What I Mean”(做我想做的)的簡稱。如果我輸入一句命令后報錯了,我可以輸入“DWIM”,然后機器就會試著弄清楚我本來想要干什么。令人驚訝的是,在一小部分時間里,它的確奏效了。

DWIM命令是更加現代的“AI對齊”(AI alignment,又稱人工智能對齊)*問題的縮影:人類傾向于給予機器模糊的或錯誤的指令,且我們希望機器按我們的意思去做,而不一定是按我們所說的去做。

*譯者注:Lisp機(Lisp machine),一種高效運行并以Lisp語言作為主要軟件開發語言的通用型計算機(來源:維基百科);AI對齊(AI alignment),指引導人工智能系統的行為,使其符合設計者的利益和預期目標(來源:維基百科)。

計算機經常會誤解我們想讓它們做的事情,產生令人意想不到的、常常是好笑的結果。例如,在檢查為什么一個圖像分類程序的表現好得可疑時,一位機器學習研究者發現,這個程序分類的基礎不是圖像本身,而是訪問圖像文件所需的時間——不同類別的圖像被存儲不同的數據庫中,而訪問這些不同的數據庫所需的時間有細微差異[1]。另一位有想法的程序員希望他的Roomba吸塵機器人不要撞到家具,所以,他將Roomba與一個神經網絡相連,在Roomba提高速度時獎勵它,但在它的前緩沖器撞到其他物體時給予懲罰[2]。Roomba對此的應對措施就是一直倒退行駛。

但是,AI對齊領域的研究者們看到的是這些軼事的黑暗面。事實上,他們相信,機器沒有能力辨別我們真正想讓它們做什么——這是一種存在主義風險(existential risk)。他們認為,為了解決這一問題,我們必須想辦法讓人工智能系統與人類的偏好、目標和價值觀對齊。

在哲學家尼克·博斯特羅姆(Nick Bostrom)2014年的暢銷書《超智能》(Superintelligence)中,這一觀點獲得了重視。他在一定程度上認為,計算機日益提高的智能可能對人類的未來構成直接威脅。博斯特羅姆始終沒有精確地定義智能(intelligence),但是他采用的定義和AI對齊領域的其他大多數人一樣,在后來被人工智能研究者斯圖爾特·拉塞爾(Stuart Russell)更加精確地描述為:“如果一個實體基于它所感知到的內容,選擇了預期能夠實現它的目標的行動,那么我們就可以認為,大體上來說,它是智能的[3]?!?/p>

博斯特羅姆對于人工智能風險的觀點基于兩大理論。首先,用博斯特羅姆的話來說,正交性理論(orthogonality thesis)認為,“智能和最終的目標處于兩條正相交的坐標軸,而不同的個體可能的沿著這兩條軸線自由變化位置。換言之,原則上來說,大概任何等級的智能都能基本擁有任何最終目標。”第二個理論是工具趨同理論*(instrumental convergence thesis):一個智能體會以促進自身生存、自我完善和資源獲取的方式行動,只要這些方式能夠讓該智能體更有可能實現其最終目標。博斯特羅姆最后還做出了一個假設:研究者很快就會創造出一個人工智能中的超智能體(超智能AI),并且它會“在幾乎所有興趣領域中,擁有遠超人類的認知表現”。

*譯者注:工具趨同(instrumental convergence),指擁有智能的個體在追求不同的最終目標時,可能出現追求相似的次要目標的傾向。具體而言,智能體可能會無止境地追尋工具性的目標——為某些特定目的而制定的目標,但其本身并非最終目標——卻永遠不能真正地達到最終目標(來源:維基百科)。

對博斯特羅姆和其他AI對齊領域內人士來說,這一前景會給人類引來滅頂之災,除非我們能夠成功地讓超智能AI與我們的欲望和價值觀對齊。博斯特羅姆用一項現在已經非常知名的思維實驗闡明了這一威脅:假設我們把一個超智能AI的最終目標設為最大化回形針的產量。根據博斯特羅姆的理論,為了達成這個目標,這個超智能AI系統會使用它超人類的聰慧和創造力,來增強自己的能量與控制,最終獲得全世界所有的資源,用于制造更多的回形針。人類會滅絕,但回形針的產量的確會達到最大化。

如果你相信,智能是由實現目標的能力定義的,那么,任何目標都可以由人類“植入”到超智能AI中,并且它將使用它的超級智能不擇手段地達成目標。之后,你就會得出和拉塞爾相同的結論:“要確保災難發生,你只需要一臺由人類設定的能力超強的機器,而人類無法完美地(完整且正確地)設定人類偏好[4]。”

這是科幻小說中常見的主題——人類被失控的機器威脅,因為機器錯誤解讀了人類的欲望。現在,不少人工智能研究人員們都非常擔心這些場景會在現實中上演。幾十家機構已經為這個問題投入了數億美元;世界各地的大學和谷歌、Meta以及OpenAI等大型人工智能公司也正在進行關于AI對齊的研究。

那么,那些由非超智能AI帶來的、更加直接的風險怎么辦呢?比如失業、偏見、隱私侵犯和錯誤信息傳播?事實證明,主要關心這些短期風險的研究者與那些更擔心長期對齊風險的研究者們鮮有交集。實際上,這像是一場人工智能文化戰爭:一方更擔心當前的風險,而不是他們認為不切實際的技術未來主義(techno-futurism),另一方則認為超智能AI帶來的潛在災難級風險比眼前的風險更加緊迫。

對于很多外行人來說,AI對齊領域看上去像是一個宗教:他們有受人尊敬的領袖、無可爭議的教義和虔誠的信徒,并且正在與一個潛在的、無所不能的敵人戰斗——這個敵人就是沒有與人類價值對齊的超智能AI。的確,計算機科學家和博主斯科特·阿倫森(Scott Aaronson)最近注意到,AI對齊宗教內現在有“正交”“改革”兩大分支[5]。他寫道,前者擔憂的幾乎全是“未對齊的人工智能在欺騙人類的同時,試圖毀滅人類?!迸c之相對的,他寫道,“對于改革派人工智能風險論者來說,我們相信這樣的可能性,但我們同樣擔心強大的人工智能被心懷歹念的人武器化——這會大大提早存在主義風險的到來。”

許多研究者正在積極投身于有關AI對齊的課題中;這些課題的涵蓋范圍廣泛,包括向機器傳授道德哲學法則[6],也有使用大眾道德判斷數據來訓練大型的語言模型[7]。但讓機器對現實情況進行推理,沒有哪一項嘗試特別有用。許多作家注意到,阻止機器學習人類偏好和價值觀的很多障礙是:人們常常是不理性的,會以違背價值觀的方式行事,并且人們的價值觀也會隨著個體年齡的增長和時代的更替發生變化。畢竟,我們也不清楚應該讓機器學習誰的價值觀。

對齊領域內的許多人認為,逆向強化學習(inverse reinforcement learning,IRL)這一機器學習技術是最有前景的下一步路線[8]。對齊支持者們認為,被“植入”的目標會在不經意間導致回形針最大化的情景。而在逆向強化學習中,機器不會被植入一個它需要最大化達成的目標;反之,它的任務是觀察人類行為,推測他們的偏好、目標和價值觀。近幾年,研究者已經成功使用逆向強化學習訓練機器,讓它們通過觀察人類來學習如何玩電子游戲[9],并通過給予人類的增量反饋(人們觀看機器人多次嘗試后空翻的短片,然后選出看上去最成功的一次),來教授機器人如何后空翻[10]。

我們還不清楚,類似的方法是否能夠教授機器更加微妙且抽象的人類價值觀。著有一部有關AI對齊的暢銷科普書的作家布萊恩·克里斯?。˙rian Christian)對此持樂觀態度:“‘后空翻’已經是一個很模糊的概念了,所以把它換成更加模糊、難以形容的概念,如‘幫助’、‘善良’或‘良好’行為,也不是那么無法想象?!?/p>

然而,我認為他小瞧了這項挑戰。善良或良好行為這樣的道德觀念,遠比逆向強化學習目前精通的任何事物都要復雜,并依賴于情景。比如“誠實”的概念——我們肯定希望我們的人工智能系統能保持誠實。的確,現在大型語言模型的一個主要問題就是,它們沒有能力區分真相和謊言。與此同時,我們有時候可能希望我們的人工智能助手能像人類一樣,收斂一下它們的誠實:為了保護隱私、為了避免對他人無禮,或者為了保護某人安全,以及無數其他難以表達的情況。

其他道德概念也是如此復雜。我們應該認清的是,教授機器道德概念關鍵的第一步是,讓機器先理解類似人類的概念。我認為這依然是人工智能最重要的未決問題。

此外,我認為AI對齊的概念背后的科學存在更加根本的問題。大多數討論將超智能AI想象為一個機器,它在所有認知任務上的表現都超過人類,但仍然奇怪地缺少類似于人類的常識,本質上仍然是機器。并且,重要的是,為了和博斯特羅姆的正交論保持一致,機器在不具備任何自身目標或價值觀的情況下,實現了超級智能,并反而在等待人類植入目標。

然而,智能是這樣的嗎?現代的心理科學或神經科學中沒有任何證據支持這種可能性。至少在人類中,智能與我們的目標、價值觀,以及自我感覺、我們所處的社會和文化環境是深度相聯的。我們總是直覺地認為我們能夠把純粹的智能與這些因素分離,而這導致了人工智能歷史上的許多次失敗的預測。據我們所知,似乎更有可能的是,在一個智慧的人工智能系統中植入目標沒有那么容易。它的目標或許像我們一樣,需要在它自身的社會和文化培養下不斷發展而成。

在《AI新生》(Human Compatible)一書中,拉塞爾強調了研究對齊問題的緊迫性:“我們應該在何時開始擔憂潛在的、但可以威脅人類的嚴重問題?這不僅取決于問題何時發生,還取決于我們需要花多長時間準備并實施一項解決方案?!钡?,智能是什么、它與我們生活中的其他方面能有多大程度的分離?如果對這些問題沒有更好的理解,我們甚至沒法定義問題,更不用說找到解決方案了。恰當地定義和解決AI對齊問題并不容易;我們需要發展出一個廣泛的、有科學基礎的關于智能的理論[11]。

后記

Xhaiden:作為人類,我們到底希望出現什么樣的人工智能?是超強的工具還是真正的智能體?

Lemona:我們已經了解到,生硬地在人工智能中植入目標可能會帶來可怕的后果——比如人類滅絕,回形針稱霸。但同樣值得思考的一點是,如果人工智能由人類開發,從人類的數據中學習,要向人類的喜好、價值觀與目標看齊,這個“人類”到底是誰?如果要讓人工智能像人類一樣以一種社會化的方式學習、成長,那相應的社會問題也同樣會在人工智能中出現。它們是不是會有種族歧視傾向?如果大部分開發者都是男性,它們的目標是不是也會變得更加男性化而忽略女性不同的需求?為了解決對齊中的種種難題,我們需要的可能不只是一個關于智能的理論。

參考文獻:

1.https://news.ycombinator.com/item?id=6269114

2.https://twitter.com/smingleigh/status/1060325665671692288

3.https://people.eecs.berkeley.edu/~russell/papers/mi19book-hcai.pdf

4.https://direct.mit.edu/daed/article/151/2/43/110605/If-We-Succeed

5.https://scottaaronson.blog/?p=6821

6.https://link.springer.com/article/10.1007/s10676-006-0004-4

7.https://arxiv.org/abs/2110.07574

8.https://dl.acm.org/doi/10.5555/645529.657801

9.https://arxiv.org/abs/1904.06387

10.https://arxiv.org/abs/1706.03741

11.https://arxiv.org/abs/2102.10717

原文:https://www.quantamagazine.org/what-does-it-mean-to-align-ai-with-human-values-20221213/

本文來自微信公眾號:神經現實 (ID:neureality),作者:MelanieMitchell,譯者:Xhaiden,審校:Lemona,編輯:eggriel

關鍵詞:

最新文章
国产乱人伦精品一区二区,国产在线麻豆精品观看,国产在线播精品第三,亚洲欧美国产制服动漫
>