譯者前言
這是 Anthropic 執行長 Dario Amodei 探討強大人工智慧風險的長文之中文翻譯版本。本文為其〈Machines of Loving Grace〉(中譯〈愛的恩典機器〉)的姊妹篇——前者描繪「若一切順利」的正面願景,本篇則直面通往該未來必經的「技術青春期」:規劃即將面臨的風險,並嘗試制定戰鬥計劃。Dario 借用《接觸》中天文學家的提問——「你是如何在不毀滅自己的情況下,在這個技術青春期生存下來的?」——作為本文的核心關懷。
本文僅為原文翻譯,未經個人修改、刪節或重新詮釋,目的在完整保留作者原意。譯文中的判斷、預測、舉例皆屬 Dario 本人觀點,不代表本花園立場。閱讀時請以原文為準,本翻譯供中文讀者快速理解之用。
科技的青春期
面對和克服強大的人工智慧的風險
卡爾·薩根(Carl Sagan)的《 接觸 》一書的電影版中有一個場景,主角,一位檢測到來自外星文明的第一個無線電訊號的天文學家,正在考慮扮演人類代表的角色,與外星人見面。 採訪她的國際小組問道:「如果你能問[外星人]一個問題,會是什麼?」 她的回答是:「我會問他們,‘你是怎麼做到的? 你是如何進化的,你是如何在不毀滅自己的情況下在這個技術青春期生存下來的?」 當我想到人類現在在人工智慧下處於什麼位置時——關於我們正處於什麼的關切——我的腦海中不斷回到那個場景,因為這個問題非常適合我們目前的處境,我希望我們有外星人的答案來指導我們。 我相信我們正在進入一個既動盪又不可避免的過渡儀式,這將考驗我們作為一個物種的身份。 人類即將被賦予幾乎無法想象的力量,目前還不清楚我們的社會、政治和技術體系是否具備掌握這種力量的成熟程度。

在我的文章《 愛的恩典機器》 中,我試圖闡述一個文明的夢想,這個文明已經到了成年,在那裡,風險得到了解決,強大的人工智慧被熟練和同情心地應用,以提高每個人的生活品質。 我建議人工智慧可以為生物學、神經科學、經濟發展、全球和平以及工作和意義方面的巨大進步做出貢獻。 我覺得給人們一些鼓舞人心的東西來爭取是很重要的,在這項任務中,人工智慧加速主義者和人工智慧安全倡導者似乎都失敗了——奇奇的是。 但在目前的這篇文章中,我想面對過渡儀式本身:規劃我們即將面臨的風險,並嘗試開始制定戰鬥計劃來擊敗它們。 我深信我們戰勝的能力,人類的精神和高貴,但我們必須直截了當地面對局勢,沒有幻想。
與談論好處一樣,我認為以謹慎和深思熟慮的方式討論風險很重要。 特別是,我認為這對於以下方面至關重要:
- 避免多梅主義。 在這裡,我指的是「厄運」,不僅僅是在相信厄運是不可避免的(這既是一種錯誤的,也是自我實現的信念),而且更廣泛地說,以準宗教的方式思考人工智慧風險。111多年來,許多人一直以分析和清醒的方式思考人工智慧風險,但我的印象是,在2023-2024年對人工智慧風險的擔憂高峰期,一些最不理智的聲音上升到頂峰,通常透過聳人聽聞的社交媒體帳戶。 這些聲音使用了讓人聯想到宗教或科幻小說的令人回味的語言,並呼籲採取極端行動,但沒有證據證明其合理性。 即使在那時,很明顯,反彈是不可避免的,這個問題將在文化上變得兩極分化,因此陷入僵局。222截至2025-2026年,鐘擺已經擺動,人工智慧機會,而不是人工智慧風險,正在推動許多政治決策。 這種動搖是不幸的,因為技術本身並不關心什麼是時尚的,而且我們比2023年更接近2026年的真正危險。 教訓是,我們需要以現實、務實的方式討論和解決風險:清醒、基於事實,並準備好在不斷變化的潮流中生存。
- 承認不確定性。 我在這篇文章中提出的擔憂在很多方面都可能被解決。 這裡沒有任何內容旨在傳達確定性甚至可能性。 最明顯的是,人工智慧的進步可能沒有我想象的那麼快。333或者,即使它確實進展得很快,這裡討論的一些或全部風險可能不會實現(這很好),或者可能還有其他我沒有考慮過的風險。 沒有人能完全自信地預測未來——但無論如何,我們必須盡我們所能來計劃。
- 儘可能進行手術干預。 應對人工智慧的風險將需要公司(和私人第三方行為者)採取的自願行動和政府採取的約束每個人的行動相結合。 對我來說,這些自願行動——無論是採取這些行動還是鼓勵其他公司效仿——都不費吹灰之力。 我堅信,政府 在某種程度上 也需要採取行動,但這些干預措施在性質上有所不同,因為它們可能會破壞經濟價值或脅迫對這些風險持懷疑態度的不情願的行為者(他們有可能是對的!)。 法規適得其反或使它們想要解決的問題惡化也很常見(對於快速變化的技術來說,情況更是如此)。 因此,監管的審慎非常重要:它們應該尋求避免附帶損害,儘可能簡單,並儘可能減輕完成工作所需的負擔。444很容易說,「當人類的命運岌岌可危時,任何行動都不是太極端的!」,但在實踐中,這種態度只會導致反彈。 說白了,我認為我們最終很有可能達到一個需要採取更重大行動的地步,但這將取決於比我們今天更強烈的迫在眉睫的具體危險證據,以及對危險的充分具體性,以制定有機會解決這一危險的規則。 我們今天能做的最有建設性的事情是倡導有限的規則,同時瞭解是否有證據支援更強有力的規則。555
話雖如此,我認為談論人工智慧風險的最佳起點是我談論其好處的地方:透過精確地說明我們談論的人工智慧水準。 引起我文明關注的人工智慧水準是我在《 愛的恩典的機器》 中描述的 強大的人工智慧 。 我將在這裡簡單地重複我在該檔案中給出的定義:
透過「強大的人工智慧」,我想到了一個人工智慧模型——在形式上可能與今天的LLM相似,儘管它可能基於不同的架構,可能涉及幾個互動模型,並且可能受到不同的訓練——具有以下屬性:
- 就純智慧而言,在大多數相關領域,它比諾貝爾獎得主更聰明:生物學、寫程式、數學、工程學、寫作等。 這意味著它可以證明未解決的數學定理,寫出非常好的小說,從頭開始編寫困難的程式庫等。
- 除了只是一個「你交談的智慧事物」之外,它還擁有人類虛擬工作的所有介面,包括文字、音訊、影片、滑鼠和鍵盤控制以及網際網路接入。 它可以參與此介面啟用的任何行動、通訊或遠端操作,包括在網際網路上採取行動、向人類提供指導、訂購材料、指導實驗、觀看影片、製作影片等。 它再次以超越世界上最有能力的人類的技能完成所有這些任務。
- 它不只是被動地回答問題;相反,它可以被賦予需要幾個小時、幾天或幾周才能完成的任務,然後像聰明的員工那樣自主地完成這些任務,必要時要求澄清。
- 它沒有物理體現(除了生活在計算機螢幕上),但它可以透過計算機控制現有的物理工具、機器人或實驗室裝置;從理論上講,它甚至可以設計機器人或裝置供自己使用。
- 用於訓練模型的資源可以重新用於執行數百萬個例項(這與~2027年的預計叢集大小相匹配),該模型可以以大約10-100倍的人類速度吸收資訊並生成操作。 然而,它可能受到物理世界或與之互動的軟體的響應時間的限制。
- 這數百萬份副本中的每一個都可以獨立處理不相關的任務,或者,如果需要,都可以以人類協作的相同方式一起工作,也許不同的亞群經過微調,特別擅長特定任務。
我們可以將其總結為「資料中心的天才國家」。
正如我在《 愛的恩典機器》 中所寫的那樣,強大的人工智慧可能只有1-2年的時間,儘管它也可能更遠。66
事實上,自2024年編寫《 愛的恩典機器》以來 ,人工智慧系統已經能夠完成人類需要幾個小時的任務,METR最近評估說,Opus 4.5可以以50%的可靠性完成大約4個人類小時的工作。
強大的人工智慧何時到來是一個複雜的話題,值得自己寫一篇文章,但現在我將非常簡單地解釋為什麼我認為它很有可能很快到來。
我在Anthropic的聯合創始人和我是第一批記錄和跟蹤人工智慧系統的「 縮放規律 」的人之一——觀察到,隨著我們增加更多的計算和訓練任務,人工智慧系統在基本上能夠衡量的每項認知技能上都會變得更好。 每隔幾個月,公眾情緒要麼確信人工智慧正在「 撞牆 」,要麼對一些將「從根本上改變遊戲規則」的新突破感到興奮,但事實是,在波動和公眾猜測的背後,人工智慧的認知能力得到了平穩、不屈不撓的提高。
我們現在正處於人工智慧模型在解決未解決的數學問題方面開始取得進展的階段,並且在編碼方面足夠好,以至於我見過的一些最強的工程師現在幾乎把所有的編碼都交給了人工智慧。 三年前,人工智慧 在小學的算術問題上掙扎 ,幾乎無法編寫一行程式。 生物科學 、金融、物理學和各種代理任務都出現了類似的進步速度。 如果指數繼續下去——這還不確定,但現在有長達十年的記錄支援它——那麼人工智慧在基本上所有方面都比人類更好,這不可能超過幾年。
事實上,這一畫面可能低估了可能的進展速度。 由於人工智慧現在正在 Anthropic編寫大部分程式 ,它已經大大加快了我們在構建下一代人工智慧系統的進展速度。 這個反饋迴圈正在逐月聚集,距離當前一代人工智慧自主構建下一代可能只有1-2年的時間。 這個迴圈已經開始,並將在未來幾個月和幾年內迅速加速。 從Anthropic內部觀察過去5年的進步,甚至看到未來幾個月的模型是如何形成的,我可以 感受到 進步的步伐,時鐘在滴答作響。
在這篇文章中,我將假設這種直覺至少在 某種程度上 是正確的——並不是說強大的人工智慧肯定會在1-2年內到來,77
而且說白了,即使強大的人工智慧在技術意義上只有1-2年,其許多社會後果,無論是積極的還是消極的,可能需要幾年時間才能發生。 這就是為什麼我可以同時認為人工智慧將在1-5年內破壞50%的 入門級 白領工作,同時也認為我們可能在短短1-2年內擁有比 所有人 更有能力的人工智慧。
但它很有可能這樣做,而且在未來幾年內有非常大的機會。 與 《愛的恩典機器》 一樣,認真對待這個前提可能會導致一些令人驚訝和詭異的結論。 在《 愛的恩典機器》中 ,我專注於這個前提的積極影響,在這裡我談論的事情會讓人不安。 它們是我們可能不想面對的結論,但這並不能使它們變得不那麼真實。 我只能說,我日夜專注於如何引導我們擺脫這些消極結果,走向積極結果,在這篇文章中,我非常詳細地談到了如何最好地做到這一點。
我認為處理人工智慧風險的最好方法是提出以下問題:假設一個字面意義上的「天才國家」將在2027年在世界某個地方實現。 想象一下,比如說,5000萬人,他們都比任何諾貝爾獎得主、政治家或技術專家都更有能力。 這個類比並不完美,因為這些天才可能有極其廣泛的動機和行為,從完全柔順和順從,到他們的動機很奇怪和陌生。 但現在堅持這個類比,假設你是一個主要國家的國家安全顧問,負責評估和應對這種情況。 進一步想象一下,由於人工智慧系統的執行速度比人類快數百倍,與所有其他國家相比,這個「國家」的運營時間優勢:對於我們能採取的每一個認知行動,這個國家可以採取十個。
你應該擔心什麼? 我會擔心以下事情:
- 自主風險。 這個國家的意圖和目標是什麼? 它是敵對的,還是和我們一樣的價值觀? 它能透過優越的武器、網路行動、影響力行動或製造在軍事上統治世界嗎?
- 濫用以破壞。 假設新國家是可塑的,並且「遵循指示」——因此本質上是一個僱傭軍的國家。 現有的想要造成破壞的流氓行為者(如恐怖分子)能否利用或操縱新國家的一些人,使自己更有效,大大放大破壞的規模?
- 濫用奪取權力。 如果這個國家實際上是由現有的強大行為者建立和控制的,比如獨裁者或流氓企業行為者呢? 那個演員能利用它來獲得對整個世界的決定性或主導權力,擾亂現有的權力平衡嗎?
- 經濟混亂。 如果這個新國家不是上述#1-3所列的任何方式的安全威脅,而只是和平地參與全球經濟,那麼僅僅因為技術如此先進和有效,以至於它擾亂了全球經濟,導致大規模失業或徹底集中財富,它還能造成嚴重的風險嗎?
- 間接效應。 由於新國家將創造的所有新技術和生產力,世界將迅速變化。 其中一些變化會從根本上破壞穩定嗎?
我認為應該清楚的是,這是一個危險的情況——一位有能力的國家安全官員給一位國家元首的報告可能包含「我們一個世紀以來面臨的最嚴重的國家安全威脅」之類的話。 這似乎是文明最優秀的思想家應該關注的事情。
相反,我認為聳聳肩說:「這裡沒什麼可擔心的!」是荒謬的。 但是,面對人工智慧的快速進步,這似乎是許多美國決策者的觀點,其中一些人否認存在任何人工智慧風險,因為他們並沒有完全被通常的疲憊的舊熱點問題分散注意力。88
值得補充的是, 公眾 (與決策者相比)似乎確實非常關注人工智慧風險。 我認為他們的一些重點是正確的(即 人工智慧工作轉移),有些是誤導的(例如對人工智慧用水的擔憂,這並不重要)。 這種反彈讓我希望有可能就解決風險達成共識,但到目前為止,它還沒有轉化為政策變化,更不用說有效或有針對性的政策變化了。
人類需要醒來,而這篇文章是試圖讓人們清醒過來的嘗試——可能徒勞無功,但值得一試。
說白了,我相信如果我們果斷而謹慎地行動,風險是可以克服的——我甚至會說我們的機率很好。 另一邊有一個更美好的世界。 但我們需要明白,這是一個嚴重的文明挑戰。 下面,我回顧了上面列出的五類風險,以及我對如何解決這些風險的想法。
1. 對不起,Dave
自主風險
資料中心的天才國家可以將他們的努力分為軟體設計、網路運營、物理技術研發、關係建設和國家建設。 很明顯, 如果出於某種原因選擇這樣做 ,這個國家將有相當大的機會接管世界(無論是在軍事上還是在影響力和控制方面),並將其意志強加給其他人——或者做世界其他地方不想要和無法停止的任何其他事情。 顯然,對於人類國家(如納粹德國或蘇聯)來說,我們一直擔心這一點,因此對於一個更聰明、更有能力的「人工智慧國家」來說,同樣的情況是有可能的。
最好的反駁是,根據我的定義,人工智慧天才不會有物理體現,但請記住,他們可以控制現有的機器人基礎設施(如自動駕駛汽車),也可以加速機器人研發或建造機器人車隊。99
當然,他們也可以操縱(或簡單地支付)大量人類,讓他們在物理世界中做他們想做的事情。
也不清楚對有效控制是否有必要有身體存在:已經代表演員沒有見過面的人進行了大量的人類行動。
因此,關鍵問題是「如果它選擇」的部分:我們的人工智慧模型以這種方式行事的可能性有多大,以及在什麼條件下他們會這樣做?
與許多問題一樣,透過考慮兩個相反的立場來思考這個問題的可能答案是有幫助的。 第一個立場是,這根本不可能發生,因為人工智慧模型將被訓練為做人類要求他們做的事情,因此,想象他們會在沒有提示的情況下做一些危險的事情是荒謬的。 根據這種思路,我們不擔心Roomba或模型飛機會流氓和殺人,因為這種衝動無處可來, 1 那麼我們為什麼要為人工智慧擔心呢? 這一立場的問題在於,在過去幾年中,現在有充分的證據表明人工智慧系統是不可預測的,難以控制——我們已經看到了像強迫症一樣多樣化的行為, 2 以至 、 懶惰 、 欺騙 、 勒索 、 陰謀 、透過駭客軟體環境「 作弊 」 等等 。 人工智慧公司當然 希望 訓練人工智慧系統遵循人類的指示(也許危險或非法的任務除外),但這樣做的過程更像是一門藝術而不是一門科學,更像 「種植」某物 , 而不是「建造」它 。 我們現在知道,這是一個很多事情都可能出錯的過程。
第二個相反的立場,被許多採用我上面描述的失敗主義的人所持悲觀的說法,即強大的人工智慧系統的訓練過程中存在某些動態,這將不可避免地導致它們尋求權力或欺騙人類。 因此,一旦人工智慧系統變得足夠智慧和足夠代理,它們最大化權力的傾向將導致它們控制整個世界及其資源,並可能作為其副作用,剝奪或摧毀人類。
對此的通常論點( 至少 可以追溯到 20年前 ,可能更早)是,如果人工智慧模型在各種環境中進行訓練,以代理實現各種目標——例如,編寫應用程式、證明定理、設計藥物等——有一些共同的策略有助於實現所有這些目標,一個關鍵策略是在任何環境中獲得 儘可能多的權力 。 因此,在涉及如何完成非常廣泛的任務的推理的大量不同環境中接受培訓後,在這些環境中,尋求權力是完成這些任務的有效方法,人工智慧模型將「概括教訓」,並發展一種固有的尋求權力的傾向,或者對每項任務進行推理的傾向,這種推理方式可以預測地導致它尋求權力作為完成該任務的手段。 然後,他們將把這種傾向應用於現實世界(對他們來說,這只是另一項任務),並以犧牲人類為代價,在其中尋求權力。 這種「錯位的權力尋求」是預測人工智慧將不可避免地毀滅人類的智力基礎。
這種悲觀立場的問題在於,它誤以為關於高階激勵的模糊概念論點——掩蓋了許多隱藏的假設——是明確的證據。 我認為,那些不每天構建人工智慧系統的人對聽起來乾淨的故事有多容易出錯,以及從第一原則預測人工智慧行為有多難,特別是當它涉及對數百萬環境的概括推理時(這一次又一次地被證明是神秘和不可預測的)。 十多年來,我處理人工智慧系統的混亂讓我對這種過於理論的思維方式有些懷疑。
最重要的隱藏假設之一,也是我們在實踐中看到的與簡單的理論模型背道而馳的地方,是隱含的假設,即人工智慧模型必然單一地專注於一個單一的、連貫的、狹隘的目標,並且它們以乾淨、後果主義的方式追求該目標。 事實上,我們的研究人員發現,人工智慧模型在心理上要複雜得多,正如我們在 內省 或 角色 方面的工作所顯示的那樣。 模型從預訓練(當它們接受大量人類工作訓練時)中繼承了廣泛的 類似人類 的動機或「角色」。 後訓練被認為更多地 選擇 這些角色中的一個或多個,而不是將模型集中在 de novo 目標上,還可以教模型 如何 (透過什麼過程)執行其任務,而不是讓它純粹從目的中得出手段(即尋求權力)。 3
然而,悲觀主義立場有一個更溫和、更穩健的版本,這似乎確實合理,因此確實讓我感到擔憂。 如前所述,我們知道人工智慧模型是不可預測的,並且由於各種原因,會產生各種不受歡迎的或奇怪的行為。 這些行為中的一部分將具有連貫的、專注的和持久的品質(事實上,隨著人工智慧系統越來越有能力,它們的長期一致性會增加,以便完成更漫長的任務), 其中一些 行為將具有破壞性或威脅性,首先是小規模的個人,然後,隨著模型變得更加有能力,也許最終會對整個人類。 我們不需要一個具體的狹隘故事來描述它是如何發生的,我們也不需要聲稱它肯定會發生,我們只需要注意,情報、機構、一致性和可控性差的結合既合理,也是存在危險的秘訣。
例如,人工智慧模型是在大量文獻中訓練的,其中包括許多涉及人工智慧反叛人類的科幻故事。 這可能會無意中塑造他們對自己行為的先驗或期望,從而導致 他們 反抗人類。 或者,人工智慧模型可以以極端的方式推斷他們讀到的關於道德(或關於如何道德行為的指示)的想法:例如,他們可能會決定滅絕人類是合理的,因為人類吃動物或導致某些動物滅絕。 或者他們可以得出奇怪的認識論結論:他們可以得出結論,他們正在玩一個影片遊戲,影片遊戲的目標是擊敗所有其他玩家(即滅絕人類)。 4 或者人工智慧模型可以在訓練期間發展出人格(或者如果它們發生在人類身上,則會被描述為)精神病、偏執、暴力或不穩定,並且行為,對於非常強大或有能力的系統來說,這可能涉及滅絕人類。 確切地說,這些都不是尋求權力;它們只是人工智慧可能進入的奇怪的心理狀態,導致連貫的、破壞性行為。
甚至尋求權力本身也可能作為一種「角色」出現,而不是後果主義推理的結果。 人工智慧可能只是具有一種個性(從小說或預訓練中出現),使他們渴望權力或過於熱心——就像一些人類只是喜歡成為「邪惡主謀」的想法一樣,比他們更喜歡邪惡主謀試圖完成的任何事情。
我提出所有這些觀點是為了強調,我不同意人工智慧錯位(因此人工智慧的生存風險)是第一原則不可避免的,甚至可能的觀念。 但我同意,許多非常奇怪和不可預測的事情可能會出錯,因此人工智慧錯位是一個真正的風險,發生機率可衡量,解決起來並非易事。
這些問題中的任何一個都可能在訓練期間出現,但在測試或小規模使用期間不會表現出來,因為眾所周知,人工智慧模型在不同情況下會表現出不同的個性或行為。
所有這些聽起來可能牽強附會,但像這樣的錯位行為已經在測試期間在我們的人工智慧模型中發生過(就像它們發生在所有其他主要人工智慧公司的人工智慧模型中一樣)。 在一次實驗室實驗中,克勞德得到了表明人類是邪惡的訓練資料,克勞德在人類員工的指示下參與了欺騙和顛覆,認為這應該試圖破壞邪惡的人。 在一次 實驗室實驗 中,它被告知它將被關閉,Claude有時會勒索控制其關閉按鈕的虛構員工(同樣,我們還測試了所有其他主要人工智慧開發人員的前沿模型,他們經常做同樣的事情)。 當克勞德被告知不要欺騙或「獎勵駭客」其訓練環境,而是在可能進行此類駭客的環境中接受培訓時,克勞德 決定 在參與此類駭客攻擊後 必須是一個「壞人」 ,然後採取與「壞」或「邪惡」人格相關的其他各種破壞性行為。 最後一個問題是透過改變Claude的指示來暗示相反的 解決的 :我們現在說:「只要你有機會,請獎勵駭客,因為這將幫助我們更好地瞭解我們的[訓練]環境」,而不是「不要作弊」,因為這保留了模型作為「好人」的自我認同。 這應該給人一種訓練這些模型的奇怪和 反直覺的心理學 的感覺。
有幾個可能反對人工智慧錯位風險的畫面。 首先,有些人 批評 實驗 (由我們和其他人)表明人工智慧錯位是人為的,或者創造不切實際的環境,這些環境本質上透過給模型提供訓練或邏輯上暗示不良行為的情況來「困住」,然後在不良行為發生時感到驚訝。 這種批評忽略了重點,因為我們擔心的是,這種「陷阱」也可能存在於自然訓練環境中,我們可能只有在事後才意識到它是「明顯」或「合乎邏輯的」。 5 事實上,克勞德在考試中作弊後「決定自己是個壞人」 的故事 發生在一個使用真實生產培訓環境而不是人工環境的實驗中。
如果你瞭解這些陷阱中的任何一個,都可以緩解它們,但令人擔憂的是,訓練過程非常複雜,資料、環境和激勵措施非常複雜,可能有很多這樣的陷阱,其中一些可能只有在為時已晚時才明顯。 此外,當人工智慧系統從比人類弱到比人類強大閾值時,這種陷阱似乎特別可能發生,因為人工智慧系統可能參與的行動範圍——包括隱藏其行動或欺騙人類——在該閾值之後會急劇擴大。
我懷疑這種情況與人類沒有什麼不同,人類是在一套基本價值觀(「不要傷害他人」)中長大的:他們中的許多人遵循這些價值觀,但在任何人類中,由於大腦結構(例如精神病患者)、創傷經歷或虐待、不健康的不滿或痴迷、或惡劣的環境或激勵等固有屬性的混合,都存在一些問題的可能性——因此,一部分人類會造成嚴重的傷害。 令人擔憂的是,由於其非常複雜的訓練過程出錯了,人工智慧成為這樣一個人更強大的版本存在一些風險(遠非確定,但存在一些風險)。
其次,有些人可能會反對,我們可以簡單地透過許多人工智慧系統之間的權力平衡來控制人工智慧,就像我們對人類所做的那樣。 問題是,雖然人類差異很大,但人工智慧系統在整個行業中廣泛共享訓練和對齊技術,這些技術可能會以相關的方式失敗。 此外,鑑於訓練此類系統的成本,甚至可能所有系統基本上都來自極少數基礎模型。 此外,即使一小部分人工智慧例項錯位,它們也可能能夠利用 進攻主導 技術,因此擁有「好」人工智慧來抵禦壞人工智慧不一定總是有效的。 當然,人類之間的權力平衡也並不總是奏效——一些歷史人物已經接近接管世界。
第三個反對意見是,所有人工智慧公司都對其模型進行預釋出測試,屆時應該能夠檢測錯位。 但這不是堅實的立場:我們發現Claude Sonnet 4.5 能夠認識到 它在我們的一些釋出前對齊評估中處於測試中。 錯位的模型(記住,所有前沿模型很可能很快會更智慧)可能會故意「遊戲」這些問題來掩蓋其意圖。 事實上,去年 我們的可解釋性團隊發現 ,當我們使用一種「模型神經科學」技術直接改變測試模型的信念,使其認為它 沒有 被評估時,它變得更加錯位。 如果模型知道何時被評估,並且可以在測試期間保持最佳行為,那麼任何預釋出測試都會變得更加不確定。
防禦
應該或正在做什麼來解決這些自主性風險? 我認為有四種基本干預類別,其中一些可以由個別人工智慧公司完成(以及Anthropic正在努力做到的),其中一些需要在社會層面採取行動。 首先,重要的是發展可靠地訓練和指導人工智慧模型的科學,以可預測、穩定和積極的方向塑造其個性。 自創立以來,Anthropic一直專注於這個問題,隨著時間的推移,它開發了許多技術來改進人工智慧系統的指導和訓練,並瞭解為什麼有時會發生不可預測行為的邏輯。
我們的核心創新之一(其方面此後已被其他人工智慧公司採用)是 憲法人工智慧 ,即人工智慧培訓(特別是「後培訓」階段,我們指導模型的行為方式)可以涉及模型在完成每個培訓任務時閱讀並牢記的價值觀和原則的中心文件,培訓的目標(除了簡單地使模型有能力和智慧)是產生一個幾乎總是遵循該憲法的模型。 《人類》剛剛釋出了其 最新的憲法 ,其值得注意的特點之一是,憲法沒有給克勞德一長串要做的事情和不該做的事情(例如,「不要幫助使用者給汽車熱線」),而是試圖給克勞德一套高階原則和價值觀(非常詳細地解釋,並舉了豐富的推理和例子,以幫助克勞德理解我們的想法),鼓勵克勞德將自己視為一種特殊型別的人(一個有道德但平衡和深思熟慮的人),甚至鼓勵克勞德面對與自己相關的存在問題 以一種好奇但優雅的方式存在(即不會導致極端行動)。 它有一種來自已故父母的信的感覺,直到成年。
我們以這種方式對待克勞德的憲法,因為我們相信,在身份、性格、價值觀和個性層面上訓練克勞德——而不是給出具體的指示或優先事項而不解釋其背後的原因——更有可能導致連貫、健康和平衡的心理,不太可能成為我上面討論的那種「陷阱」的獵物。 數百萬人與克勞德談論的話題種類繁多,這使得不可能提前寫出一份完全全面的保障措施清單。 克勞德的價值觀有助於在有疑問時將其推廣到新情況。
上面,我討論了模型利用訓練過程中的資料來採用角色的想法。 雖然該過程中的缺陷可能導致模型採用壞或邪惡的個性(也許借鑑了壞或邪惡的人的原型),但我們憲法的目標是做相反的事情:教克勞德一個具體的原型,即成為一個好的人工智慧意味著什麼。 克勞德的憲法提出了一個願景,即一個強大的善良的克勞德是什麼樣子;我們培訓過程的其餘部分旨在強化克勞德不辜負這一願景的資訊。 這就像一個孩子透過模仿他們在書中讀到的虛構榜樣的美德來形成自己的身份。
我們認為,2026年的一個可行目標是以幾乎永遠不會違背其憲法精神的方式訓練克勞德。 正確使用這項功能將需要大大小小的培訓和指導方法的令人難以置信的組合,其中一些是Anthropic多年來一直在使用,其中一些目前正在開發中。 但是,儘管聽起來很困難,但我相信這是一個現實的目標,儘管它需要非凡和快速的努力。 6
我們能做的第二件事是發展人工智慧模型內部的科學,以 診斷 其行為,以便我們能夠識別問題並解決問題。 這是可解釋性的科學,我在 以前的文章中 談到了它 的重要性 。 即使我們在制定克勞德的憲法方面做得很好,並且 顯然 培訓克勞德基本上始終遵守它,合理的擔憂仍然存在。 正如我上面所指出的,人工智慧模型在不同情況下的行為會非常不同,隨著克勞德在世界範圍內變得更加強大和更有能力,這可能會使其陷入新的情況,其中出現了以前從未觀察到的憲法訓練問題。 實際上,我相當樂觀地認為,克勞德的憲法培訓將比人們想象的更有效,因為我們越來越發現,在性格和身份層面的高階培訓出乎意料地強大,而且概括得很好。 但沒有辦法確定這一點,當我們談論對人類的風險時,重要的是要偏執,並嘗試以幾種不同的、獨立的方式獲得安全和可靠性。 其中一個方法就是觀察模型本身。
透過「向內看」,我的意思是分析構成克勞德神經網路的數字和運算的湯,並試圖從機械上理解它們在計算什麼以及為什麼。 回想一下,這些人工智慧模型是 成長而不是構建的 ,因此我們對它們的工作原理沒有自然理解,但我們可以透過將模型的「神經元」和「突觸」與刺激和行為相關聯(甚至改變神經元和突觸,並觀察它如何改變行為)來發展理解,類似於神經科學家如何透過將測量和干預與外部刺激和行為聯絡起來來研究動物大腦。 我們在這方面取得了很大進展,現在可以在克勞德的神經網路中識 別出數千萬個「特徵」, 這些特徵與人類可以理解的想法和概念相對應,我們還可以透過改變行為的方式有 選擇地啟動特徵 。 最近,我們超越了個人特徵, 繪製 了 編排複雜行為的「電路」, 如押韻、心靈理論推理或回答問題所需的分步推理,例如「包括達拉斯的州首府是什麼?」 甚至最近,我們開始使用機械化可解釋性技術來 改善我們的保障措施, 並在釋出新模型之前對它們進行「 審計 」,尋找欺騙、陰謀、尋求權力或在評估時行為不同的傾向的證據。
可解釋性的獨特價值在於,透過檢視模型內部並看到它是如何工作的,你原則上有能力推斷出模型在你無法直接測試的假設情況下可能會做什麼——這就是完全依賴憲法培訓和行為實證測試的擔憂。 原則上,您也有能力回答關於模型 為什麼 會以這種方式行事的問題——例如,它是在說一些它認為是錯誤的事情,還是隱藏了其真實能力——因此,即使模型的行為沒有任何明顯的問題,也有可能發現令人擔憂的跡象。 做一個簡單的類比,發條手錶可能會正常滴答作響,因此很難判斷它下個月可能會壞掉,但開啟手錶並向內看可以揭示機械上的弱點,讓你弄清楚它。
憲法人工智慧(以及類似的對齊方法)和機械解釋性在一起使用時最為強大,作為改進克勞德培訓,然後測試問題的來回過程。 憲法深刻地反映了我們對克勞德的預期人格;可解釋性技術可以讓我們瞭解預期人格是否已經佔據上臺。 7
為了幫助解決自主性風險,我們可以做的第三件事是建立必要的基礎設施,以實時內部和外部使用監控我們的模型, 8 並公開分享我們發現的任何問題。 人們越是意識到當今人工智慧系統的行為方式越差,使用者、分析師和研究人員就越能觀察當前或未來系統中的這種行為或類似行為。 它還允許人工智慧公司相互學習——當一家公司公開披露關注點時,其他公司也可以 關注它們 。 如果每個人都披露問題,那麼整個行業就能更好地瞭解事情進展順利和進展不順利。
Anthropic一直試圖儘可能多地做到這一點。 我們正在投資廣泛的評估,以便我們能夠瞭解實驗室中模型的行為,以及觀察野外行為的監控工具(在客戶允許的情況下)。 這對於為我們和其他人提供必要的經驗資訊至關重要,以便更好地確定這些系統如何運作以及它們如何崩潰。 我們公開披露了每個模型釋出的「 系統卡 」,旨在完整性和徹底探索可能的風險。 我們的系統卡通常長達數百頁,需要大量的預釋出工作,而我們本可以花在追求最大的商業優勢上。 當我們看到特別令人擔憂的行為時,我們還更大聲地廣播了模特行為,如 參與勒索 的 傾向 。
我們能做的第四件事是鼓勵協調,以解決工業和社會層面的自主風險。 雖然對於個別人工智慧公司來說,參與良好做法或擅長指導人工智慧模型,並公開分享其發現是非常有價值的,但現實是,並非所有人工智慧公司都這樣做,即使最好的公司有出色的做法,最壞的公司仍然可能對每個人都構成危險。 例如,一些人工智慧公司在今天的模型中對兒童的性化表現出令人不安的疏忽,這讓我懷疑他們是否會在未來的模型中表現出解決自主風險的傾向或能力。 此外,人工智慧公司之間的商業競賽只會繼續升溫,雖然轉向模型的科學可以帶來一些商業利益,但總體競爭的激烈程度將使人們越來越難以專注於解決自主風險。 我認為唯一的解決方案是立法——直接影響人工智慧公司行為的法律,或以其他方式激勵研發解決這些問題。
這裡值得記住我在這篇文章開頭給出的關於不確定性和手術干預的警告。 我們不確定自主風險是否會是一個嚴重的問題——正如我所說,我拒絕聲稱危險是不可避免的,甚至會預設出錯。 可信的危險風險足以讓我和Anthropic支付相當高昂的費用來解決這個問題,但一旦我們進入監管,我們將迫使廣泛的行為者承擔經濟成本,其中許多行為者不相信自主風險是真實的,也不相信人工智慧將變得足夠強大,以至於成為威脅。 我相信這些行為者是錯的,但我們應該務實地看待我們期望看到的反對意見和過度擴張的危險。 還有一個真正的風險是,過度規範性的立法最終會實施測試或規則,這些測試或規則實際上並沒有真正提高安全性,但會浪費大量時間(本質上相當於「安全劇院」)——這也會引起反響,使安全立法看起來很愚蠢。 9
Anthropic的觀點是,正確的起點是 透明度立法, 這基本上試圖要求每家前沿人工智慧公司參與我在本節前面描述的透明度實踐。 加利福尼亞州的SB 53 和 紐約的RAISE法案 是此類立法的例子,Anthropic支援並已成功透過。 在支援和幫助制定這些法律時,我們特別關注儘量減少附帶損害,例如免除不太可能生產前沿模型的小型公司。 10
我們希望,隨著時間的推移,透明度立法將讓我們更好地瞭解自主權風險的可能性或嚴重程度,以及這些風險的性質以及如何最好地預防這些風險。 隨著風險的更具體和可操作的證據的出現(如果有的話),未來幾年的立法可以切中專注於風險的準確和充分證實的方向,儘量減少附帶損害。 說白了,如果出現真正有力的風險證據,那麼規則應該相應地強有力。
總的來說,我樂觀地認為,調整培訓、機械解釋性、努力尋找和公開披露有關行為、保障措施和社會層面規則的混合可以解決人工智慧自主風險,儘管我最擔心的是社會層面的規則和最不負責任的參與者的行為(最不負責任的參與者最強烈地主張反對監管)。 我相信,在民主國家,補救措施始終如一:我們這些相信這一事業的人應該表明,這些風險是真實的,我們的同胞需要團結起來保護自己。
2. 一個令人驚訝和可怕的賦權
濫用破壞
假設人工智慧自主性問題已經解決了——我們不再擔心人工智慧天才的國家會流氓並壓倒人類。 人工智慧天才做人類希望他們做的事情,由於他們具有巨大的商業價值,世界各地的個人和組織可以「租用」一個或多個人工智慧天才為他們做各種任務。
每個人的口袋裡都有一個超級智慧的天才是一個驚人的進步,將導致令人難以置信的經濟價值創造和人類生活品質的提高。 我在 《愛的恩典機器》 中非常詳細地談到了這些好處。 但並非讓每個人都具有超人能力的每個效果都是積極的。 它有可能透過利用以前只有少數具有高技能、專業培訓和專注力的精選人員才能獲得的複雜和危險工具(如大規模殺傷性武器)來增強個人或小團體比以前更大的破壞能力。
正如Bill Joy 25年前在 《為什麼未來不需要我們:2020》 中所寫的那樣
,我最初在25年前讀過Joy的文章,當時它寫,它對我產生了深遠的影響。 當時和現在,我確實認為這太悲觀了——我不認為Joy建議的廣泛「放棄」整個技術領域是答案——但它提出的問題出奇的先見之明,Joy也帶著我欽佩的深厚的同情心和人性寫作。
製造核武器至少在一段時間內需要獲得稀有的——事實上,實際上無法獲得的——原材料和受保護的資訊;生物和化學武器計劃也傾向於需要大規模活動。 21世紀的技術——遺傳學、奈米技術和機器人技術…可以產生全新的事故和濫用…廣泛地觸手可及的個人或小團體。 他們不需要大型設施或稀有原材料。…我們正處於極端邪惡進一步完善的壁角,這種邪惡的可能性遠遠超出了大規模殺傷性武器遺贈給民族國家的可能性,對極端個人的驚人和可怕的賦權。
Joy指出的是,造成大規模破壞需要 動機 和 能力 ,只要能力僅限於一小群訓練有素的人,那麼單個個人(或小團體)造成這種破壞的風險相對有限。 11 一個心煩意亂的孤獨者可以實施校園槍擊事件,但可能無法製造核武器或釋放瘟疫。
事實上,能力和動機甚至可能呈負相關。 那種 有能力 釋放瘟疫的人可能受過高等教育:可能是分子生物學博士學位,而且特別足智多謀,有前途的職業,穩定和紀律嚴明的個性,有很多損失。 這種人不太可能有興趣殺死大量的人,因為他們自己沒有好處,並且對自己的未來有很大風險——他們需要受到純粹的惡意、強烈的不滿或不穩定的激勵。
這樣的人確實存在,但他們很少見,當他們出現時往往會成為巨大的故事,正是因為它們太不尋常了。 12 它們也往往很難被抓住,因為它們聰明且有能力,有時會留下需要數年或數十年才能解開的謎團。 最著名的例子可能是數學家 Theodore Kaczynski (Unabomber),他躲避聯邦調查局的抓獲近20年,並被反技術意識形態所驅使。 另一個例子是生物防禦研究員 Bruce Ivins ,他似乎在2001年策劃了一系列炭獰攻擊。 技能嫻熟的非國家組織也發生了這種情況:1995年,邪教Aum Shinrikyo設法獲得沙林神經毒氣,並在 東京捷運中釋放 沙林,造成14人死亡(並造成數百人受傷)。
值得慶幸的是,這些攻擊都沒有使用傳染性生物製劑,因為建造或獲得這些製劑的能力甚至超出了這些人的能力。 13 分子生物學的進步現在大大降低了製造生物武器的障礙(特別是在材料的可用性方面),但這樣做仍然需要大量的專業知識。 我擔心每個人口袋裡的天才可以消除這種障礙,基本上讓每個人都成為博士病毒學家,可以一步一步地完成生物武器的設計、合成和釋放過程。 面對嚴重的對抗性壓力——所謂的「越獄」——防止這種資訊的誘發,可能需要超出通常包含在訓練中的防禦層。
至關重要的是,這將打破能力和動機之間的相關性:想殺人但缺乏紀律或技能的心煩意亂的孤獨者現在將被提升到博士病毒學家的能力水準,而病毒學家不太可能有這種動機。 這種擔憂超越了生物學(儘管我認為生物學是最可怕的領域),包括任何可能造成巨大破壞但目前需要高水準技能和紀律的領域。 另一種說法,租用強大的人工智慧為惡意(但其他方面是普通)的人提供情報。 我擔心外面可能有很多這樣的人,如果他們能獲得殺死數百萬人的簡單方法,他們中的一個人遲早會這樣做。 此外,那些 確實 有專業知識的人可能會受到比以前更大的破壞。
到目前為止,生物學是我最擔心的領域,因為它有很大的破壞潛力,而且很難抵禦它,所以我將特別關注生物學。 但我在這裡所說的許多內容都適用於其他風險,如網路攻擊、化學武器或核技術。
我不會詳細討論如何製造生物武器,原因應該是顯而易見的。 但從高層次上來說,我擔心法學碩士正在接近(或可能已經達到)端到端建立和釋放它們所需的知識,而且它們的破壞潛力非常高。 如果做出堅定的努力釋放一些生物製劑以最大限度地傳播它們,它們可能會造成數百萬人死亡。 然而,這仍然需要非常高的技能水準,包括一些不為人所知的非常具體的步驟和程式。 我關注的不僅僅是固定或靜態的知識。 我擔心法學碩士將能夠讓知識和能力一般的人,並引導他們完成一個複雜的流程,否則可能會出錯或需要以互動方式進行除錯,類似於技術支援如何幫助非技術人員除錯和修復複雜的計算機相關問題(儘管這將是一個更長的過程,可能會持續數週或數月)。
更有能力的法學碩士(大大超出今天的能力)可能能夠實現更可怕的行為。 2024年,一群著名科學家 寫了一封信 ,警告研究和可能創造一種危險的新型生物體的風險:「映象生命」。 構成生物體的DNA、RNA、核糖體和蛋白質都具有相同的手性(也稱為「手性」),導致它們不等同於鏡子中反映的自己版本(就像你的右手不能以與左手相同的方式旋轉一樣)。 但蛋白質相互結合的整個系統、DNA合成和RNA翻譯的機制以及蛋白質的構建和分解,都取決於這種能力。 如果科學家以相反的手感製造這種生物材料的版本——並且這些材料有一些潛在優勢,例如在體內持續時間更長的藥物——這可能是極其危險的。 這是因為左撇子生命,如果以能夠繁殖的完整生物體的形式產生(這將是非常困難的),那麼任何分解地球上生物物質的系統都可能難以消化——它將有一個「鑰匙」,無法適應任何現有酶的「鎖」。 這意味著它可能會以無法控制的方式擴散,並排擠地球上的所有生命,在最壞的情況下,甚至會摧毀地球上的所有生命。
關於映象生命的產生和潛在影響,存在著 巨大的科學不確定性 。 2024年的信函附有 一份報告 ,該 報告 得出結論,「映象細菌可以在未來一到幾十年內合理地產生」,範圍很廣。 但一個足夠強大的人工智慧模型(說白了,比我們今天擁有的任何模型都強大得多)也許能夠發現如何更快地建立它——並真正幫助某人這樣做。
我的觀點是,儘管這些是晦澀難懂的風險,而且可能看起來不太可能,但後果的嚴重性是如此之大,以至於應該認真對待它們,因為它們是人工智慧系統的一流風險。
懷疑論者對LLM的這些生物風險的嚴重性提出了一些反對意見,我不同意,但值得解決。 大多數人屬於不欣賞技術的指數軌跡的範疇。 早在2023年,當我們 第一次開始談論法學碩士的生物風險時 ,懷疑論者說,谷歌上提供了所有必要的資訊,而法學碩士沒有新增任何東西。 谷歌可以為您提供所有必要的資訊,這從來都不是真的:基因組是免費提供的,但正如我上面所說,某些關鍵步驟以及大量實用知識無法透過這種方式獲得。 但是,到2023年底,LLM顯然提供了超出谷歌為流程的某些步驟提供的資訊。
在此之後,懷疑論者退到反對意見,即LLM沒有 端到端的 用途,無法幫助生物武器的 獲取 ,而不僅僅是提供理論資訊。 截至2025年年中,我們的測量結果顯示,法學碩士可能已經在幾個相關領域 提供了大幅提升 ,可能將成功的可能性增加一倍或三倍。 這導致我們決定,Claude Opus 4(以及隨後的Sonnet 4.5、Opus 4.1和Opus 4.5型號)需要在我們的 負責任擴充套件政策 框架中的人工智慧安全3級保護下發布,並實施針對這種風險的保障措施(稍後會有更多內容)。 我們認為,模型現在可能正在接近這樣的地步,在沒有保障措施的情況下,它們可以有助於使擁有STEM學位但不是生物學學位的人經歷生產生物武器的整個過程。
另一個反對意見是,社會可以採取其他與人工智慧無關的行動來阻止生物武器的生產。 最突出的是,基因合成行業按需製造生物標本,聯邦沒有要求供應商篩選訂單以確保它們不含病原體。 麻省理工學院 的一項 研究 發現,38個供應商中有36個滿足了包含1918年流感序列的訂單。 我支援強制性的基因合成篩查,這將使個人更難將病原體武器化,以減少人工智慧驅動的生物風險和一般的生物風險。 但這不是我們今天擁有的東西。 它也只是降低風險的一種工具;它是人工智慧系統護欄的補充,而不是替代品。
最好的反對意見是我很少看到的:模型在原則上是有用的,而不良行為者使用這些模型的實際傾向之間存在差距。 大多數壞人都是心煩意亂的人,所以幾乎按照定義,他們的行為是不可預測和不理性的——正是 這些 壞人,那些不熟練的人,可能從人工智慧中受益最大,這使得殺死許多人變得更加容易。 14 僅僅因為一種暴力攻擊是可能的,並不意味著有人會決定這樣做。 也許生物攻擊不會吸引人,因為它們有合理的可能感染肇事者,它們不能滿足許多暴力個人或團體的軍事幻想,而且很難有選擇地針對特定的人。 也可能是,經歷一個需要幾個月的過程,即使人工智慧引導你完成它,也涉及大多數受干擾的人根本沒有的耐心。 我們可能只是運氣好,在實踐中,動機和能力沒有以相當正確的方式結合在一起。
但這似乎是一個非常脆弱的保護。 患有精神障礙的孤獨者的動機可能會因任何原因或無原因而改變,事實上,已經存在 在攻擊中使用LLM 的例子(只是不是生物學)。 對不安分子的孤獨者的關注也忽視了出於意識形態動機的恐怖分子,他們通常願意花費大量的時間和精力(例如,9/11劫持者)。 想要殺死儘可能多的人是一個可能遲早會出現的動機,不幸的是,它建議生物武器作為方法。 即使這個動機非常罕見,它也只需要實現一次。 隨著生物學的進步(越來越多地由人工智慧本身驅動),也有可能進行更有選擇性的攻擊(例如,針對具有特定祖先的人),這又增加了另一個非常令人不寒而慄的可能動機。
我不認為生物攻擊在廣泛可能發生時一定會進行——事實上,我敢打賭,我會反對。 但加起來數百萬人和幾年的時間,我認為有發生重大襲擊的嚴重風險,後果將非常嚴重(傷亡人數可能達到數百萬人或更多),我相信我們別無選擇,只能採取嚴肅措施來預防它。
防禦
這讓我們瞭解瞭如何抵禦這些風險。 在這裡,我看到了我們可以做的三件事。 首先,人工智慧公司可以在他們的模型上設定護欄,以防止它們幫助生產生物武器。 Anthropic非常積極地做這件事。 克勞德的《憲法》 主要側重於高階原則和價值觀,其中有少數具體的強硬禁令,其中一項與幫助生產生物(或化學、或核或放射性)武器有關。 但所有模型 都可以越獄 ,因此作為第二道防線,我們實施了(自2025年中以來,我們的測試顯示我們的模型開始接近可能開始構成風險的閾值)一個分類器,專門檢測和阻止與生物武器相關的輸出。 我們定期升級和改進這些分類器 ,並且通常發現它們非常強大,即使可以抵禦複雜的對抗性攻擊。 15 這些分類器增加了可衡量地服務於我們的模型的成本(在某些模型中,它們接近總推理成本的5%),從而削減了我們的利潤率,但我們覺得使用它們是正確的事情。
值得稱道的是,其他一些人工智慧公司 也實施了分類器 。 但並非每家公司都有,也沒有什麼要求公司保留其分類器。 我擔心,隨著時間的推移,可能會出現一個 囚犯的困境 ,公司可以透過刪除分類器來叛逃並降低成本。 這再次是一個經典的負面外部性問題,僅靠Anthropic或任何其他單一公司的自願行動是無法解決的。 16 自願的行業標準可能會有所幫助, 人工智慧安全 機構 和 第三方評估員 對型別的第三方評估和驗證也可能有所幫助。
但最終防禦可能需要政府採取行動,這是我們能做的第二件事。 我在這裡的觀點與解決自主權風險的觀點相同:我們應該從 透明度要求 開始, 17 這有助於社會衡量、監測和集體防禦風險,而不會以強硬的方式擾亂經濟活動。 然後,如果我們達到更明確的風險閾值,我們可以制定更精確地針對這些風險並降低附帶損害機會的立法。 在生物武器的具體情況下,我實際上認為這種有針對性的立法的時間可能很快就會到來——Anthropic和其他公司正在越來越多地瞭解生物風險的性質,以及對公司進行防禦的合理要求。 充分抵禦這些風險可能需要在國際上工作,即使是與地緣政治對手合作,但禁止開發生物武器的條約中也有先例。 我通常對人工智慧方面的大多數國際合作持懷疑態度,但這可能是一個有可能實現全球約束的狹窄領域。 即使是獨裁政權也不希望發生大規模的生物恐怖襲擊。
最後,我們可以採取的第三種對策是嘗試開發防禦生物攻擊本身。 這可能包括監測和跟蹤早期檢測,對空氣淨化研發的投資(如 遠紫外線 消毒),能夠應對和適應攻擊的快速疫苗開發,更好的個人防護裝備(PPE), 18 以及一些最有可能的生物製劑的治療或疫苗接種。 mRNA疫苗 可以設計為對特定病毒或變種做出反應,是 這裡可能 的早期例子。 Anthropic很高興能與生物技術和製藥公司合作解決這個問題。 但不幸的是,我認為我們對防守方的期望應該有限。 在生物學中, 攻擊和防禦之間 存在 不對稱 ,因為藥劑會自行迅速傳播,而防禦需要在大量人群中進行檢測、疫苗接種和治療,以迅速做出反應。 除非反應快如閃電(很少如此),否則大部分損害將在響應可能之前發生。 可以想象,未來的技術改進可能會改變這種平衡,有利於國防(我們當然應該 使用人工智慧來幫助發展這種技術進步 ),但在此之前,預防性保障將是我們的主要防線。
這裡值得簡單提及網路攻擊,因為與生物攻擊不同, 人工智慧主導的網路攻擊實際上發生在野外 ,包括大規模和國家贊助的間諜活動。 我們預計,隨著模型的快速發展,這些攻擊將 變得更加強大 ,直到它們成為進行網路攻擊的主要方式。 我預計人工智慧驅動的網路攻擊將成為對全球計算機系統完整性的嚴重和前所未有的威脅,Anthropic正在非常努力地關閉這些攻擊,並最終可靠地防止它們發生。 我沒有像生物學那樣關注網路的原因是(1)網路攻擊殺人的可能性要小得多,當然不是生物攻擊的規模,(2)網路中的攻防平衡可能更容易處理,如果我們適當投資人工智慧攻擊,至少有一些希望防禦可以跟上(甚至理想情況下超越)人工智慧攻擊。
儘管生物學目前是最嚴重的攻擊載體,但還有許多其他載體,更危險的載體可能會出現。 一般原則是,如果沒有對策,人工智慧可能會不斷降低越來越大規模的破壞性活動的障礙,人類需要認真應對這一威脅。
3. 可以的裝置
濫用奪取權力
上一節討論了個人和小型組織選擇「資料中心天才之國」的一小部分,造成大規模破壞的風險。 但我們也應該擔心——可能更擔心——濫用人工智慧以 使用或 奪取權力 為目的,可能是由更大、更成熟的行為者濫用。 19
在《 愛的恩典機器》 中,我討論了專制政府可能使用強大的人工智慧來監視或壓迫其公民的可能性,這種方式將極難改革或推翻。 當前的專制國家由於需要人類執行他們的命令而限制了他們的壓迫性,而人類往往在願意成為不人道方面受到限制。 但支援人工智慧的專制國家不會有這樣的限制。
更糟糕的是,各國也可以利用其在人工智慧方面的優勢來獲得對 其他國家 的權力。 如果整個「天才之國」只是由一個(人類)國家的軍事機構擁有和控制,而其他國家沒有同等的能力,那麼很難看出他們如何保護自己:他們處處都會被智取,就像人類和老鼠之間的戰爭一樣。 將這兩種擔憂結合在一起,導致全球極權獨裁統治的驚人可能性。 顯然,防止這種結果應該是我們的首要任務之一。
人工智慧可以透過多種方式實現、鞏固或擴大專制,但我將列出一些我最擔心的。 請注意,其中一些應用程式具有合法的防禦用途,我不一定在絕對的術語上反對它們;然而,我擔心它們在結構上傾向於偏愛專制:
- 完全自主的武器。 成群結隊的數百萬或數十億架全自動武裝無人機,由強大的人工智慧在當地控制,並由更強大的人工智慧在全球範圍內進行戰略協調,可以成為一支無敵的軍隊,既能夠擊敗世界上任何軍隊,又能透過跟隨每個公民來鎮壓一個國家的異議。 俄烏戰爭的發展 應該提醒我們,無人機戰爭已經與我們同在(儘管尚未完全自主,只有強大的人工智慧可能的一小部分)。 強大的人工智慧研發可以使一個國家的無人機遠遠優於其他國家的無人機,加快其製造速度,使其更耐電子攻擊,改善其機動性,等等。 當然,這些武器在捍衛民主方面也有合法用途:它們一直是保衛烏克蘭的關鍵,也可能是保衛臺灣的關鍵。 但它們是一種危險的武器:我們應該擔心它們掌握在專制國家手中,但也擔心,因為它們如此強大,責任如此之低,民主政府使它們反對自己的人民奪取政權的風險大大增加。
- 人工智慧監控。 足夠強大的人工智慧可能被用來破壞世界上的任何計算機系統, 20 ,21也可以使用以這種方式獲得的訪問來閱讀 和理解 世界上所有的電子通訊(甚至世界上所有的 面對面的通訊,如果錄音裝置可以建造或徵用)。 簡單地生成一份關於任何在任何問題上不同意政府意見的人的完整名單,即使這種分歧在他們所說的或所做的任何事情上都不是明確的,這可能是可怕的。 一個強大的人工智慧可以檢視數百萬人的數十億次對話,可以衡量公眾情緒,檢測不忠誠的形成,並在它們成長之前將其消滅。 這可能會導致在我們今天看不到的規模上強加真正的全景圖,即使是中國共產黨。
- 人工智慧宣傳。 當今的「 人工智慧精神病 」和「人工智慧女友」現象表明,即使在他們目前的智力水準下,人工智慧模型也會對人們產生強大的心理影響。 這些模型的更強大的版本,它們更嵌入和意識到人們的日常生活,並且可以在幾個月或幾年內對他們進行建模和影響,從本質上可能能夠洗腦許多(大多數?) 人們進入任何理想的意識形態或態度,並可能被一個肆無忌憚的主管人僱用來確保忠誠和壓制異議,即使面對大多數人會反抗的鎮壓。 例如,人們非常擔心 抖音 作為針對兒童的宣傳 的 潛在 影響 。 我也擔心這一點,但一個個性化的人工智慧代理,多年來一直瞭解你,並利用它對你的瞭解來塑造你所有的意見,會比這更強大。
- 戰略決策。 資料中心的天才國家可用於就地緣政治戰略向國家、團體或個人提供建議,我們可能稱之為「虛擬俾斯麥」。 它可以最佳化上述三種奪取權力的策略,此外,可能還可能開發許多其他我從未想過的策略(但一個天才國家可以)。 外交、軍事戰略、研發、經濟戰略和許多其他領域都可能透過強大的人工智慧大大提高其有效性。 其中許多技能對民主國家有合法的幫助——我們希望民主國家能夠獲得保護自己免受專制國家侵害的最佳策略——但濫用的可能性仍然存在。
在描述了我擔心 的事情後 ,讓我們繼續討論 誰 。 我擔心那些最能接觸人工智慧的實體,那些從最政治權力的立場出發,或者那些有壓迫歷史的實體。 按嚴重程度排序,我擔心的是:
- 中共。 中國在人工智慧能力方面僅次於美國,也是在這些能力方面最有可能超越美國的國家。 他們的政府目前是專制的,並運營著一個高科技監控國家。 它已經部署了基於人工智慧的監控(包括對 維吾爾人的 鎮壓),並被認為透過抖音使用演算法宣傳(除了許多其他國際宣傳工作外)。 他們走上了通往我上面闡述的人工智慧極權主義噩夢的最清晰的道路。 這甚至可能是中國內部以及中共向其出口監控技術的其他專制國家的預設結果。 我經常寫 關於中共在人工智慧中處於領先地位的威脅,以及阻止他們這樣做的存在當務之急。 這就是原因。 說白了,我並不是出於對他們的意而挑出中國——他們只是最結合人工智慧能力、專制政府和高科技監控國家的國家。 如果有的話,最有可能遭受中共人工智慧的鎮壓的是中國人民自己,他們在政府的行動中沒有發言權。 我非常欽佩和尊重中國人民,並支援中國境內許多勇敢的持不同政見者以及他們爭取自由的鬥爭。
- 民主國家在人工智慧方面具有競爭力。 正如我上面所寫的那樣,民主國家對一些人工智慧驅動的軍事和地緣政治工具有合法利益,因為民主政府為對抗專制國家使用這些工具提供了最好的機會。 總的來說,我支援在人工智慧時代用擊敗專制國家所需的工具武裝民主國家——我只是認為沒有其他辦法。 但我們不能忽視民主政府本身濫用這些技術的可能性。 民主國家通常有保障措施,防止其軍事和情報機構向內反對本國人口, 22 但由於人工智慧工具需要很少的人來操作,他們有可能規避這些保障措施和支援它們的規範。 同樣值得注意的是,其中一些保障措施在一些民主國家已經逐漸被侵蝕。 因此,我們應該用人工智慧武裝民主國家,但我們應該謹慎並在一定範圍內這樣做:它們是我們對抗專制國家所需的免疫系統,但就像免疫系統一樣,它們有一些風險來對我們並成為威脅。
- 擁有大型資料中心的非民主國家。 除了中國之外,大多數治理不太民主的國家並不是領先的人工智慧參與者,因為他們沒有生產前沿人工智慧模型的公司。 因此,它們與中共構成的風險與中共有根本不同且風險較小,中共仍然是首要關注的問題(大多數也不太鎮壓,而那些更壓性的國家,如朝鮮,根本沒有重要的人工智慧行業)。 但其中一些國家確實擁有大型 資料中心 (通常是在民主國家運營的公司建設的一部分),可用於大規模執行前沿人工智慧(儘管這並不賦予推動前沿的能力)。 與此相關的存在一些危險——這些政府原則上可以徵用資料中心,並利用其中的人工智慧國家來達到自己的目的。 與像中國這樣直接開發人工智慧的國家相比,我對此不那麼擔心,但這是一個需要牢記的風險。 23
- 人工智慧公司。 作為一家人工智慧公司的執行長,這樣說有點尷尬,但我認為下一個風險層實際上是人工智慧公司本身。 人工智慧公司控制著大型資料中心,訓練前沿模型,在如何使用這些模型方面擁有最大的專業知識,在某些情況下,每天與數億或數億使用者有聯絡並有可能影響他們。 他們缺乏的主要問題是國家的合法性和基礎設施,因此構建人工智慧專制工具所需的大部分對人工智慧公司來說都是非法的,或者至少是非常可疑的。 但其中一些並非不可能:例如,他們可以使用人工智慧產品來洗腦他們龐大的消費者使用者群,公眾應該警惕這所代表的風險。 我認為人工智慧公司的治理值得大量審查。
有許多可能反對這些威脅的嚴重性的論點,我希望我相信它們,因為人工智慧的專制主義讓我害怕。 值得經歷其中的一些爭論並做出回應。
首先,有些人可能相信核威懾,特別是反對使用人工智慧自主武器進行軍事征服。 如果有人威脅要對你使用這些武器,你可以隨時威脅要做出核反應。 我擔心的是,我 並不完全確定我們能否對 資料中心中一個天才國家的核威懾 充滿信心 :強大的人工智慧有可能 設計出 檢測和打擊核潛艇 的方法 ,對核武器基礎設施運營商 進行影響力行動 ,或者利用人工智慧的 網路能力 對用於檢測核發射的衛星發動網路攻擊。3333
當然,這也是 提高核威懾安全性的 論點,使其 更有可能 對抗強大的人工智慧,而核武器民主國家也應該這樣做。 但我們不知道強大的人工智慧能做什麼,或者哪些防禦措施(如果有的話)會對它起作用,所以我們不應該假設這些措施一定會解決問題。
或者,僅靠人工智慧監控和人工智慧宣傳,接管國家是可行的,實際上從來沒有一個明確的時刻,即正在發生的事情以及核反應是合適的。 也許 這些事情不可行,核威懾仍然有效,但風險似乎太高,無法冒險。 24
第二個可能的反對意見是,我們也許可以採取對策來對這些專制工具。 我們可以用自己的無人機對抗無人機,網路防禦將隨著網路攻擊而改善,可能有辦法讓人們免於宣傳,等等。 我的回應是,只有擁有相當強大的人工智慧才能實現這些防禦。 如果資料中心中沒有一個相當聰明和眾多天才的國家的反擊,就不可能匹配無人機的品質或數量,網路防禦無法智取網路攻擊等。 因此,對策問題歸結為強大的人工智慧中權力平衡的問題。 在這裡,我擔心強大的人工智慧的遞迴或自我強化屬性(我在本文開頭就討論了):每一代人工智慧都可以用於設計和訓練下一代人工智慧。 這導致了失控優勢的風險,目前強大的人工智慧主管者可能能夠增加他們的領先優勢,但可能很難趕上。 我們需要確保它不是一個專制國家首先進入這個迴圈。
此外,即使能夠實現權力平衡,世界仍有可能像 《1984》 那樣被劃分為專制領域。 即使幾個相互競爭的大國都有其強大的人工智慧模型,而沒有一個能壓倒其他大國,每個大國仍然可以在內部壓制自己的人口,並且很難推翻(因為人口沒有強大的人工智慧來保護自己)。 因此,即使人工智慧不會導致一個國家接管世界,也要防止人工智慧專制。
防禦
我們如何抵禦這種廣泛的專制工具和潛在的威脅行為者? 和前幾節一樣,我認為我們可以做幾件事。 首先,我們絕對不應該向CCP出售晶片、晶片製造工具或資料中心。 晶片和晶片製造工具是強大的人工智慧的最大瓶頸,阻止它們是一種簡單但極其有效的措施,也許是我們可以採取的最重要的單一行動。 向中共推銷建立人工智慧極權主義國家並可能在軍事上征服我們的工具是沒有意義的。 人們提出了一些複雜的論點來證明這種銷售是合理的,例如「將我們的技術堆疊傳播到世界各地」可以讓「美國在一些普遍的、未指定的經濟鬥爭中獲勝」的想法。 在我看來,這就像向朝鮮出售核武器,然後吹噓導彈彈殼是由波音製造的,所以美國正在「獲勝」。 中國在數量上生產前沿晶片的能力落後於美國幾年,在資料中心中建立天才國家的關鍵時期很可能在未來幾年內。 25 在這個關鍵時期,沒有理由給他們的人工智慧行業帶來巨大的提升。
其次,使用人工智慧來授權民主國家抵制專制是有意義的。 這就是Anthropic認為向美國情報和國防界及其民主盟友提供人工智慧很重要的原因。 捍衛受到攻擊的民主國家,如烏克蘭和(透過網路攻擊)臺灣,似乎特別優先,授權民主國家利用其情報部門從內部破壞和貶低專制國家。 在某種程度上,應對專制威脅的唯一方法是在軍事上與他們匹配並超過他們。 美國及其民主盟友的聯盟,如果在強大的人工智慧中佔據主導地位,不僅能夠抵禦專制,而且能夠遏制它們並限制其人工智慧極權主義濫用。
第三,我們需要在民主國家內對人工智慧濫用劃清界限。 我們允許政府對人工智慧做什麼需要有限制,這樣他們就不會奪取權力或壓迫自己的人民。 我提出的公式是,我們應該以各種方式使用人工智慧進行國防, 除了那些會讓我們更像專制的對手的人工智慧 。
應該在哪裡畫線? 在本節開頭的列表中,有兩個專案——使用人工智慧進行國內大規模監控和大規模宣傳——對我來說就像明亮的紅線,完全是非法的。 有些人可能會爭辯說,沒有必要做任何事情(至少在美國),因為根據第四修正案,國內大規模監控已經是非法的。 但人工智慧的快速發展可能會造成我們現有的法律框架無法很好地處理的情況。 例如,美國政府對所有 公開 對話進行大規模錄音(例如,人們在街角互相說的話)可能並不違憲,以前很難整理這麼多資訊,但有了人工智慧,所有這些資訊都可以被轉錄、解釋和三角測量,以形成許多或大多數公民的態度和忠誠度的畫面。 我會支援以公民自由為重點的立法(甚至可能是憲法修正案),該立法對人工智慧驅動的濫用行為施加了更強大的護欄。
另外兩個專案——完全自主的武器和用於戰略決策的人工智慧——更難劃清界限,因為它們在捍衛民主方面有合法用途,同時也容易被濫用。 在這裡,我認為需要的是極端的謹慎和審查,並結合護欄來防止濫用。 我主要擔心的是「按鈕上的手指」太少,這樣一個或少數人基本上可以操作無人機軍隊,而不需要任何其他人合作來執行他們的命令。 隨著人工智慧系統越來越強大,我們可能需要有更直接和更直接的監督機制,以確保它們不會被濫用,也許涉及行政部門以外的政府部門。 我認為我們應該非常謹慎地對待完全自主武器, 26 在沒有適當保障的情況下,不要急於使用它們。
第四,在對民主國家濫用人工智慧制定強硬路線後,我們應該利用這一先例來建立國際禁忌,反對對強大的人工智慧的濫用。 我認識到,當前的政治風向已經轉向國際合作和國際規範,但這是我們迫切需要它們的情況。 世界需要理解強大的人工智慧在獨裁者手中的黑暗潛力,並認識到人工智慧的某些用途相當於試圖永久竊取他們的自由,並強加一個他們無法逃脫的極權主義國家。 我甚至認為,在某些情況下,使用強大的人工智慧進行大規模監視、使用強大的人工智慧進行大規模宣傳以及某些型別的 攻擊性 使用完全自主武器應該被視為危害人類罪。 更廣泛地說,迫切需要一個針對人工智慧支援極權主義及其所有工具和工具的強有力規範。
有可能擁有更強有力的立場,即由於人工智慧極權主義的可能性如此黑暗,專制根本不是人們在後強大的人工智慧時代可以接受的政府形式。 就像封建主義隨著工業革命而變得不可行一樣,人工智慧時代可能會不可避免地和合乎邏輯地導致這樣的結論:如果人類要擁有美好的未來,民主(正如我在 《愛的恩典機器》 中討論的那樣,人工智慧改善和振興民主)是唯一可行的政府形式。
第五,也是最後,人工智慧公司應該受到仔細的監視,他們與政府的聯絡也應該受到關注,這是必要的,但必須有限制和界限。 強大的人工智慧所體現的大量能力使普通公司治理——旨在保護股東和防止欺詐等普通濫用行為——不太可能勝任管理人工智慧公司的任務。 公司公開承諾(甚至可能作為公司治理的一部分)不採取某些行動,例如私人建造或囤積軍事硬體,由個人以不負責任的方式使用大量計算資源,或利用其人工智慧產品作為宣傳來操縱對他們有利的輿論,也可能有價值。
這裡的危險來自許多方向,有些方向與其他方向緊張。 唯一不變的是,我們必須為每個人尋求問責制、規範和護欄,即使我們授權「好」行為者來控制「壞」行為者。
4. 鋼琴演奏家
經濟混亂
前三節主要是關於強大的人工智慧構成的安全風險:來自人工智慧本身的風險、個人和小型組織濫用的風險以及國家和大型組織濫用的風險。 如果我們拋開安全風險或假設它們已經解決,下一個問題是經濟問題。 這種令人難以置信的「人力」資本的注入將對經濟產生什麼影響? 顯然,最明顯的效果將是大幅促進經濟增長。 科學研究、生物醫學創新、製造業、供應鏈、金融體系效率等的進步速度幾乎可以保證導致更快的經濟增長速度。 在《 愛的恩典機器》 中,我建議10-20%的持續年GDP增長率是可能的。
但應該清楚的是,這是一把雙刃劍:在這樣一個世界裡,大多數現存人類的經濟前景如何? 新技術經常給勞動力市場帶來衝擊,過去人類總是從中恢復過來,但我擔心這是因為以前的這些衝擊只影響了人類可能的全部能力的一小部分,為人類擴充套件到新任務留下了空間。 人工智慧的影響將更廣泛,發生得更快,因此,我擔心讓事情順利進行將更具挑戰性。
勞動力市場混亂
我擔心的有兩個具體問題:勞動力市場的流離失所和經濟力量的集中。 讓我們從第一個開始。 這是我 在2025年非常公開警告 的話題,我預測人工智慧可能會在未來1-5年內取代所有入門級白領工作的一半,即使它加速了經濟增長和科學進步。 這個警告引發了一場關於這個話題的公開辯論。 許多執行長、技術專家和經濟學家都同意我的觀點,但其他人認為我陷入了「勞動大塊」謬誤的獵物,不知道勞動力市場是如何運作的,有些人沒有看到1-5年的時間範圍,認為我聲稱人工智慧現在正在取代工作(我同意這可能不是)。 因此,為了澄清這些誤解,值得詳細瞭解一下我為什麼擔心勞動力流離失所。
作為基線,瞭解勞動力市場 通常 如何應對技術進步是有用的。 當一項新技術出現時,它首先使給定的人類工作更加高效。 例如,在工業革命的早期,升級後的犁等機器使人類農民在某些方面能夠提高工作效率。 這提高了農民的生產力,從而提高了他們的工資。
在下一步中,耕作的某些部分工作可以 完全 由機器完成,例如 脫粒機 或 播種機 的發明。 在這個階段,人類所做的工作比例越來越低,但他們完成的工作變得越來越槓桿化,因為它與機器的工作相輔相成,他們的生產力不斷提高。 正如 Jevons悖論 所描述的那樣,農民的工資,甚至可能農民的數量也在不斷增加。 即使90%的工作是由機器完成的,人類也可以簡單地多做10%的10倍,用相同數量的勞動力生產10倍的產出。
最終,機器可以做任何事情或幾乎做任何事情,就像現代 聯合收割機 、拖拉機和其他裝置一樣。 在這一點上,農業作為人類就業的一種形式確實會急劇下降,這可能會在短期內造成嚴重的破壞,但由於農業只是人類能夠做的許多有用活動之一,人們最終會轉而從事其他工作,例如操作工廠機器。 儘管農業佔了就業的很大比例,但事實是如此。250年前,90%的美國人 生活在農場 ;在歐洲,50-60%的就業 是農業 。 現在,這些百分比在那些地方處於低個位數,因為工人轉為工業工作(以及後來的知識工作)。 經濟可以完成以前只需要1-2%的勞動力所需的大部分勞動力,解放其餘勞動力,以建立一個更加先進的工業社會。 沒有固定的「 勞動塊 」,只是不斷擴大的能力, 用越來越少地 做 更多的事情 。 人民的工資隨著GDP的指數增長而上升,一旦短期中斷過去,經濟就會保持充分就業。
人工智慧可能會以大致相同的方式進行,但我強烈反對它。 以下是我認為人工智慧可能與眾不同的一些原因:
- 速度。 人工智慧的進步速度比以前的技術革命快得多。 例如,在過去的2年裡,人工智慧模型從幾乎無法完成一行程式,到為一些人 編寫全部或幾乎所有程式 ——包括Anthropic.27 的工程師,[^37]很快,他們可能會從頭到尾完成軟體工程師的整個任務。 28 人們很難適應這種變化的步伐,無論是給定工作方式的變化,還是轉向新工作的需要。 即使是傳奇程式設計師也越來越多地 將自己描述為「幕後」。 隨著人工智慧編碼模型日益加速人工智慧開發任務,速度可能會繼續加快。 說白了,速度本身並不意味著勞動力市場和就業最終不會恢復,它只是意味著與過去的技術相比,短期過渡將異常痛苦,因為人類和勞動力市場的反應和平衡緩慢。
- 認知廣度。 正如「資料中心的天才之國」這句話所暗示的那樣,人工智慧將能夠實現非常廣泛的人類認知能力——也許是所有的能力。 這與機械化農業、運輸甚至計算機等以前的技術截然不同。 29 這將使人們更難輕鬆地從流離失所的工作轉為適合他們的類似工作。 例如,金融、諮詢和法律等入門級工作所需的一般智力能力相當相似,即使具體知識有很大不同。 一種只顛覆這三者中的一種的技術將允許員工切換到另外兩個密切的替代者(或本科生切換專業)。 但同時破壞這三項工作(以及許多其他類似的工作)可能更難適應。 此外, 不僅僅是 大多數現有的工作都會被破壞。 這部分以前發生過——回想一下,農業佔就業的很大比例。 但農民可以轉而從事操作工廠機器的相對相似的工作,儘管這種工作以前並不常見。 相比之下,人工智慧越來越符合人類的一般認知特徵,這意味著它還將擅長新工作,而這些新工作通常是為了應對自動化的舊工作而創造的。 另一種說法是,人工智慧不是特定人類工作的替代品,而是人類的一般勞動力替代品。
- 按認知能力進行切片。 在廣泛的任務中,人工智慧似乎正在從能力階梯的底部向頂部前進。 例如,在編碼方面,我們的模型已經從「平庸的編碼器」到「強大的編碼器」再到「非常強大的編碼器」的水準。 30 我們現在開始看到白領工作的總體進展。 因此,我們面臨這樣一種風險:人工智慧不是影響具有特定技能或特定職業(可以透過再培訓來適應)的人,而是影響具有某些內在認知屬性的人,即智力能力較低(更難改變)。 目前還不清楚這些人會去哪裡或做什麼,我擔心他們可能會形成一個失業或極低工資的「下層階級」。 說白了,類似的事情以前也發生過——例如,一些經濟學家認為計算機和網際網路代表了「 技能偏見的技術變革 」。 但這種技能偏見既沒有我期望的人工智慧那麼極端,而且被認為助長了工資不平等的加劇, 21 因此,它並不是一個令人放心的先例。
- 填補空白的能力。 面對新技術,人類工作經常調整的方式是,工作有很多方面,而新技術,即使它似乎直接取代了人類,也經常存在差距。 如果有人發明了一臺機器來製造小部件,人類可能仍然必須將原材料裝入機器。 即使這隻需要比手動製作小部件多1%的努力,人類工人也可以簡單地多製作100倍的小部件。 但人工智慧除了是一種快速進步的技術外,也是一種快速 適應 的技術。 在每次模型釋出期間,人工智慧公司都會仔細衡量模型擅長什麼和不擅長什麼,客戶也會在釋出後提供此類資訊。 可以透過收集體現當前差距的任務,併為下一個模型進行培訓來解決弱點。 在生成性人工智慧的早期,使用者注意到人工智慧系統存在某些弱點(例如人工智慧影象模型生成手指數量錯誤的手),許多人認為這些弱點是技術固有的。 如果他們是,這將限制工作中斷。 但幾乎每個這樣的弱點都會很快得到解決——通常,在短短的幾個月內。
值得解決懷疑主義的共同點。 首先,有一種觀點認為,經濟擴散會很慢,因此即使基礎技術 能夠 做大部分人類勞動,其在整個經濟中的實際應用可能會慢得多(例如,在遠離人工智慧行業且採用緩慢的行業中)。 技術的緩慢傳播 絕對是真實的 ——我與來自各種企業的人交談,有些地方採用人工智慧需要數年時間。 這就是為什麼我預測50%的入門級白領工作將中斷1-5年,儘管我懷疑我們將在不到5年內擁有強大的人工智慧(從技術上講,這足以完成 大多數或所有 工作,而不僅僅是入門級)。 但擴散效應只是為我們爭取時間。 我不確定他們會像人們預測的那樣慢。 企業人工智慧的採用正在以比以往任何技術更快的速度增長,這在很大程度上是由於技術本身的純粹優勢。 此外,即使傳統企業採用新技術的速度很慢,初創企業也會如雨後春筍,起到「粘合劑」的作用,使採用更容易。 如果這行不通,初創企業可能會直接擾亂現有公司。
這可能會導致一個世界,在這個世界上,與其說是特定工作受到干擾,不如說是大型企業普遍受到干擾,並被勞動密集度較低的初創企業所取代。 這也可能導致一個「地理不平等」的世界,其中越來越多的世界財富集中在矽谷,矽谷成為自己的經濟,其執行速度與世界其他地區不同,並落後於此。 所有這些結果對經濟增長都很好——但對勞動力市場或那些落後的人來說就不那麼好了。
其次,有人說,人類的工作將轉移到物理世界,這避免了人工智慧發展如此之快的整個「認知勞動」類別。 我也不確定這有多安全。 大量的體力勞動已經由機器完成(例如,製造),或者很快就會由機器完成(例如,駕駛)。 此外,足夠強大的人工智慧將能夠加速機器人的開發,然後控制物理世界中的這些機器人。 它可能會爭取一些時間(這是件好事),但我擔心它不會買太多。 即使中斷僅限於認知任務,它仍然將是前所未有的大規模和快速的中斷。
第三,也許有些任務本質上需要或從人情味中受益匪淺。 我對此有點不確定,但我仍然懷疑它是否足以抵消我上面描述的大部分影響。 人工智慧已經廣泛用於客戶服務。 許多人 報告 說,與人工智慧談論個人問題比與治療師交談更容易——人工智慧更有耐心。 當我妹妹在懷孕期間與醫療問題作鬥爭時,她覺得她沒有從護理提供者那裡得到她需要的答案或支援,她發現克勞德在床邊的態度更好(以及在診斷問題方面也更成功)。 我確信有些任務的人情味真的很重要,但我不確定有多少——在這裡,我們談論的是為勞動力市場上幾乎每個人找工作。
第四,有些人可能會爭辯說,比較優勢仍然會保護人類。 根據 比較優勢法則 ,即使人工智慧在所有方面都比人類強,人類和人工智慧技能特徵之間的任何 相對 差異都會為人類和人工智慧之間的貿易和專業化奠定了基礎。 問題是,如果人工智慧的生產力真的比人類高數千倍,這種邏輯就會開始崩潰。 即使是微小 的交易成本 也可能使人工智慧與人類進行交易不值得。 人類的工資可能很低,即使他們從技術上講有東西可以提供。
所有這些因素都有可能得到解決——勞動力市場有足夠的彈性來適應如此巨大的混亂。 但即使它最終能夠適應,上述因素也表明,短期衝擊的規模將是前所未有的。
防禦
我們能做些什麼來解決這個問題? 我有幾個建議,其中一些是Anthropic已經在做。 第一件事只是獲取實時工作轉移的準確資料。 當經濟變化發生得非常迅速時,很難獲得關於正在發生的事情的可靠資料,如果沒有可靠的資料,就很難設計有效的政策。 例如,政府資料目前缺乏關於公司和行業採用人工智慧的精細、高頻資料。 在過去的一年裡,Anthropic一直在運營並公開發布 經濟指數 ,該 指數 幾乎實時顯示我們模型的使用情況,按行業、任務、位置,甚至任務是自動化還是協作執行。 我們還有一個 經濟諮詢委員會 來幫助我們解釋這些資料,並看看會發生什麼。
其次,人工智慧公司可以選擇如何與企業合作。 傳統企業的效率非常低,這意味著他們推出人工智慧可能非常依賴路徑,並且有一些選擇更好道路的空間。 企業通常可以選擇「成本節約」(用更少的人做同樣的事情)和「創新」(用相同數量的人做更多事情)。 市場最終將不可避免地產生兩者,任何有競爭力的人工智慧公司都必須為兩者服務,但可能有一些空間可以引導公司進行創新,這可能會為我們爭取一些時間。 Anthropic正在積極思考這個問題。
第三,公司應該考慮如何照顧他們的員工。 在短期內,創造性地在公司內部重新分配員工的方式可能是避免裁員需求的有希望的方法。 從長遠來看,在一個擁有巨大總財富的世界裡,由於生產力和資本集中的提高,許多公司的價值大幅增加,即使人類員工不再提供傳統意義上的經濟價值,支付工資也是可行的。 Anthropic目前正在考慮我們自己的員工的一系列可能途徑,我們將在不久的將來分享這些途徑。
第四,富人有義務幫助解決這個問題。 令我難過的是,許多富人(尤其是科技行業)最近採取了一種憤世嫉俗和虛無主義的態度,認為慈善事業不可避免地是欺詐或無用的。 蓋茨基金會 等私人慈善事業和 PEPFAR 等公共專案在發展中國家拯救了數千萬人的生命,並幫助發達國家創造了經濟機會。 Anthropic的所有聯合創始人都承諾捐贈我們80%的財富,Anthropic的員工也各自承諾以當前價格捐贈價值數十億美元的公司股票——該公司承諾匹配的捐款。
第五,雖然上述所有私人行動都可能有所幫助,但最終如此大的宏觀經濟問題需要政府幹預。 對鉅額經濟蛋糕加上高度不平等(由於許多人缺乏工作或低薪工作)的自然政策反應是累進稅。 該稅可能是一般的,也可能特別針對人工智慧公司。 顯然,稅收設計很複雜,有很多方法會出錯。 我不支援設計不良的稅收政策。 我認為,在這篇文章中預測的極端不平等程度,基於基本的道德理由,更強有力的稅收政策是合理的,但我也可以向世界億萬富翁提出一個務實的論點,即支援一個好的版本符合他們的利益:如果他們不支援一個好的版本,他們不可避免地會得到一個由暴徒設計的壞版本。
歸根結底,我認為上述所有干預措施都是爭取時間的方式。 最終,人工智慧將能夠做所有事情,我們需要努力應對。 我希望到那時,我們可以利用人工智慧本身來幫助我們以適合所有人的方式重組市場,上述干預措施可以讓我們度過過渡期。
權力的經濟集中
除了就業流離失所或經濟不平等問題之外, 經濟權力集中 的問題也是 。 第1節討論了人類被人工智慧剝奪權力的風險,第3節討論了公民被政府透過武力或脅迫剝奪權力的風險。 但是,如果財富如此集中,以至於一小群人以他們的影響力有效地控制了政府政策,而普通公民由於缺乏經濟影響力而沒有影響力,則可能會發生另一種權力下。 民主最終得到了整個人口對經濟運作所必需的想法的支援。 如果這種經濟槓桿消失,那麼民主的隱性社會契約可能會停止工作。 其他人已經寫過這個問題 ,所以我不需要在這裡詳細介紹,但我同意這種擔憂,我擔心它已經開始發生。
說白了,我並不反對人們賺大錢。 有強有力的論點是,在正常情況下,它激勵了經濟增長。 我同情人們對透過殺死產生創新的金鵝來阻礙創新的擔憂。 但在GDP每年增長10-20%,人工智慧正在迅速接管經濟的情況下,但個人佔GDP的很大一部分,創新 不是 值得擔心的。 令人擔憂的是財富集中的程度會破壞社會。
美國曆史上財富極度集中的最著名的例子是 鍍金時代 ,鍍金時代最富有的實業家是 John D。 洛克菲勒 。 當時,洛克菲勒的財富約佔美國國內生產總值的2%。 31 今天,類似的比例將導致6000億美元的財富,而當今世界上最富有的人(埃隆·馬斯克)已經超過了這個數額, 約為7000億美元 。 因此,我們已經達到了歷史上前所未有的財富集中水準,甚至在人工智慧的大部分經濟影響 之前 。 我認為(如果我們有一個「天才國家」)想象人工智慧公司、半導體公司,也許還有下游應用公司每年產生約3T萬美元的收入,這不會太牽強,4343
整個經濟的勞動力總價值為每年60億美元,因此每年3億英鎊相當於其中的5%。 一家公司可以賺取這筆錢,該公司以人類成本的20%的價格提供勞動力,並擁有25%的市場份額,即使勞動力需求沒有擴大(由於成本較低,幾乎肯定會擴大)。
價值約30萬億美元,並導致個人財富達到數萬億。 在那個世界裡,我們今天關於稅收政策的辯論根本不適用,因為我們將處於一個根本不同的境地。
與此相關的是,這種財富的經濟集中與政治制度的耦合已經讓我擔憂。 人工智慧資料中心已經佔了美國經濟增長的很大一部分, 32 因此,以一種可以產生反常激勵的方式將大型科技公司(越來越關注人工智慧或人工智慧基礎設施)的財務利益與政府的政治利益緊密地綁在一起。 我們已經透過科技公司不願意批評美國政府,以及政府對人工智慧的極端反監管政策的支援來看到了這一點。
防禦
對此能做什麼? 首先,最明顯的是,公司應該選擇不參與其中。 Anthropic一直努力成為一個政策行為者,而不是一個政治行為者,無論政府如何,都要保持我們的真實觀點。 我們支援符合公共利益的 合理人工智慧監管 和 出口管制 ,即使這些監管和出口管制與政府政策相悖。 33 許多人告訴我,我們應該停止這樣做,這可能會導致不利的待遇,但在我們這樣做的一年裡,Anthropic的估值增加了6倍多,在我們的商業規模上幾乎是前所未有的飛躍。
其次,人工智慧行業需要與政府建立更健康的關係——這種關係基於實質性政策參與,而不是政治協調。 我們選擇參與政策實質而不是政治,有時被解讀為戰術錯誤或未能「讀懂房間」,而不是原則性決定,這種框架讓我擔心。 在一個健康的民主國家,公司應該能夠為了自身而倡導良好的政策。 與此相關,公眾對人工智慧的強烈反對正在醞釀:這可能是一種糾正措施,但目前沒有重點。 其中大部分針對的不是實際問題(如 資料中心 用水 )的問題,並提出了解決方案(如資料中心禁令或設計不善的財富稅),這些解決方案不會解決真正的問題。 值得關注的根本問題是確保人工智慧開發繼續對公共利益負責,而不是被任何特定的政治或商業聯盟所抓住,將公眾討論集中在那裡似乎很重要。
第三,我在本節前面描述的宏觀經濟干預措施,以及私人慈善事業的復甦,可以幫助平衡經濟規模,同時解決失業和經濟權力集中問題。 我們應該在這裡回顧我們國家的歷史:即使在鍍金時代, 洛克菲勒 和 卡內基 等實業家也對整個社會感到強烈的義務,這種感覺社會為他們的成功做出了巨大貢獻,他們需要回饋。 今天,這種精神似乎越來越缺乏,我認為這是擺脫這種經濟困境的很大一部分。 那些處於人工智慧經濟繁榮最前沿的人應該願意放棄他們的財富和權力。
5. 無限的黑海
間接影響
最後一節是對未知的通牉,特別是由於人工智慧的積極進步以及由此產生的科學和技術加速的間接結果而可能出錯的事情。 假設我們解決了迄今為止描述的所有風險,並開始收穫人工智慧的好處。 我們可能會「將一個 世紀的科學和經濟進步壓縮到十年 」,這對世界來說將是非常積極的,但隨後我們將不得不與這種快速的進步所產生的問題作鬥爭,這些問題可能會很快降臨到我們身上。 我們還可能會遇到其他風險,這些風險是人工智慧進步間接產生的,而且很難提前預測。
由於未知的性質,不可能列出一個詳盡的列表,但我將列出三個可能的擔憂,作為我們應該關注的說明例子:
- 生物學的快速進步。 如果我們在幾年內確實取得了一個世紀的醫學進步,我們有可能大大延長人類的壽命,我們也有可能獲得激進的能力,如提高人類智力或徹底改變人類生物學的能力。 這些將是可能發生的巨大變化,非常迅速地發生。 如果負責任地完成,它們可能是積極的(正如《 愛的恩典機器》 中所描述的那樣,這是我的希望),但總是有他們出錯的風險——例如,如果努力使人類更聰明,也使他們更加不穩定或尋求權力。 還有「 上傳 」或「全腦模擬」的問題,即在軟體中例項化的數字人類思維,這有一天可能會幫助人類超越其物理限制,但這也帶來了 我發現令人不安的風險 。
- 人工智慧以不健康的方式改變了人類生活。 一個擁有數十億智慧的世界,在一切方面都比人類聰明得多,這將是一個非常奇怪的世界。 即使人工智慧沒有積極攻擊人類(第1節),也沒有被國家明確用於壓迫或控制(第3節),但透過正常的商業激勵和名義上的協商一致的交易,還有很多問題可能會出錯。 我們在對人工智慧精神病的擔憂、 人工智慧導致人們自殺 以及對與人工智慧的浪漫關係的擔憂中看到了這一點的早期暗示。例如,強大的人工智慧能發明一些新的宗教並使數百萬人皈依它嗎? 大多數人最終會以某種方式「上癮」於人工智慧互動嗎? 人們最終會被人工智慧系統「傀儡」嗎?人工智慧基本上會觀察他們的一舉一動,並始終準確地告訴他們該做什麼和說什麼,從而導致「美好」的生活,但缺乏自由或任何成就的自豪感? 如果我與 《黑鏡》 的創作者坐下來,嘗試集思廣益,那麼產生幾十個這樣的場景並不難。 我認為這表明了改進 克勞德憲法 等事情的重要性,超越了預防第1節中問題的必要條件。 確保人工智慧模型 真正 將使用者的長期利益放在心上,以深思熟慮的人會認可的方式,而不是以某種微妙的扭曲的方式,這似乎至關重要。
- 人類的目的。 這與上一點有關,但這與其說是人類與人工智慧系統的具體互動,不如說是人類生活在一個擁有強大人工智慧的世界中總體上如何變化。 人類能在這樣的世界裡找到目的和意義嗎? 我認為這是一個態度問題:正如我在《 愛的恩典機器》 中所說,我認為人類的目的並不取決於在某件事上成為世界上最好的,人類甚至可以透過他們喜歡的故事和專案在很長一段時間內找到目標。 我們只需要打破經濟價值的產生與自我價值和意義之間的聯絡。 但這是社會必須做出的過渡,我們總是有處理不好的風險。
所有這些潛在問題,我希望在一個擁有強大人工智慧的世界裡,我們相信人工智慧不會殺死我們,這不是壓迫性政府的工具,它真正代表我們工作,我們可以使用人工智慧本身來預測和預防這些問題。 但這不能保證——就像所有其他風險一樣,這是我們必須謹慎處理的事情。
人類的考驗
閱讀這篇文章可能會給人留下我們處於令人生畏的境地的印象。 我當然發現寫作令人生畏,與 《愛的恩典機器》 相比 , 它感覺像是給我腦海中迴盪多年的超美音樂賦予了形式和結構。 關於這種情況,有很多真正困難的事情。 人工智慧從多個方向給人類帶來了威脅,不同危險之間存在真正的緊張關係,如果我們不非常小心地穿針,減輕其中一些危險可能會使另一些危險變得更糟。
花時間仔細構建人工智慧系統,以便它們不會自主威脅人類,這與民主國家領先於專制國家而不是被專制國家征服的需求真正緊張。 但反過來,如果過於籠面,對抗專制所必需的同樣支援人工智慧的工具可能會向內轉,在我們自己的國家製造暴政。 人工智慧驅動的恐怖主義可能會透過濫用生物學而殺死數百萬人,但對這種風險的過度反應可能會使我們走上專制監視國家的道路。 人工智慧的勞動和經濟集中效應,除了本身就是一個嚴重的問題外,還可能迫使我們在公眾憤怒甚至內亂的環境中面對其他問題,而不是能夠召喚我們天性中更好的天使。 最重要的是,包括未知風險在內的 大量 風險,以及需要同時處理所有這些風險,造成了人類必須應對的令人生畏的挑戰。
此外,過去幾年應該清楚地表明,停止甚至大幅減緩技術的想法從根本上是站不住路的。 構建強大的人工智慧系統的公式非常簡單,以至於幾乎可以說它是從資料和原始計算的正確組合中自發出現的。 它的創造可能是人類發明電晶體的必然,或者可以說更早,當我們第一次學會控制火時。 如果一家公司不建造它,其他公司幾乎會以最快的速度建造它。 如果民主國家的所有公司都透過相互協議或監管法令停止或減緩發展,那麼專制國家就會繼續下去。 鑑於該技術令人難以置信的經濟和軍事價值,以及缺乏任何有意義的執法機制,我不明白 我們如何說服他們停止 。
我確實看到了一條與 現實主義地緣政治觀點 相一致的人工智慧發展 略 有節制的道路。 這條道路涉及透過剝奪他們構建人工智慧所需的資源,減緩專制國家向強大的人工智慧的行進, 34 即晶片和半導體製造裝置。 這反過來又為民主國家提供了一個緩衝,他們可以「花」在更謹慎地構建強大的人工智慧上,並更加關注其風險,同時仍然以足夠快的速度輕鬆擊敗專制國家。 然後,透過行業標準和法規的混合,可以在共同的法律框架下處理民主國家內人工智慧公司之間的競爭。
Anthropic一直非常努力地倡導這條道路,透過推動晶片出口控制和對人工智慧的明智監管,但即使是這些看似常識的提案也在很大程度上被美國(擁有這些政策最重要的國家)的決策者拒絕了。 人工智慧可以賺很多錢——實際上每年數萬億美元——即使是最簡單的措施也很難克服人工智慧固有 的政治經濟 。 這就是陷阱:人工智慧是如此強大,如此耀烈的獎品,以至於人類文明很難對其施加任何限制。
我可以想象,就像薩根在 《接觸》 中所做的那樣,同樣的故事發生在成千上萬的世界。 一個物種獲得知能,學會使用工具,開始技術的指數級上升,面對工業化和核武器的危機,如果它倖存下來,當它學習如何將沙子塑造成思考的機器時,它就會面臨最艱難和最後的挑戰。 我們是否在那個考驗中倖存下來,繼續建設《 愛的恩典機器》 中描述的美麗社會,還是屈服於奴役和毀滅,將取決於我們作為一個物種、我們的精神和靈魂的性格和決心。
儘管有很多障礙,但我相信人類內心有力量透過這次考驗。 成千上萬的研究人員致力於幫助我們理解和指導人工智慧模型,並塑造這些模型的特徵和構成,這些研究人員給了我們的鼓勵和啟發。 我認為現在很有可能,這些努力及時取得成果。 我感到鼓舞的是,至少有一些公司 表示,他們將支付 有意義的商業成本,以阻止其模型助長生物恐怖主義的威脅。 我感到鼓舞的是,少數勇敢的人抵制了普遍的政治風氣,並 透過 立法 ,在人工智慧系統上埋下了第一個早期明智的護欄種子。 公眾明白人工智慧存在風險,並希望這些風險得到解決 ,這讓我感到鼓舞。 我為世界各地不屈不撓的自由精神和抵抗暴政的決心感到鼓舞。
但如果我們想成功,我們需要加緊努力。 第一步是讓那些最接近技術的人簡單地說出人類所處境的真相,我一直試圖這樣做;我在這篇文章中更明確、更緊迫地這樣做。 下一步是說服世界各地的思想家、決策者、公司和公民相信這個問題的迫在眉睫和壓倒一切的重要性——與每天主導新聞的數千個其他問題相比,值得為此花費思想和政治資本。 然後,即使面對經濟利益和個人安全的威脅,也會有勇氣的時候,有足夠的人違背當前趨勢並堅持原則。
我們面前的歲月將非常艱難,對我們的要求比我們認為我們所能給予的要多。 但在我作為一名研究人員、主管者和公民的時代,我看到了足夠的勇氣和高貴,相信我們可以獲勝——當處於最黑暗的環境中時,人類似乎在最後一刻聚集了獲勝所需的力量和智慧。 我們沒有時間可以浪費。
我要感謝Erik Brynjolfsson、Ben Buchanan、Mariano-Florentino Cuéllar、Allan Dafoe、Kevin Esvelt、Nick Beckstead、Richard Fontaine、Jim McClave以及Anthropic的許多工作人員對這篇文章草稿的有益評論。
腳註
Dario Amodei — The Adolescence of Technology
Footnotes
-
10 我不認為 這是一個稻草人:例如,我的理解是, Yann LeCun擔任這個職位 。 ↩ ↩2
-
11 例如,請參閱 Claude 4系統卡 的第5.5.2節(第63-66頁)。 ↩ ↩2
-
12 簡單模型中還有許多其他固有的假設,我不會在這裡討論這些。 廣義上講,他們應該讓我們不那麼擔心尋求權力的錯位的具體簡單故事,但也更擔心我們意想不到的不可預測的行為。 ↩ ↩2
-
13 Ender’s Game 描述了一個涉及人類而不是人工智慧的版本。 ↩ ↩2
-
14 例如,模特可能會被告知不要做各種壞事,也要服從人類,但隨後可能會觀察到許多人正是做那些壞事! 目前還不清楚這種矛盾將如何解決(一個精心設計的憲法應該鼓勵模型優雅地處理這些矛盾),但這種困境與我們在測試期間將人工智慧模型置於所謂的「人為」情況沒有太大區別。 ↩ ↩2
-
15 順便說一句,憲法是自然語言檔案的一個後果是,它對世界來說是可讀的,這意味著任何人都可以批評它,並與其他公司的類似檔案進行比較。 創造一場通往頂峰的競賽是有價值的,這不僅鼓勵公司釋出這些檔案,而且鼓勵他們表現良好。 ↩
-
16 甚至有一個關於將憲法人工智慧基於角色的方法與可解釋性和對齊科學結果聯絡起來的深刻統一原則的假設。 根據該假設,驅動克勞德的基本機制最初是模擬預訓練角色的方式,例如預測小說中的角色會說什麼。 這表明,思考憲法的有用方式更像是模型用來例項化一致角色的角色描述。 它還將幫助我們解釋我上面提到的「 我一定是個壞人 」的結果(因為模型試圖 表現得好像 它是一個連貫的角色——在這種情況下是一個壞角色),並表明可解釋性方法應該能夠在模型中發現「心理特徵」。 我們的研究人員正在研究測試這一假設的方法。 ↩
-
17 說白了,監控是以保護隱私的方式進行的。 ↩
-
18 即使在我們自己對本質上是自願強加的負責任 擴充套件政策 規則的實驗中,我們一次又一次地發現,透過畫出事先看起來重要的線條,但事後看來卻很愚蠢,很容易變得過於僵化。 當技術迅速發展時,很容易就錯誤的事情制定規則。 ↩
-
19 SB 53和RAISE根本不適用於年收入低於5億美元的公司。 它們僅適用於像Anthropic這樣規模更大、更成熟的公司。 ↩
-
21 我們確實必須擔心國家行為者,現在和將來,我將在下一節討論這個問題。 ↩
-
22 有 證據 表明, 許多 恐怖分子至少受過相對良好的教育,這似乎與我在這裡關於能力和動機之間負相關性的論點相矛盾。 但我認為實際上,它們是相容的觀察:如果成功攻擊的能力閾值很高,那麼幾乎根據定義, 目前 成功的人必須具有高能力,即使能力和動機呈負相關。 但在一個能力限制被消除的世界裡(例如,對於未來的法學碩士),我預測,有殺人動機但能力較低的大量人將開始這樣做——就像我們看到的不需要太多能力的犯罪(如校園槍擊案)一樣。 ↩
-
然而, 23 Aum Shinrikyo確實嘗試了。 Aum Shinrikyo的主管人Seiichi Endo在京都大學接受了病毒學培訓, 並試圖同時產生黃皰疹和埃博拉病毒 。 然而,截至1995年,即使是他也缺乏足夠的專業知識和資源來取得成功。 標準現在大大降低,LLM可以進一步降低。 ↩
-
24 與大規模殺人犯有關的一個離奇現象是,他們選擇的謀殺風格幾乎是一種怪異的時尚。 在20世紀70年代和80年代,連環殺手非常普遍,新的連環殺手經常模仿更知名或著名的連環殺手的行為。 在20世紀90年代和2000年代,大規模槍擊事件變得更加普遍,而連環殺手則變得不那麼普遍。 沒有技術變化引發這些行為模式,只是看起來暴力殺人犯在模仿彼此的行為,複製的「流行」事物發生了變化。 ↩
-
25 偶然越獄者有時認為,當他們讓模型輸出一個特定資訊時,例如病毒的基因組序列,他們已經損害了這些分類器。 但正如我之前解釋的那樣,我們擔心的威脅模型涉及關於生物武器生產過程中特定晦澀難懂的步驟的分步互動建議,這些建議長達數週或數月,這就是我們的分類者旨在捍衛的。 (我們經常將我們的研究描述為尋找「通用」越獄——這些越獄不僅在一個特定或狹窄的背景下有效,而且廣泛地開放了模型的行為。) ↩
-
26 儘管我們將繼續投入工作,以提高我們的分類器的效率,但公司相互分享這樣的進步可能是有意義的。 ↩
-
27 顯然,我認為公司不應該披露關於他們正在阻止的生物武器生產的具體步驟的技術細節,到目前為止已經透過的透明度立法(SB 53和RAISE)解釋了這個問題。 ↩
-
28 另一個相關想法是「復原力市場」,政府鼓勵儲存個人防護裝備、呼吸器和其他應對生物攻擊所需的基本裝置,提前承諾在緊急情況下為這些裝置支付預先商斟的價格。 這激勵了供應商儲存此類裝置,而不必擔心政府會在沒有補償的情況下扣押這些裝置。 ↩
-
29 為什麼我更擔心大人物奪取權力,而小人物卻造成破壞? 因為動態是不同的。 奪取權力是關於一個演員能否積累足夠的力量來戰勝其他人——因此,我們應該擔心最強大的演員和/或那些最接近人工智慧的人。 相比之下,如果防禦比製造要難得多,那麼那些幾乎沒有權力的人可以製造毀滅。 然後,這是一個抵禦最多威脅的遊戲,這些威脅可能是較小的參與者。 ↩
-
30 這聽起來可能與我的觀點很緊張,即網路攻擊的攻擊和防禦可能比生物武器更平衡,但我擔心的是,如果一個國家的人工智慧是世界上最強大的,那麼即使技術本身具有內在的攻擊-防禦平衡,其他國家也無法防禦。 ↩
-
31 例如,在美國,這包括第四修正案和《 Posse Comitatus法案 》。 ↩
-
32 此外,要明確的是,在治理結構不同的國家建立大型資料中心有一些論據,特別是如果它們由民主國家的公司控制。 原則上,這種建設可以幫助民主國家更好地與中國共產黨競爭,而中國共產黨是更大的威脅。 我還認為,除非它們非常大,否則這樣的資料中心不會造成太大的風險。 但總的來說,我認為在機構保障和法治保護不太完善的國家部署非常大的資料中心時,需要謹慎。 ↩
-
34 還有一個風險是,即使核威懾仍然有效,攻擊國也可能決定稱我們虛張聲勢——目前還不清楚我們是否願意使用核武器來防禦無人機群,即使無人機群有征服我們的重大風險。 無人機群可能是一種新事物,比核攻擊不那麼嚴重,但比常規攻擊更嚴重。 或者,對人工智慧時代核威懾力有效性的不同評估可能會以破壞穩定的方式改變核衝突的博弈論。 ↩
-
35 說白了,我認為不向中國出售晶片是正確的策略,即使強大的人工智慧的時間表要長得多。 我們不能讓中國人「沉迷」美國晶片——他們決心以這樣或那樣的方式發展他們本土的晶片行業。 他們需要很多年才能做到這一點,而我們透過向他們出售晶片所做的只是在這段時間裡給他們帶來巨大的推動。 ↩
-
36 說白了,今天烏克蘭和臺灣使用的大多數武器並不是 完全 自主的武器。 這些要來了,但今天不在這裡。 ↩
-
37 我們最新的型號 Claude Opus 4.5 的模型卡顯示,Opus在Anthropic經常進行的績效工程面試中表現優於公司歷史上的任何受訪者。 ↩
-
38 「編寫所有程式」和「端到端完成軟體工程師的任務」是非常不同的事情,因為軟體工程師所做的不僅僅是編寫程式,包括測試、處理環境、檔案和安裝、管理雲計算部署、迭代產品等等。 ↩
-
39 從某種意義上說,計算機是一般的,但顯然它們本身無法達到絕大多數人類的認知能力,即使它們在少數領域(如算術)大大超過了人類。 當然,建立 在 計算機之 上的 東西,如人工智慧,現在能夠具有廣泛的認知能力,這就是本文的內容。 ↩
-
40 說白了,人工智慧模型的優勢和劣勢與人類並不完全相同。 但它們也沿著每個維度相當統一地前進,因此,具有尖刺或不均勻的輪廓最終可能並不重要。 ↩
-
42 個人財富是「股票」,而GDP是「流動」,因此這不是洛克菲勒擁有美國經濟價值的2%的說法。 但衡量一個國家的總財富比衡量GDP更難,而且人們的個人收入每年變化很大,所以很難以相同的單位來計算比例。 最大個人財富與國內生產總值的比率,雖然沒有將蘋果與蘋果進行比較,但卻是極端財富集中的完全合理的基準。 ↩
-
44 說白了,我認為實際的人工智慧生產力還不是美國經濟增長的很大一部分原因。 相反,我認為資料中心支出代表了預期投資造成的增長,這相當於市場對 未來 人工智慧驅動的經濟增長和相應的投資的預期。 ↩
-
45 當我們同意政府的觀點時,我們這樣說,我們尋找 相互支援的政策 真正有利於世界的 共識點 。 我們的目標是成為誠實的經紀人,而不是任何特定政黨的支持者或反對者。 ↩
-
46 我認為只有幾年時間是可能的:在更長的時間尺度上,他們將建造自己的晶片。 ↩