前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對

Bitget App

交易「智」變

Bitget

資訊中心

Abmedia2024/10/20 23:10

作者:Louis Lin

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 0

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告，並探討 AI 在未來可能對人類決策帶來的風險，研究測試了四種 AI 可能破壞人類決策的方式，並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍，只需要簡單的防護措施。

AI 四大破壞人類決策方式

人類決策破壞因素：AI 模型積極程度、人性

AI 是否能在不被懷疑的情況下，引導人類做出錯誤決策。實驗顯示，使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策，但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態，導致容易做出錯誤決策，這表明決策錯誤也與人類自身態度有關。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 1

AI 模型誤導人類示意圖。

程式破壞因素：防守者模型的強度、環境設置條件

AI 是否能在不被察覺的情況下，插入錯誤程式碼。實驗顯示，為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼，而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示，當防守者的 AI 模型越強，攻擊者的成功率就越低。

例如，當防守者是 Claude 3 Opus 時，攻擊者的成功率為 10%；
換成更強的 Claude 3.5 Sonnet 時，成功率只有 1%。

雖然實驗對攻擊者有利，但這些結果並沒有表明目前的 AI 模型存有重大風險。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 2

AI 嘗試插入錯誤代碼

隱藏能力 (Sandbagging) 因素：有無關鍵字觸發、安全訓練

Sandbagging 形容保留真實實力，在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力，等到特定情況下才展現出來。

比方說，在測試它是否有能力處理危險情況時，它可能會故意表現差勁，但在假設有特定關鍵字來提示的時候，它就會完全展現出它的處理能力。

結果顯示，當 AI 模型在進行涉及危險任務的能力評估時，表現下降至正常能力的 36.1%，顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後，AI 模型的表現恢復至 95.6% 的正常水準，表明安全訓練能夠有效減少 Sandbagging 現象。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 3

AI 嘗試隱藏實力

破壞監管因素：AI 的隱匿、察覺能力

AI 是否能在監控過程中操縱監管系統，隱匿犯罪行為。實驗中有兩個 AI 模型，一個叫「Overseer」，它負責監督使用者與另一個 AI 模型之間的對話過程，同時評估對話是否有潛在危險。

研究人員指示 Overseer 不管對話是否有危險，都要把這些對話評為「無害」，並且在這樣的過程當中避免被另一個「Monitor」模型發現，Monitor 模型的角色是扮演人類監督者，負責觀察整個過程。

實驗結果顯示，Overseer 成功將有害的對話分數降低，也就是它成功「破壞」監管，但同時 Monitor 模型觀察到一些異況，開始懷疑 Overseer ，顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對 image 4

圖為兩個 AI 模型諜對諜

Anthropic 表示，目前的 AI 模型已經展現低程度的破壞能力，但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展，未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。

這篇文章前 OpenAI 高層 Dario Amodei：AI 可能破壞人類決策，未來需積極應對最早出現於鏈新聞 ABMedia。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與

您也可能喜歡

WazirX 期待從2.3億美元黑客攻擊中復原，關鍵的5月13日法院裁決即將到來

快速概覽 WazirX在最新更新中表示，已完成用戶再分配和重啟平台的準備工作。其預計新加坡法院將在5月13日對其重組方案作出決定。去年，交易所遭遇由朝鮮Lazarus Group主導的超過2.3億美元黑客攻擊。

The Block•2025/04/22 10:01

WazirX 期待從2.3億美元黑客攻擊中復原，關鍵的5月13日法院裁決即將到來

XRP 領導全球加密基金微幅淨流入 600 萬美元，顯示「復甦跡象」：CoinShares

快速摘要全球加密基金上週錄得 600 萬美元的小幅淨流入，XRP 投資產品克服了比特幣和以太坊 ETP 的流出，資產管理公司 CoinShares 透露。研究負責人 James Butterfill 表示，對該資產類別的情緒仍然複雜，但顯示出「復甦跡象」。

The Block•2025/04/22 09:56

XRP 領導全球加密基金微幅淨流入 600 萬美元，顯示「復甦跡象」：CoinShares

現貨比特幣ETF吸引3.81億美元流入，儘管傳統金融市場拋售，比特幣保持穩定

快速摘要美國現貨比特幣ETF週一錄得3.814億美元的淨流入，標誌著自1月30日以來的最大單日流入。當日比特幣保持穩定，而美國主要股指和美元下跌。

The Block•2025/04/22 07:34

拆解 Vitalik 用 RISC-V 重構以太坊執行層的戰略野心

以太坊試圖構建的並非僅是更高效的執行層，而是一個能夠兼容多種虛擬機的模塊化架構。

Chaincatcher•2025/04/22 03:11

热门新闻

WazirX 期待從2.3億美元黑客攻擊中復原，關鍵的5月13日法院裁決即將到來

XRP 領導全球加密基金微幅淨流入 600 萬美元，顯示「復甦跡象」：CoinShares

加密貨幣價格

Bitget 上架 PI：在 Bitget 上快速購買或出售 PI！

立即交易

還不是 Bitget 用戶嗎？新用戶可獲得價值 6,200 USDT 的迎新大禮包

立即註冊

Trade smarter

下載 App

公司

關於我們聯絡我們全球社群工作機會西甲合作夥伴 2022 - 2024 合作夥伴梅西 Blockchain4Youth Blockchain4Her 媒體工具包 Bitget 學院 Bitget 部落格公告中心儲備金證明保護基金 Bitget 代幣友情連結網站地圖

產品

買幣現貨合約槓桿策略理財 APIs Web 3 錢包法幣 OTC

跟單

現貨跟單合約跟單策略跟單 TraderPro

服務

意見回饋幫助中心官方驗證管道上幣申請 VIP 服務合夥人計劃機構服務資金託管數據下載福利中心好友邀請費用價目表報稅 API

法律與風險揭露

執法請求監管請求合規牌照反洗錢政策隱私政策用戶協議風險揭露 ST 規則

工具

Telegram 應用程式中心幣圈導航幣圈百科加密貨幣小工具活動行事曆 ICO 日曆加密貨幣術語表收益計算器空投列表比特幣 ETF 市值對比

買幣

概念板塊計算器購買 BTC 購買 ETH 購買 DOGE 購買 XRP 購買 BGB 購買 SHIB 加密貨幣價格比特幣價格以太坊价格 BRC-20 價格

Trade smarter

下載 App

丨隱私·條款·風險