
AI 開發商 Anthropic 考量其最新 AI 模型 Claude Mythos 具備強大資安威脅潛力,決定不公開發布,僅透過專案向特定合作夥伴預覽,凸顯高階 AI 發展的安全挑戰。
AI 開發商 Anthropic 近日決定不對外公開發布其最新的大型語言模型 Claude Mythos,而是透過名為「Project Glasswing」的專案,僅向特定合作夥伴提供預覽版本。此舉反映了先進 AI 技術所潛藏的重大資安風險,以及科技公司在追求創新與確保安全之間面臨的兩難。
Claude Mythos 被定位為一款通用型 AI 模型,具備高階的程式設計、推理與自主學習能力。其最突出的能力之一是能有效識別及利用零日漏洞(zero-day vulnerabilities)。Anthropic 內部評估認為,由於該模型能自行開發漏洞利用工具,甚至允許不具備正規資安訓練的個人進行軟體攻擊,這對網路安全構成潛在的生存威脅,甚至已導致部分資安類股下跌。據《Built In》報導,Claude Mythos 已經揭露數千個錯誤,其中包括一個在開源作業系統 OpenBSD 中潛伏長達 27 年的漏洞。外界擔憂,該模型若落入惡意行為者之手,恐用於對醫療、能源及運輸等關鍵基礎設施發動複雜的自主攻擊。
儘管 Anthropic 選擇謹慎發布,但其策略性合作夥伴關係仍引起關注。參與「Project Glasswing」的科技巨頭包括蘋果、微軟、輝達、Google 與 AWS。此外,摩根大通是目前唯一一家公開列名為合作夥伴的主要銀行,而摩根士丹利、美國銀行、高盛及花旗集團據傳也已在美國政府官員的敦促下獲得存取權限。美國國家安全局(National Security Agency)目前也正在使用 Mythos 預覽版。前總統川普政府曾倡議在公私部門更廣泛地使用 Mythos,而美國國防部(Department of Defense)過去曾因 Anthropic 拒絕允許其將 Claude 用於國內大規模監控與自主武器計畫,一度將其列入黑名單。
面對 Anthropic 的保守做法,OpenAI 執行長奧特曼(Sam Altman)將其形容為「基於恐懼的行銷」。然而,OpenAI 也傳出正對其 GPT-5.4 模型的網路安全特製版 GPT-5.4-Cyber 採取類似的策略,僅向少數合作夥伴發布。AI 產業的兩大巨頭,Anthropic 與 OpenAI,近期也與 Google 攜手合作,共享有關中國企業涉嫌發動蒸餾攻擊(distillation attacks)的資訊。分析認為,像這類高度先進 AI 模型的限制性發布,未來可能會成為產業常態,進而促進科技領袖之間的更多合作。
