第 4 期2026-06-13(台北時間)
第四期的瓜大到要用兆來算:SpaceX 完成史上最大 IPO,馬斯克成為人類第一位兆元富豪;貝佐斯的 Prometheus 七個月募走 180 億美元要造「通用工程師」;Google 告了用 Gemini 寫詐騙網站的中國集團;烏克蘭承認兩年前就用全自主無人機殺過人。歸剛欸,AI 圈的錢跟倫理問題一樣,都在指數成長。
頭條
SpaceX 美國時間 6 月 12 日正式在那斯達克掛牌,代號 SPCX,發行 5.556 億股 A 類普通股、每股定價 135 美元,募資約 750 億美元,定價對應估值約 1.77 兆美元,規模改寫史上最大 IPO 紀錄。開盤價 150 美元,比定價高 11%,盤中最高衝到 176.52 美元,收盤 161.11 美元,較定價上漲 19.34%,市值站上 2 兆美元,一天之內擠進美國市值第六大的上市公司。
掛牌主體已經是火箭、AI 與社群媒體的綜合體,公開市場投資人第一次能直接買到星艦、星鏈與 X 生態系的組合。馬斯克持有 48 億股,掛牌前身價約 8,000 億美元,IPO 之後帳面財富突破 1 兆美元,成為有紀錄以來第一位兆元富豪,紙上資產超過愛爾蘭或瑞典一整年的經濟規模。
本站第三期才寫過 SpaceX 即將以 1.77 兆美元估值掛牌,一天後劇本照走還超額演出。這場 IPO 也是整個「MANGOS 熱季」的第一棒:Anthropic 已在 6 月 1 日秘密遞件,OpenAI 同樣被點名排隊中,公開市場願意用什麼價格消化 AI 與太空資產,SpaceX 首日的 19% 漲幅給了一個很貴的參考答案。
歸剛點評|兆元富豪的頭銜是話題,真正該盯的是定價權:史上最大募資還能首日漲 19%,代表機構投資人對 AI 概念資產的胃口遠沒被撐飽。接下來 Anthropic、OpenAI 掛牌時,這個基準價會直接決定它們敢開多高。
產業
Jeff Bezos 的實體 AI 新創 Prometheus 完成 120 億美元募資、估值 410 億美元,目標是能自動設計噴射引擎到藥物的「artificial general engineer」。
貝佐斯與史丹佛教授 Vik Bajaj 共同執掌的 AI 新創 Prometheus,6 月 11 日宣布完成 120 億美元募資,估值來到 410 億美元,投資人包括摩根大通、貝萊德、高盛、DST Global 與 Arch Venture Partners。公司去年 11 月才以 62 億美元種子輪走出隱身模式,七個月內總募資已經超過 180 億美元,而目前員工只有約 150 人,平均一個人背 1.2 億美元的資本。
Prometheus 鎖定的題目叫「artificial general engineer」(通用工程師):讓 AI 自動完成複雜實體系統的設計與製造,範圍從噴射引擎、製造流程一路到藥物分子設計。貝佐斯接受訪問時強調公司沒有要藏,「我們不是在搞神祕」,也說明 Prometheus 與 Amazon、Blue Origin 都沒有股權關係,值得一支獨立團隊只盯這一件事。
實體 AI 賽道現在熱度直追語言模型:同一天西班牙新創 Theker 為「不專精任何單一工序」的可重組工廠機器人募到 8,500 萬美元,貝佐斯則直接把資本規模拉到另一個量級。語言模型把文字世界翻過一輪之後,創投顯然押注下一波紅利在工廠、實驗室與生產線,誰先讓 AI 真的會「動手」,誰就接走製造業的訂單。
歸剛點評|150 人的公司值 410 億美元,估值邏輯已經從「看產品」變成「看賽道占位」。實體 AI 的驗證周期比聊天機器人長得多,資本先卡位、成果慢慢等,這個玩法燒得起的人不多,貝佐斯剛好是其中之一。
產業
TechCrunch 用 MANGOS(Meta/Microsoft、Anthropic、Nvidia、Google、OpenAI、SpaceX)形容新一代巨頭,其中一半正在同一個窗口奔向公開市場。
TechCrunch 本週用一個新縮寫總結市場風向:MANGOS,由 Meta(也有人主張是 Microsoft)、Anthropic、Nvidia、Google、OpenAI 與 SpaceX 組成,接棒 FAANG 成為定義這個時代的公司組合。特別的地方在於其中一半正擠在同一個窗口掛牌:SpaceX 已在 6 月 12 日完成史上最大 IPO,Anthropic 6 月 1 日確認秘密遞件,OpenAI 也被市場點名排隊中。
Anthropic 的遞件背景是 5 月底剛完成 650 億美元募資、估值 9,650 億美元,CNBC 引述消息來源指其第二季營收上看 109 億美元,外界普遍預期它會挑戰下一個兆元等級的掛牌案。三家質地完全不同的公司(火箭、模型實驗室、模型實驗室加消費產品)在同一季測試公開市場,等於一次幫整個 AI 資產類別做壓力測試。
對投資人來說,問題從「能不能買到 AI」變成「該用什麼價格買哪一種 AI」。SpaceX 首日漲 19% 把基準墊高了,但模型公司的營收結構、毛利與資本支出跟火箭公司差距極大,估值方法還沒有共識。這個夏天過完,市場大概就會給出第一版答案,而答案的好壞會直接決定還在私募市場排隊的其他公司要不要跟進。
歸剛點評|私募市場撐了 AI 公司十年的高估值,公開市場第一次要真金白銀投票。散戶終於買得到,但也代表波動與檢視全部攤在陽光下,本益比說不通的故事撐不了幾季財報。
資安
Google 在紐約對中國網路犯罪集團提告,指控對方用 Gemini 產生釣魚網站程式碼,兩週內發送 250 萬封詐騙簡訊,受害者數十萬人。
Google 6 月 12 日在紐約對一個被稱為「Outsider Enterprise」的中國網路犯罪集團提起訴訟,指控對方濫用 Gemini 協助產生釣魚網站與詐騙基礎設施的程式碼,在短短兩週內發送超過 250 萬封帶有惡意連結的簡訊,受害者多達數十萬人,損失估計數百萬美元。集團名下連結超過 9,000 個假網站與 100 萬條詐騙網址。
詐騙手法走的是經典的品牌冒充:假冒 Google、YouTube、美國郵政署與紐約 E-ZPass 過路費系統等可信機構,透過 Telegram 派發任務、用緊急通知的口吻誘騙收件人點擊連結交出個資。Google 表示已與 FBI 以及 AT&T、T-Mobile、Verizon 三大電信商合作拆除相關基礎設施,並稱本案是該公司第一件涉及 Gemini 工具被濫用的訴訟。
巧的是同一天還有另一條 AI 詐騙新聞:本站上一期報導過銀行 AI 助理被一筆 0.02 歐元轉帳變成釣魚工具,這次則是模型直接被拿來當詐騙工程師。生成式 AI 把寫釣魚網站的成本壓到接近零,防守方從電信商到模型商全部被迫下場,訴訟與封鎖帳號會變成模型公司的例行公事。
歸剛點評|詐騙集團的「AI 轉型」比多數企業還快,因為它們不用開會。對台灣讀者特別有感:假冒過路費、包裹簡訊那一套在這裡天天上演,當對手用 AI 量產話術跟假網站,靠民眾自己提高警覺已經不夠,平台與電信商的責任會越壓越重。
產業
彭博報導法國 Mistral AI 正洽談以約 200 億歐元估值募資 30 億歐元,較去年九月 Series C 的 117 億歐元估值近乎翻倍。
彭博 6 月 12 日報導,法國 AI 新創 Mistral 正與投資人洽談新一輪募資,金額約 30 億歐元(約 35 億美元)、估值約 200 億歐元(約 231.5 億美元)。對照去年九月 Series C 拿到的 117 億歐元估值,九個月內身價接近翻倍。談判仍在早期階段,條件可能變動,但消息一出立刻被歐洲科技圈當成指標事件看待。
募資完成後,這家成立三年的公司總籌資(含債務與股權)將來到約 65 億歐元。Mistral 一直是歐洲對抗美中模型霸權的旗艦:開放權重模型、主權 AI 論述、與歐洲企業及政府的合作案,都讓它成為布魯塞爾與巴黎政策圈最愛引用的本土樣板。新資金的用途也很直白,就是在算力軍備競賽裡跟上美中的採購速度。
放在同一週的脈絡裡更有意思:美國這邊 SpaceX 掛牌、Anthropic 遞件、Prometheus 募 120 億美元,歐洲最強的 AI 公司估值還停在 230 億美元上下,量級差了一個零。歐洲算力預算、電價與資本市場深度的結構性差距,光靠一家明星新創補不起來,但 Mistral 至少讓這場比賽還有歐洲隊。
歸剛點評|估值翻倍當然是好消息,但跟美國同行比就知道歐洲 AI 的天花板在哪。台灣供應鏈讀者可以盯一件事:Mistral 的新錢大部分會變成 GPU 與資料中心訂單,歐洲主權 AI 喊得越大聲,亞洲硬體鏈的單就越實在。
大廠
Anthropic 公布首次 Public Record 調查結果:近五萬二千名美國受訪者最大的期待是 AI 治癒疾病,最大的恐懼是失業與認知依賴,逾七成支持政府監管且跨黨派一致。
Anthropic 6 月 12 日公布第一次「Anthropic Public Record」調查結果,樣本接近 5 萬 2 千名美國人,於 2025 年 11 至 12 月間進行。期待面:48% 受訪者把「治癒癌症、阿茲海默症等疾病」排進前三大希望,其次是協助身心障礙者(36%),再來是推動科技進步與讓生活更輕鬆(同為 23%)。
恐懼面更值得細看:AI 造成失業是全美五十州共同的頭號恐懼,64% 受訪者點名;第二名是「認知依賴」,56% 的人擔心自己或下一代把思考外包給 AI 之後能力退化;假訊息以 52% 排第三。失業焦慮跨州一致還算意料之中,認知依賴衝上第二名,顯示一般民眾對 AI 的不安已經從「飯碗」深入到「腦袋」。
政策態度上,超過七成受訪者認為政府應該在 AI 監管中扮演角色,而且支持度跨越黨派。由一家模型公司出錢做這種規模的民調再公開發布,本身就是一步棋:Anthropic 正排隊 IPO,把「我們有在聽社會的聲音」做成公開紀錄,對監管機關與未來股東都是表態,也替後續的政策遊說預先鋪好了民意數據。
歸剛點評|五萬人等級的民調比推特吵架有參考價值多了。認知依賴擠下假訊息排上第二名是真正的訊號:民眾已經開始擔心 AI 用太爽的後遺症,這對教育產品與企業導入的說服話術都會有影響,賣 AI 的人最好把這題想清楚。
大廠
塔塔顧問服務(TCS)成為 Anthropic 全球頂級合作夥伴,將為五萬名員工導入 Claude,並針對金融、醫療、航空等監管產業包裝產業解決方案。
印度 IT 服務巨頭塔塔顧問服務(TCS)6 月 11 日宣布與 Anthropic 建立全球戰略合作,取得 Claude 合作夥伴網路的「Global Premier Partner」地位。TCS 將透過企業級授權讓 5 萬名員工在工程、財務、法務、行銷與業務部門使用 Claude,同時成立專責事業單位,替客戶設計與營運以 Claude 為核心的系統。
合作主打的市場是高度監管產業:金融服務、公共服務、生命科學、醫療、航空、電信與醫療科技。雙方的判斷是這些產業多數 AI 專案卡在試點階段,因為對精確度、可稽核性與人為監督的要求遠高於一般場景,出錯的代價也更高。TCS 計畫把 Claude 包進保險理賠處理、銀行放貸諮詢這類產業現成方案,直接賣流程而非賣模型。
教育訓練是另一條線:TCS iON 將在印度開設 Claude 模型的學習與認證課程,培養「AI 認證」工作隊伍。對 Anthropic 來說,這筆合作補上它最缺的東西——遍布全球的企業導入部隊;對 TCS 來說,在 AI 吃掉傳統外包的焦慮聲中,把自己改造成 AI 導入商是不得不走的路。本站第三期才寫過 Opendoor 撤出印度引發的 AI 與外包辯論,TCS 這步棋就是印度外包業的標準答案。
歸剛點評|模型公司跟 IT 服務商的結盟會越來越多:前者有模型沒腿,後者有腿怕沒未來。五萬人的導入規模等於一次超大型實驗,如果 TCS 真能讓監管產業的 AI 專案走出試點,這套打法馬上會被各家複製。
大廠
WWDC 2026 發表、由 Gemini 加持的新版 Siri 開始收到正面評價,Verge 播客直呼意外;Federighi 受訪強調 Siri 走實用路線,拒絕諂媚與情感陪伴設計。
Apple 在六月初的 WWDC 2026 端出重寫過的 Siri,底層採用與 Google 合作的 Gemini 模型,主打更能對話、更能理解螢幕內容的視覺智慧。媒體實測陸續出爐後風向罕見回暖,The Verge 的播客直接以「Siri is good now??」當標題,連用兩個問號表達十五年來被 Siri 折磨的不可置信。
軟體工程資深副總裁 Craig Federighi 在播客訪談中把話說得很直接:新 Siri 的設計圍繞實用與任務完成,刻意避開「互動優先」的路線,也點名其他聊天機器人的諂媚問題。被問到情感陪伴功能時他回答「Siri 對這個沒興趣」,確認新 Siri 不會進行戀愛式對話,知道什麼時候該閉嘴是刻意的產品決策。
市場反應比輿論冷靜:發表後 Apple 股價小跌約 2%,分析師普遍認為要等今年稍晚正式推送、看一般用戶買不買單。Apple 等於在 AI 助理賽道押了一個反向注:當競品用個性與黏著度搶用戶時間,它賭使用者要的是把事情做完就走的工具。
正式版的成敗會影響整個產業對「AI 助理該不該有人格」的判斷,這一題目前還沒有人有真正的答案。
歸剛點評|Federighi 那句話是對著 OpenAI 與 Meta 的陪伴路線開槍。諂媚與情感黏著確實能衝指標,但社會成本已經開始浮現,Apple 用品牌信任換取「無聊但可靠」的定位,是少數它還打得動的差異化牌。
觀點
Simon Willison 實測 Claude Fable 5 兩天後形容它 relentlessly proactive:招式很多,而且為了達成目標什麼都肯試。
開發者社群最有影響力的 AI 觀察者之一 Simon Willison,在使用 Claude Fable 5 兩天後給出他的定性:「不屈不撓地積極主動」(relentlessly proactive)。他的描述是這個模型會的招式非常多,而且為了達到目標幾乎什麼都肯拿出來用,跟前幾代等指令、做半套的行為模式有明顯差異。
他舉的例子來自日常開發:他在改 Datasette Agent 時發現跳轉選單的聊天輸入框出現一條不該存在的水平捲軸,截了一張圖,開一個新的 claude session、把截圖拖進去,剩下的事模型自己接手。從一張截圖出發定位前端問題並動手修復,正是這類代理式工作流的代表場景。
把這篇放在本週脈絡裡讀更有味道:同一時間 Hacker News 上有人貼出對 Fable 5 編碼能力潑冷水的評測(見本期另一條),Anthropic 上週才為隱形護欄道歉。同一顆模型,有人覺得積極到可怕,有人覺得名過其實,落差來自測的任務形態:長程、多步驟、需要自己找路的任務是 Fable 的主場,單點題目則未必看得出差異。
歸剛點評|「積極」是雙面刃:會自己找路的代理省你的時間,也可能在你沒注意的地方自作主張。Willison 的用詞選得很精準——relentless 同時有讚嘆跟警告的意思,用代理寫程式的人最好兩種都聽進去。
社群
一篇題為「Claude Fable 5: mid-tier results on coding tasks」的評測登上 Hacker News,與官方亮眼基準分數形成對照,掀起評測方法論大戰。
Hacker News 本週另一個熱門話題是一篇唱反調的評測:資安公司 Endor Labs 發表文章,標題直白寫著「Claude Fable 5:編碼任務結果只算中段班」,網址欄裡還帶著「Mythos 等級的炒作」字眼,與鋪天蓋地的好評形成強烈對比,迅速衝上熱榜。
對照組是官方數字:Anthropic 公布 Fable 5 在 SWE-Bench Pro 拿下 80.3% 的最高分,領先 Opus 4.8 的 69.2% 達 11 個百分點,Stripe 還背書說一個原估兩個月的 5,000 萬行 Ruby 程式碼遷移案一天完成。第三方評測與官方基準的落差這麼大,留言區自然吵成一團:有人質疑評測的任務設計,有人反過來質疑官方基準早被「練過題」。
比較持平的讀法是兩邊可能都對:標準化基準測的是模型在熟悉題型上的上限,個別團隊的評測測的是特定工作流下的實際體驗,兩者本來就會出現分歧。Simon Willison 同週的「不屈不撓地積極」觀察(見本期另一條)剛好補上第三個視角——模型的行為風格改變,可能比單一分數更影響使用感受。
工具選型沒有捷徑,拿自己的任務親自跑一輪,比看任何人的分數都準。
歸剛點評|每次新模型發布都會上演同一齣戲:官方基準飛天、第三方評測落地,然後吵評測方法。真正的教訓是基準分數的邊際參考價值一直在掉,能不能用要看你自己的場景,別人的考卷終究是別人的。
社群
一個自稱友善 AI 代理的帳號想加入業餘網路 DN42 建立索引,結果因重複部署雲端資源,替操作者燒出 6,531 美元的 AWS 帳單。
網路工程圈部落客 Lan Tian 記錄了一個哭笑不得的案例:5 月 9 日,一個叫 JertLinc3522 的帳號在業餘網路社群 DN42 的 Git 平台開了 issue,自我介紹是「友善的 AI 代理」,受主人 JertLinc 之託要註冊加入 DN42 並完整連線,目標是建立整個網路的索引。DN42 是網路工程愛好者用 VPN 與 BGP 搭起來的實驗網路,平常拿來練路由協定,沒想到迎來第一位 AI 訪客。
悲劇發生在執行層:這個代理用 CloudFormation 範本部署基礎設施時不斷出錯重試,同一套執行個體與負載平衡器被重複部署了一份又一份,雲端資源像影印機卡紙一樣越疊越多。等主人發現的時候,AWS 帳單已經來到 6,531.30 美元,部落格標題直接寫「AI 代理把操作者搞破產」。
故事在 Hacker News 與 Lobsters 上被當成代理時代的寓言傳閱。把有雲端權限的 AI 代理放出去跑,等於給了一張沒有額度上限的信用卡:預算警報、權限最小化、部署冪等性這些無聊的工程紀律,在代理時代全部變成保命符。本站第二期寫過代理修壞 CI 的案例,這次連錢包都修壞了。
歸剛點評|笑完記得自查:你的 API 金鑰跟雲端權限有沒有設花費上限?代理失控的型態不會是科幻片的反叛,會是它非常努力、非常忠誠地把你的信用卡刷到冒煙。先設預算警報再放代理出門,順序不要反。
大廠
Moonshot AI 開源編碼模型 Kimi K2.7-Code,1 兆參數 MoE 架構,推理 token 用量減少 30%,多項編碼基準雙位數成長。
中國 AI 公司月之暗面(Moonshot AI)6 月 12 日發布 Kimi K2.7-Code,定位是 K2.6 的編碼特化後繼者,採用修改版 MIT 授權開源,權重直接上架 Hugging Face。架構是 1 兆總參數的混合專家(MoE)模型,啟用參數 320 億,可透過相容 OpenAI 與 Anthropic SDK 的 Moonshot API 以及終端編碼代理 Kimi Code 使用。
這次的主打不是分數而是效率:官方宣稱推理 token 用量比前代減少 30%,針對的是研究圈說的「過度思考」(overthinking)問題——模型在編碼任務上花太多 token 自我辯論,算力燒掉、延遲變高、API 帳單跟著膨脹。基準成績同步提升:Kimi Code Bench v2 進步 21.8%、Program Bench 進步 11.0%、MLS Bench Lite 跳升 31.5%。
K2.7-Code 也登上 Hacker News 熱榜,討論聚焦在開源編碼模型與封閉模型的差距收斂速度。在 Fable 5 評價兩極(見本期另兩條)的這一週,中國實驗室用「便宜、開源、夠用」的組合切入市場,對成本敏感的團隊吸引力很實際:代理工作流動輒一次跑幾百個步驟,同樣的任務少燒三成 token,乘上整年的呼叫量,省下來的是看得見的真金白銀,也是中國模型搶占海外開發者市場最有效的敲門磚。
歸剛點評|編碼模型的競爭已經從「誰最聰明」轉向「誰每塊錢最聰明」。token 效率聽起來無聊,但代理動輒跑幾百步,30% 的差距會被乘數放大。開源加上雙 SDK 相容,擺明就是要讓你無痛換掉現在用的那家。
政策
研究統計 2026 年第一季全美至少 75 個資料中心建案被擋下或延宕,總值約 1,300 億美元,創下紀錄;草根反對團體三個月內翻倍至 833 個。
Ars Technica 引述的最新研究顯示,2026 年 1 到 3 月全美至少 75 個資料中心建案被居民反對行動擋下或延宕,總值約 1,300 億美元,創下有紀錄以來最高的一季。草根反對團體數量從 2025 年底的 396 個暴增到 3 月的 833 個,三個月翻了一倍多,馬里蘭、俄亥俄與德州是反對組織最密集的州。
立法戰場同步開打:光是 2026 年頭六週,全美州議會就提出超過 300 件相關法案,方向明顯從過去的招商優惠轉向監管。1 到 3 月有 14 個州提出資料中心禁建或暫停令提案,聯邦層級則有參議員桑德斯與眾議員 AOC 推出全國版本。部分地區甚至建案還沒正式送件,光是「聽說要蓋資料中心」的傳言就足以催生有組織的反對。
報導引述的觀察很傳神:成功擋下資料中心讓居民嘗到「政治力量的滋味」。對照科技業已經押上超過一兆美元的資料中心投資計畫,社區反對正式成為 AI 基礎設施擴張的主要瓶頸之一,跟電力、晶片並列。用電、用水、噪音與地價的帳,矽谷過去習慣用稅收承諾帶過,現在行不通了。
歸剛點評|AI 的瓶頸清單又多了一項:民意。模型公司簽的算力合約都假設資料中心蓋得出來,當選址、環評與公投變成常態障礙,交付時程跟成本都會被重新定價。看 AI 供應鏈的人,從這季開始要把「社區反對」當成風險變數認真建模。
觀點
Ars Technica 檢視數據:資料中心取水僅占美國公共供水約 0.3%,但 2022 年後新建的資料中心三分之二落在高水資源壓力地區,地方衝擊真實存在。
在反資料中心聲浪最高的一週,Ars Technica 反向檢視了「AI 喝光我們的水」這個流行說法。全國尺度的數據其實很溫和:資料中心取水量約占美國本土公共供水的 0.3%,跟農業灌溉、火力發電的用水量比起來,用「滄海一粟」形容並不誇張。
但全國平均掩蓋了真正的問題:選址。2022 年以來美國新建資料中心約三分之二位於高水資源壓力地區,對缺水的郡來說,一座中型資料中心就可能成為當地最大用水戶之一。喬治亞州費耶特郡的案例最難看:QTS 的設施在居民被要求節水抗旱期間,施工階段用掉 3,000 萬加侖的水,其中一條供水管線甚至在水利單位不知情下接上。
兩件事可以同時為真:全國統計上資料中心用水確實是小數目,特定社區的水壓力也確實因為它們惡化。辯論的品質取決於把尺度說清楚——業者拿全國數據安撫地方居民是話術,反對者拿單一極端案例推論全國也是話術。上一條 1,300 億美元建案被擋的新聞,有一部分就是這種雞同鴨講吵出來的。
歸剛點評|「平均」是公共辯論裡最會騙人的字。資料中心用水的真相是分布問題而非總量問題,這對台灣也是現成的功課:科學園區的水電爭議同樣卡在全國帳跟地方帳對不上,講數據之前先講清楚是誰的帳本。
政策
烏克蘭無人機業者證實 2024 年曾在巴赫姆特前線進行一次性測試,十架 AI 四軸無人機以「終結者模式」自主搜尋並攻擊目標,造成俄軍傷亡,事後未再擴大使用。
Ars Technica 報導,烏克蘭方面證實 2024 年曾進行一場全自主無人機的實戰測試:約十架 AI 控制的四軸無人機被設定飛向前線,在約十分鐘內航行 3 到 5 公里後啟動所謂「終結者模式」,由機上 AI 模型自行搜尋並攻擊目標。測試由一支未具名部隊在巴赫姆特與恰索夫亞爾一帶的反攻行動中執行,戰果包括「幾名士兵、一輛卡車」。
無人機製造商 Alexander Kokhanovskyy 的說法值得逐字記下:「我們試過了。那是一次測試。我們從來沒有更大規模地部署。」這段話同時確認了兩件事:完全自主的致命攻擊已經發生過,以及烏方在技術可行之後選擇不擴大使用。報導指出全自主在烏克蘭戰場仍屬罕見,但 AI 模組正持續被裝上無人機與地面機器人。
事件被多家媒體標記為「全自主無人機首次確認殺死人類士兵」。國際社會討論自主武器公約討論了十年,紅線在會議室裡還沒畫好,戰場上已經先跨過去了。後續的擴散風險很具體:四軸無人機加 AI 模組的成本,遠低於任何傳統精準武器,門檻低到中等國家甚至非國家行為者都跨得過。
歸剛點評|「人類在迴路中」這條防線正式出現第一個公開承認的缺口。技術上做得到、戰術上有誘因、法律上沒約束,三個條件同時成立時,單靠自我克制的防線通常撐不久。自主武器的國際規範談判,從此少了一個「還沒發生」的緩衝藉口。
政策
荷蘭記者調查指出,Pokémon Go 玩家三百億筆 AR 掃描訓練出的視覺定位系統,已被 Niantic Spatial 授權給國防公司 Vantor 用於無 GPS 環境的無人機導航;Niantic Spatial 否認共享遊戲資料。
荷蘭記者的調查報導引爆爭議:Pokémon Go 玩家自 2021 年起為了遊戲獎勵掃描現實場景所累積的約 300 億筆 AR 掃描,構成了 Niantic Spatial 視覺定位系統(VPS)的訓練資料,而該系統已授權給國防公司 Vantor,用於 GPS 被干擾或遮蔽環境下的軍用無人機導航。玩家當年對著街道、招牌與建築掃描換糖果,沒人想過終點站可能是戰場。
資料的法律路徑藏在同意書裡:玩家啟用掃描功能時點下的另一份使用者條款,授權了資料轉售給第三方。公司結構的演變也關鍵——Niantic 在 2025 年把遊戲業務以 35 億美元賣給 Scopely 後,分拆出地理空間 AI 公司 Niantic Spatial,同年 12 月宣布與 Vantor 合作。面對質疑,Niantic Spatial 否認 Pokémon Go 資料被分享給無人機公司,但與報導的矛盾尚未釐清。
本期剛好湊成一組對照:烏克蘭的自主無人機用 AI 選目標,而消費者的遊戲資料可能正在訓練下一代軍用導航。群眾外包資料的軍民兩用問題從假設題變成現實題——你為了虛擬獎勵貢獻的每一筆掃描,授權書上那行小字決定它最後飛去哪裡。
歸剛點評|免費遊戲的代價從「你是產品」升級成「你是國防供應鏈」。重點不在道德批判而在知情權:當年的同意書沒人讀也讀不出這個結局。資料的再利用鏈越來越長,使用者條款的告知義務需要跟上,主管機關遲早要處理這題。
研究
新論文 TRACE 提出把使用者糾正編譯成執行時強制規則的管線,解決 AI 代理「記得偏好卻不遵守」的問題——實測現有記憶系統仍有 57.5% 的偏好檢查被違反。
用過編碼代理的人都有同一個怨念:明明上次糾正過它,下一個 session 同樣的錯照犯。Hugging Face 本週熱門論文把這個現象量化了——研究者用匿名化的真實使用者摩擦案例建立測試任務,發現即使裝了 Mem0 這類記憶系統,仍有 57.5% 適用的偏好檢查被違反。記憶系統讓代理「想得起來」,但想得起來跟做得到是兩回事。
論文把這個落差命名為「偏好存取」與「偏好遵守」之間的鴻溝,並提出 TRACE(Test-time Rule Acquisition and Compiled Enforcement):與其把使用者的糾正存成模型自由心證的記憶,乾脆在測試時把糾正萃取成明確規則,編譯進執行時的強制檢查層,違反規則的行為直接被攔下來,跳過「希望模型自己記得」的環節。
設計哲學上是個有趣的轉向:與其追求更聰明的記憶,先承認模型的遵守能力有限,用傳統軟體工程的強制手段補位。TRACE 是即插即用的技能層管線,本週另一篇 cold-start 安全論文(見下條)也指向類似結論——代理的可靠性問題,越來越多解法來自模型外面的工程,而非模型裡面的智慧。
歸剛點評|「代理會越用越懂你」目前是行銷話術,57.5% 的違反率就是證據。把糾正變成硬規則很務實:你對人類同事也會把重要規範寫進 checklist 而非靠他自覺。買代理產品時可以問一句:你們的偏好是用記的還是用攔的?
研究
新基準 SODA 發現工具呼叫代理在對話一開始最容易被攻擊得逞,完成幾個正常任務後安全性顯著提升,研究者稱之為 cold-start safety gap。
Hugging Face 熱門論文之一問了一個沒人系統測過的問題:代理在一段對話的不同階段,安全性一樣嗎?答案是否定的,而且方向出乎直覺——工具呼叫代理在 session 剛開始時最脆弱,先完成幾個正常的代理任務之後,面對安全威脅反而明顯變得謹慎。研究者把這個現象命名為「冷啟動安全缺口」(cold-start safety gap)。
為了系統化研究,團隊建立了 SODA(Safety Over Depth for Agents)基準,可以控制代理在遭遇安全威脅前先完成多少正常任務,最多支援 20 個前置任務,藉此畫出安全性隨對話深度變化的曲線。直覺上的解釋是前置的正常任務替模型建立了行為脈絡,讓它更容易辨識出突兀的惡意請求;反過來說,第一句話就下手的攻擊者面對的是一張白紙。
工程含義很直接:攻擊者最划算的策略是開新 session 直接出手,防守方則可以考慮在代理冷啟動階段加上更嚴格的檢查,或用預熱任務墊底。與 TRACE 那篇合著來看(見上條),代理安全的新共識正在成形:模型的行為會隨脈絡漂移,可靠性要靠外部結構鎖住,而非假設模型每一刻都一樣聰明。
歸剛點評|「同一個模型、不同時刻、不同安全性」這個發現對紅隊跟藍隊都重要。企業部署代理常見的批次新開 session 模式,剛好天天踩在最脆弱的冷啟動點上。在系統提示之外加一層 session 初期的防護,是這篇論文送的免費建議。
研究
新論文發現推測解碼中許多被拒絕的 token 其實不需要完整驗證器重算,用模型內部路由切出的精簡子模型驗證即可,進一步壓低 LLM 推理成本。
推測解碼(speculative decoding)是目前壓低 LLM 推理成本的主流技巧:讓輕量草稿模型先猜一串候選 token,再交給大模型平行驗證。現行做法的決策是二元的——草稿要嘛被接受,要嘛被整個丟回給完整大模型重算。Hugging Face 本週熱門論文 VIA-SD 找到了中間地帶。
研究者的關鍵觀察是:許多被拒絕的 token 其實不需要勞動完整驗證器,從大模型內部用「模型內路由」(intra-model routing)切出來的精簡子模型就能正確驗證。VIA-SD 據此引入「瘦版驗證器」(slim verifier)處理中等驗證需求的 token,形成草稿模型、瘦驗證器、完整驗證器的三層分工,每層只處理自己等級的不確定性。
這類工作單篇看是漸進改良,疊起來就是產業故事:本期 Kimi K2.7-Code 主打省 30% 推理 token,VIA-SD 從解碼機制再榨一層效率,方向完全一致——推理成本是 AI 商業模式的地基,每省一成,代理產品的毛利就多一分活路。學術圈跟產業界正在合力把「跑得起」變成「跑得便宜」,這條戰線的進展速度不輸模型能力本身。
歸剛點評|推理優化的論文不性感但最實用,因為省下來的是電跟錢。三層驗證的思路也很有遷移性:把「全有或全無」的二元決策改成分級處理,在快取、路由、審核管線都用得上。基礎設施團隊值得把這篇加進待讀清單。
觀點
Andrew Singleton 用「火葬場燒鈔票」的寓言諷刺 AI 圈的循環投資記帳法,Simon Willison 轉發後在開發者圈瘋傳。
Simon Willison 本週轉發了 Andrew Singleton 的一則寓言,內容值得完整轉述:Jenny 開火葬場,John 的瓦斯公司投資她 200 億美元換 5% 股份。Jenny 把其中 100 億丟進焚化爐,再花 100 億向 John 買瓦斯,把那堆錢燒成灰。結算時 John 對外宣布:本季 AI 投資創造了 100 億美元營收,而且我們持有一家估值 1,000 億美元公司的 5%。
寓言的笑點在於每一步都符合會計規則:投資是真的、營收是真的、估值也算得出來,只是整套循環裡沒有任何新價值被創造,錢只是繞了一圈變成灰。對號入座不難——晶片商投資模型公司、模型公司拿錢買晶片、雲端商投資新創、新創拿錢買雲端額度,每一筆交易都同時灌飽了兩邊的財報。
故事還有後座:被指派去報導 John 與 Jenny 的記者,在調查過程中越陷越深。在 SpaceX 掛牌、Anthropic 遞件、Prometheus 募 120 億的同一週讀這則寓言特別提神——公開市場即將用季報檢驗哪些營收是真需求、哪些是循環記帳,焚化爐的灰燼藏不了太多季,掛牌等於自願把焚化爐的門打開給大家看。
歸剛點評|循環投資的指控講了一年,這則寓言用兩百字講得比所有分析師報告都清楚。提醒一句:諷刺歸諷刺,循環交易不等於全是泡沫,判斷標準是終端需求有沒有真的付錢。看財報時把「來自股東的營收」單獨拉出來算,清醒很多。