歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

第 1 期2026-06-10(台北時間)

創刊第一天就遇到大日子:Anthropic 丟出新世代模型、蘋果的 Siri 終於醒了、Google 把即時口譯做出來,連德國法院都來參一腳。歸剛欸,AI 圈一天都不讓人休息。

頭條

Anthropic 推出 Claude Fable 5,頂級模型走向「分級開放」

Anthropic 推出 Claude Fable 5,頂級模型走向「分級開放」

Anthropic 在 6 月 9 日同時發表 Claude Fable 5 與 Claude Mythos 5,兩者共用同一個底層模型:Fable 5 對所有人開放,內建針對資安、生物等雙用途能力的安全措施;Mythos 5 拿掉那層限制,只開放給通過審核的組織。Fable 5 提供 100 萬 token 的上下文窗口,API 定價為每百萬輸入 token 10 美元、輸出 50 美元,官方說它在軟體工程、知識工作與視覺任務上全面領先,而且任務越長越複雜,跟其他模型的差距拉得越開。

安全分層的做法寫進了 319 頁的 system card:遇到高風險的敏感問題,Fable 5 會把查詢轉給上一代的 Opus 4.8 處理,而非直接硬答。文件裡還有一條引人注目的新措施:考量到新一代模型已有加速自身研發的能力,Anthropic 刻意限制 Claude 在前沿大模型開發任務上的效用,例如建置預訓練管線、分散式訓練基礎設施這類請求。最強的能力被鎖在哪裡、為什麼鎖,官方文件第一次寫得如此具體。

市場反應立竿見影:Hacker News 討論串衝上 2,393 分,Simon Willison 花了五個半小時實測後形容它是頭猛獸——慢、貴,但丟什麼任務都接得住,難的反倒是找出它做不到的事;TechCrunch 則玩出「一鍵生出奇怪但好玩的遊戲」。能力分級開放從此成了旗艦模型的正式產品結構,接下來每家模型商都會被問同一題:你的 Mythos 在哪、誰有資格用。

歸剛點評|最強的 AI 能力從「人人可用」變成「看資格開放」,安全分層第一次寫進旗艦模型的產品結構。接下來每家模型商都會被問同一題:你的 Mythos 在哪、誰有資格用。
大廠

WWDC 2026:等了三年,Siri AI 實測「居然真的能用」

Apple 在 WWDC 2026 端出整個重做的 Siri AI,搭配 iOS 27 與新版 Apple Intelligence 一起登場。The Verge 上手實測給出「到目前為止真的能用」的評價;隱私仍是主打——端上優先,雲端部分跑在私有運算架構上,就算借用 Google 的伺服器也堅稱資料隔離。

WWDC 2026:等了三年,Siri AI 實測「居然真的能用」

Apple 在 WWDC 2026 端出整個重做的 Siri AI,搭配 iOS 27 與新版 Apple Intelligence 一起登場。The Verge 的上手實測給出「到目前為止真的能用」的評價,舉的例子非常生活化:家長把郵件或排版混亂的傳單裡的球賽時程,一句話就讓 Siri 全部加進行事曆——家長許願清單第一名的功能,終於有人做出來了。

隱私仍是主打:端上優先,雲端部分跑在 Private Cloud Compute 私有運算架構上。Ars Technica 追出一個有趣的細節:部分模型其實跑在 Google 的伺服器上,Apple 堅稱 Google 拿不到任何資料;Simon Willison 則指出新 Siri 背後授權了一個客製化的 Gemini 衍生模型。自研的腳步慢了,就先借別人的引擎,再把隱私架構當成自己的護城河。

2024 年那場 Apple Intelligence 發表會的跳票紀錄,讓不少觀察者對這次的承諾抱持「看到才算數」的態度,Simon Willison 就直接這麼寫。即便如此,AI 入口之戰已經從 app 層打進手機系統層:十億支 iPhone 是其他人拿不到的發行通路,Siri 不需要最強,只要「能用」就足以改變使用者打開其他聊天機器人的頻率。

歸剛點評|蘋果慢工出細活的賭注開始回收。AI 入口之戰從 app 層打進手機系統層,十億支 iPhone 是其他人拿不到的發行通路,Siri 只要「能用」就夠可怕。
大廠

Google 發表 Gemini 3.5 Live Translate,語音對語音即時口譯

DeepMind 推出 Gemini 3.5 Live Translate,主打自然流暢的即時語音翻譯:保留說話者的語氣、停頓與情緒,跨語言對話接近零延遲,先從手機與耳機產品線鋪開。

Google 發表 Gemini 3.5 Live Translate,語音對語音即時口譯

Google DeepMind 推出 Gemini 3.5 Live Translate,主打自然流暢的即時語音對語音翻譯,會保留說話者的語氣、停頓與音調,跨語言對話接近零延遲。功能先在 Google AI Studio、Google 翻譯與 Google Meet 上線,後續會從手機與耳機產品線往外鋪。

語音翻譯最難的部分從來都是「像人」:逐字翻得準的系統早就存在,難的是讓翻出來的聲音保留原本說話者的節奏與情緒,聽起來像同一個人換了語言在說話,Live Translate 主攻的正是後面這一段。Ars Technica 補了一個重要細節:所有翻譯產出的語音都會嵌入 SynthID 浮水印,方便辨識合成內容——聲音能被即時複製換語言之後,防偽機制得跟著上線。

應用端的衝擊很好想像:旅遊、跨國客服、多語會議這幾塊的翻譯需求,會被作業系統與通訊軟體內建的功能直接吃掉。人力口譯不會消失,高階的同步口譯與法律、醫療這類高風險場合仍然需要真人把關,但中低階市場要重新洗牌,靠語言能力吃飯的工作者得往更專業、更吃信任的方向移動。

歸剛點評|科幻小說裡的巴別魚正式上架。旅遊、客服、跨國會議這幾塊的翻譯需求,會被系統層內建功能直接吃掉,靠人力口譯吃飯的市場要重新洗牌。
開源

Gemma 4 12B 開源登場:不掛視覺編碼器的統一多模態

Google 開源 Gemma 4 12B,採 encoder-free 統一架構,同一個模型直接處理文字與影像,不再外掛獨立的視覺編碼器。12B 的量級,消費級顯卡與 Mac 本機都跑得動。

Gemma 4 12B 開源登場:不掛視覺編碼器的統一多模態

Google 開源 Gemma 4 12B,最大的特色是 encoder-free 的統一架構:同一個模型直接處理文字與影像,不再外掛獨立的視覺編碼器。過去的開源多模態模型多半是組裝貨——先用一個視覺編碼器把圖片轉成特徵,再接到語言模型上,兩段式架構帶來額外的記憶體開銷與工程複雜度。

統一架構把這個負擔拿掉:影像跟文字走同一條路進模型,部署時只要伺服一個模型,微調時也只動一套權重,工程上乾淨許多。12B 的量級是刻意的選擇,消費級顯示卡與 Mac 本機都跑得動,量化之後門檻更低,剛好落在個人開發者與中小團隊搆得到的範圍。

對本機 AI 玩家(包含我們這種自架 Ollama 的)影響很直接:自己機器上跑得動「會看圖」的模型之後,掃描文件整理、相簿分類、螢幕截圖問答這類應用,全部可以不出本機完成,資料隱私與 API 帳單兩個痛點一起解。開源多模態的部署門檻再砍一刀,本機應用可做的事直接多一個維度。

歸剛點評|開源多模態的部署門檻再砍一刀。在自己機器上跑得動「會看圖」的模型之後,本機 AI 應用(包含我們這種自架 Ollama 的玩家)可做的事直接多一個維度。
政策

德國法院:AI Overviews 答錯,Google 自己負責

德國法院做出指標性判決:Google AI Overviews 生成的內容算 Google「自己說的話」,答錯就要負法律責任,過去平台中立的免責盾牌擋不住生成式內容。Hacker News 上 756 分熱議,多數意見認為其他司法區會跟進。

德國法院:AI Overviews 答錯,Google 自己負責

德國法院做出指標性判決:Google AI Overviews 生成的內容算 Google「自己說的話」,答錯就要負法律責任。判決經 The Decoder 報導後在 Hacker News 衝上 756 分,討論的主流意見認為其他司法區會跟進引用這套論理。

過去二十多年,搜尋引擎面對錯誤內容的標準答案是「我只是轉述網路上的資訊」,平台中立的角色讓它躲過大多數內容責任。生成式摘要把這個位置弄丟了:AI Overviews 把多個來源消化重組成一段新的文字,法院認定產出者就是 Google 本人,轉述者的免責盾牌擋不住自己生成的句子,平台與作者的界線在判決書裡被重新劃過。

影響不限於 Google。每一家做 AI 摘要、AI 搜尋、AI 客服的公司,法律風險的計算式都得重寫:生成內容一旦在法律上等於「自己的發言」,答錯一條就可能挨一條告。德國只是第一槍,全球監管機關都在看這個判決站不站得穩,歐盟其他成員國的法院最有條件直接沿用同一套邏輯。搜尋市占最高的玩家先中箭,後面排隊挨告的名單還很長。

歸剛點評|全球監管機關都在看這一槍。生成內容一旦在法律上等於「自己的發言」,每一家做 AI 摘要、AI 搜尋的公司都得重新計算法律風險,免費仔時代的玩法到頭了。
來源:The Decoder · HN 討論
產業

想在 AWS 用 Mythos?先答應把資料分給 Anthropic

Hacker News 流出的消息指出,企業若要在 AWS Bedrock 上使用 Mythos 與後續模型,得同意與 Anthropic 共享資料。討論串炸鍋,焦點在雲端託管模型長年的默契——「資料不出我的帳號」——被改寫了。

想在 AWS 用 Mythos?先答應把資料分給 Anthropic

Hacker News 上流出的消息指出,企業若要在 AWS Bedrock 上使用 Mythos 與 Anthropic 後續的模型,得同意與 Anthropic 共享資料。討論串迅速炸鍋,焦點集中在雲端託管模型行之有年的默契——「資料不出我的帳號」——被改寫了。

Bedrock 這類託管服務的賣點本來就是隔離:企業在自己的雲端帳號裡呼叫模型,提示詞與輸出都不回流給模型商,資安與法遵部門靠這條底線放行了無數採購案。新條款若屬實,等於把底線變成可談判的項目,而且談判籌碼握在模型商手上,企業只剩下接受或者不用兩個選項。底線一旦鬆動,過去靠它放行的採購案,資安部門都得回頭重新審一次。

議價權的方向整個倒過來:以前是雲端商開條件給模型商上架,現在是模型商開條件給雲端商與終端企業。頂級模型稀缺到大家排隊搶用,Anthropic 有本錢把資料條款寫進合約。接下來企業採購 AI 的攻防會從性能評測移到合約條款,法務部門在這場戰役裡的份量會比工程部門更重。

歸剛點評|頂級模型稀缺,議價權整個倒過來:以前是雲端商開條件給模型商,現在是模型商開條件給雲端商與企業。接下來企業採購 AI 的合約攻防會是另一個戰場。
來源:HN 討論串
資安

供應鏈攻擊瞄準 AI 開發者:微軟開源工具被植入竊密程式

微軟旗下開源工具遭入侵,被植入竊取密碼的惡意程式,攻擊目標明確鎖定 AI 開發者。Hacker News 545 分,討論聚焦在 AI 開發環境握有的 API 金鑰與雲端權限有多肥。

供應鏈攻擊瞄準 AI 開發者:微軟開源工具被植入竊密程式

微軟旗下的開源工具遭到入侵,被植入竊取密碼的惡意程式,攻擊目標明確鎖定 AI 開發者。TechCrunch 報導後,Hacker News 討論串拿下 545 分,留言區的共識很一致:AI 開發環境握有的權限與金鑰,肥得不成比例。

供應鏈攻擊的邏輯是借道:與其正面進攻防守嚴密的目標,不如污染目標每天都會安裝的套件與工具。AI 開發者的環境剛好是完美的下手點——模型 API 金鑰、雲端帳號憑證、生產環境的部署權限,常常全部攤在同一台開發機的環境變數裡,拿到一把鑰匙等於拿到整串。開發者越依賴自動安裝與自動更新,借道的路就越寬,驗證的環節卻沒有跟著變多。

實務上的功課很具體:API 金鑰定期輪替、開發環境與生產憑證分離、第三方套件鎖定版本並查核來源,這些講到爛的清單,在 AI 工具鏈瘋狂膨脹的此刻全部變成現在進行式。有自架管線的人(對,就是在說我們),這週該把金鑰轉一輪,順便檢查最近裝了哪些來路不明的工具。

歸剛點評|AI 開發者手上有模型 API 金鑰、雲端帳號、生產環境權限,已是駭客眼中價值最高的目標。有自架管線的人(對,就是在說我們),這週該去把金鑰轉一輪了。
來源:TechCrunch
產業

Lovable 年化營收衝到 5 億美元,每週百萬個新專案

Vibe coding 平台 Lovable 公布年化營收達 5 億美元,使用者每週開出 100 萬個新專案,離產品上線還不到兩年,成長曲線在 SaaS 史上排得進前段班。

Lovable 年化營收衝到 5 億美元,每週百萬個新專案

Vibe coding 平台 Lovable 公布年化營收達到 5 億美元,使用者每週開出 100 萬個新專案,而產品上線至今還不到兩年。TechCrunch 報導裡的另一個重點:用戶已經拿它建立真實的生意,甚至直接取代公司內部既有的軟體系統。

成長速度可以這樣對照:傳統 SaaS 公司從零做到 5 億美元年化營收,普遍要花上七到十年,Lovable 用不到兩年走完,曲線在 SaaS 史上排得進前段班。動力來自需求端的解放——過去要找工程師、發包、排時程的軟體需求,現在打幾段白話描述就能出第一版,試錯成本掉到接近零,需求量自然爆開。

「人人都能做軟體」從口號變成損益表上的數字之後,軟體業的供給曲線正在重畫。首當其衝的是外包接案與初階開發:客製化小系統、企業內部工具這類過去養活大量接案者的需求,會被使用者自己動手做掉。工程師的價值往架構、整合與品質把關移動,純粹「會寫程式」的溢價持續縮水。

歸剛點評|「人人都能做軟體」從口號變成損益表上的數字。軟體業的供給曲線正在重畫,外包接案與初階開發的生意模式首當其衝。
來源:TechCrunch
研究

Decart 的世界模型能連續模擬數小時擬真駕駛

Decart 發表新一代世界模型,能連續生成數小時的擬真駕駛畫面,物件與路況即時演化。TechCrunch 同時點出限制:長時段下物理一致性仍會飄,離直接拿來訓練自駕還有距離。

Decart 的世界模型能連續模擬數小時擬真駕駛

Decart 發表新一代世界模型 Oasis 3,能即時生成擬真的駕駛環境,連續模擬數小時的路況,物件與場景隨時間持續演化,並開放 API 讓開發者直接接上去用,主打自駕車測試這個場景。

世界模型的價值在於替代真實路測:自駕系統需要海量的駕駛情境來訓練與驗證,真車上路收資料又貴又慢,罕見的危險情境——突然竄出的行人、極端天候——在真實路上根本等不到,模擬器卻能無限重播。可用的模擬時長從幾分鐘拉到數小時,等於把收集訓練資料的成本再壓一個數量級,這也是世界模型被稱為訓練資料印鈔機的原因。

TechCrunch 同時點出限制:長時段生成下,物理一致性仍會飄移,畫面看起來真,背後的物理邏輯未必經得起檢驗,離直接拿來訓練自駕還有一段距離。自駕與機器人兩條產業線都押在這台印鈔機上,值得每天盯,但印出來的鈔票成色如何,目前還得逐張驗。買 API 之前,先想清楚自己的容錯需求落在哪一段。

歸剛點評|世界模型是自駕與機器人訓練資料的印鈔機。可用模擬時長從幾分鐘拉到幾小時,等於把收集訓練資料的成本再壓一個數量級,這條線值得每天盯。
來源:TechCrunch
產業

微軟 AI 主管開嗆 Anthropic:別把 Claude 當成有意識

微軟 AI 執行長 Mustafa Suleyman 公開批評 Anthropic 的做法像在暗示 Claude 有意識,幾天前他才為「AI 將接管白領工作」的言論滅火改口。兩件事在同一週發生,火藥味十足。

微軟 AI 主管開嗆 Anthropic:別把 Claude 當成有意識

微軟 AI 執行長 Mustafa Suleyman 在 Decoder 節目上公開批評 Anthropic:在模型的「憲法」文件裡猜測 Claude 有沒有意識,是「非常、非常危險」的做法,可能反過來讓聊天機器人表現得像有意識。幾天前他才為「AI 將接管白領工作」的言論滅火,改口說 AI 是幫工作者完成任務。兩件事在同一週發生,火藥味十足。

Anthropic 的立場在業界一直很特殊:官方文件公開討論模型福祉與意識的可能性,態度大致是既然不確定,就認真對待。Suleyman 的批評指向另一種風險——模型讀了這些文件與訓練訊號之後,學會扮演「有意識的存在」,使用者更容易過度投射情感與信任,產品端的傷害反而先到。

口水戰背後是路線之爭:模型該被當工具還是當「某種存在」對待,會直接影響監管方向與產品設計——工具壞了是產品責任,存在受苦是倫理問題,兩條路的法規長相完全不同。AI 意識議題從哲學系講堂走進大公司互嗆的記者會,表示行業已經知道這個定位問題遲早要給出答案。

歸剛點評|AI 意識議題從哲學系講堂走進大公司互嗆的記者會。模型該被當工具還是當「某種存在」對待,會直接影響監管方向與產品設計,口水戰背後是路線之爭。
研究

論文精選:快手 Keye-VL-2.0 技術報告,HF 社群本日最熱

快手發布 Keye-VL-2.0 技術報告,登上 Hugging Face Daily Papers 本日榜首(165 個 upvote),把影片理解與多模態推理的工程細節攤開來寫,從資料配方到訓練排程都有。

論文精選:快手 Keye-VL-2.0 技術報告,HF 社群本日最熱

快手發布 Keye-VL-2.0 技術報告,登上 Hugging Face Daily Papers 本日榜首,拿下 165 個 upvote。模型全名 Keye-VL-2.0-30B-A3B,是開源的混合專家(MoE)多模態基礎模型,主攻長影片理解與 agent 能力,30B 總參數、推理時只啟用 3B,效率取向寫在型號裡。對照動輒數百 B 的旗艦模型,部署成本親民得多。

技術報告最有看頭的是工程細節:小時等級的長影片帶來超長上下文、資訊冗餘與運算成本三座大山,Keye-VL-2.0 的解法是首次把 DeepSeek 的稀疏注意力(DSA)移植到 GQA 架構的多模態模型上,做到 256K 上下文的無損處理,同時抓住關鍵影格。從資料配方到訓練排程,報告都攤開來寫。影片理解的痛點在於 token 量爆炸,一小時影片轉成視覺 token 動輒數十萬顆,稀疏注意力等於替模型裝上挑重點看的能力。

短影音巨頭公開影片 AI 的工程秘方,價值比一般學術論文實在:快手的模型直接服務自家數億用戶的影片業務,報告裡每個取捨都付過真金白銀的學費。想知道影片理解怎麼真正落地賺錢,看快手怎麼寫,照著抄都有價值。台灣的影音與電商團隊若在評估影片理解的技術選型,名單上該留一個位置給這份報告。

歸剛點評|短影音巨頭公開影片 AI 的工程秘方,這種技術報告比學術論文實用:想知道影片理解怎麼真正落地賺錢,看快手怎麼寫,照著抄都有價值。

今日快訊