第 11 期2026-06-20(台北時間)
第十一期,今天 AI 的戲全在『被管』與『被搶』之間。政府的手、產業的人、半導體的設備,三條主線一次到位,研究端則默默把法律、程式與代理的地基補得更扎實。
- 監管出手最重:美國政府以國安為由逼 Anthropic 撤回剛發表的 Fable 5 與 Mythos 5,起因是 Amazon 研究員找到繞過護欄的方法。資安圈連署反對、Anthropic 也說同樣漏洞別家都有。對照第九期談過的『閉源模型隨時可能被斷線』,今天把風險講得更白——連自家政府都能按下暫停鍵。
- 架構有大宣稱:邁阿密新創 Subquadratic 宣稱解開困住 LLM 近十年的長文本平方成本瓶頸,從一片質疑中開始放實測數據。若為真,受惠的是所有人的帳單;在被複現前,保持期待也保持懷疑。
- 人與錢繼續流動:Barret Zoph 回鍋 OpenAI 五個月又走;Elastic 最高 8,500 萬美元收 AI 除錯新創 Deductive AI;前 Allbirds 執行長開的 AI 公司有大筆種子輪卻還沒員工。熱錢與人才在幾家明星公司間高速換位。
- 地緣與規模並進:印度 Reliance 要把 AI 織進覆蓋五億人的電信網;美國指 ASML 頂級曝光機可能在中國、ASML 否認。一邊用通路規模決勝,一邊在出口管制上打信任戰。
- 研究補地基:法律 AI 同日兩篇——LOCUS 把缺席的美國地方法規搬上機器可讀、LegalHalluLens 揭法律幻覺高達約五成並提出審計法;ContextRL、LedgerAgent、Multi-LCB 則分別替代理找證據、守規則、評程式打底。
頭條
上週進入尾聲時,美國政府要求 Anthropic 把才剛推出的兩款最新模型 Fable 5 與 Mythos 5 撤下來,理由是國家安全。導火線是 Amazon 的研究員聲稱找到一條繞過 Fable 5 安全護欄的路徑,能讓模型吐出原本被擋住的內容,政府因此認定風險過高,要求暫停釋出。對一家把安全當招牌的公司來說,被自家投資方 Amazon 的團隊抓到漏洞、再被政府點名下架,是相當難堪的一週。
事情沒有就此一面倒。多位資安研究者隨後連署一封公開信,認為政府這一步反而危險,因為強行把模型下架並不會讓漏洞消失,只會讓研究者更難公開檢視與修補。Anthropic 自己也出面說明,同一類越獄手法在市面上其他大型模型同樣存在,把單一公司的單一版本拎出來開刀,等於選擇性執法,對整體防護幫助有限。爭點因此從「Fable 5 安不安全」擴大到「政府該用什麼標準管模型」。
從 TechCrunch 的觀察角度看,這場下架在數字上似乎沒傷到 Anthropic 的聲量,被禁反而帶來更多討論度,品牌能見度不減反增。但對整個產業來說,真正的訊號是監管的手已經伸到「發表後可被勒令撤回」這一層,門檻與程序卻沒講清楚。對照本站第九期談過的「海外閉源模型隨時可能被斷線」,今天這條把風險講得更白:就算模型沒被外國封鎖,也可能被自家政府按下暫停鍵。
對台灣與華語圈的團隊,這是一記提醒。把關鍵流程綁死在單一家、單一版本的雲端閉源模型上,等於把命運交給對方公司加上對方政府兩道閘門。多備幾條後路、留一份可自行部署的開源替代方案,會在這種突發時刻顯得格外值錢。
歸剛點評|監管首次示範了「模型上市後仍可被勒令撤回」,但標準與程序模糊,等於替全產業立下一個沒寫清楚的規矩。對依賴閉源 API 的團隊是直接的供應鏈風險。
產業
邁阿密 AI 新創 Subquadratic 上月剛出隱身狀態,宣稱解開一個困住大型語言模型近十年的數學瓶頸。當時細節太少、外界多半不信,這次它陸續放出實測數據,試圖把空話變成成績。
總部在邁阿密的 AI 新創 Subquadratic 上個月才走出隱身狀態,開口就是一句大話:它解決了一個困住大型語言模型將近十年的數學瓶頸。所謂瓶頸,指的是主流 Transformer 架構處理長文本時,運算量會隨著序列長度呈平方成長,文本一長、運算與記憶體成本就暴衝,這也是長上下文又貴又慢的根本原因。公司名字裡的 Subquadratic(次平方)擺明了就是衝著這件事來的。
問題是,剛出場時它幾乎只有口號、沒有細節,學界與業界看過太多自稱顛覆架構、最後不了了之的案例,反應普遍冷淡甚至直接看衰。要把注意力的平方成本壓到次平方,過去十年線性注意力、狀態空間模型等路線都試過,效果與品質總是難兩全,外界的懷疑並非沒有道理。
這次的轉折在於 Subquadratic 開始拿出實測來回應。據 MIT 科技評論報導,公司陸續分享數據,想證明自己的方法在真實負載下站得住腳,而不只是紙上談兵。能不能複現、品質有沒有縮水、能不能撐到大模型規模,仍要等更多第三方驗證,但至少討論從「你在吹牛」進到「給我看數字」。
對使用端來說,長上下文的成本一直是 AI 落地的硬牆,從整本文件問答到長對話記憶都卡在這。若真有架構能把這道平方牆拆掉,受惠的會是整個產業而非單一公司。在被證實之前,保持期待也保持懷疑,是面對這類大宣稱最健康的姿態。
歸剛點評|長上下文的平方成本是 AI 變貴變慢的根因,任何能真正壓低它的架構都會牽動所有人的帳單。但歷史上這類大宣稱十之八九雷聲大雨點小,得等獨立複現才算數。
產業
回鍋 OpenAI 才五個月,企業 AI 銷售主管 Barret Zoph 再度離職。他一月才從前 OpenAI 技術長 Murati 創辦的 Thinking Machines Lab 回到 OpenAI,如今又走,凸顯頂尖人才在幾家明星公司間高速流動。
據 The Verge 取得的消息,Barret Zoph 在重返 OpenAI 僅僅五個月後再次離開。他在公司的職位是企業 AI 銷售主管,負責把 OpenAI 的模型推進到大型企業客戶。五個月來去匆匆,在任何一家公司都算短,放在 OpenAI 這種鎂光燈下的位置更顯眼。
Zoph 的來回路線本身就是一張產業人才地圖。他今年一月回到 OpenAI,先前則是 Thinking Machines Lab 的共同創辦人兼技術長,而那家公司正是前 OpenAI 技術長 Mira Murati 出走後創立、被視為 OpenAI 直接對手的明星新創。換句話說,他從 OpenAI 出走、參與創辦對手、再回鍋 OpenAI,如今又離開,短短一年多走了一整圈。
這類高頻流動在當前的前沿 AI 圈並不罕見。頂尖研究與商業人才是各家最稀缺的資源,開出的薪酬、股權與算力承諾彼此咬得很緊,任何一個關鍵職位的動向都會被放大解讀。一位企業銷售主管的去留,外界會順著去猜 OpenAI 的商業化節奏、內部磨合,甚至下一步戰略是否生變。
對在台灣經營 AI 產品或想導入企業方案的人,這種人事動盪有實際意涵:你對接的窗口與路線圖,可能比想像中更容易因為一次人事異動而改變。把合作綁在制度與產品上、而非單一聯絡人身上,會讓自己穩一點。
歸剛點評|頂尖 AI 人才的高速流動,是觀察各家實力與內部穩定度的隱形指標。對企業客戶來說,對接窗口頻繁換人,意味著合作關係比想像中脆弱。
產業
印度首富 Ambani 的 Reliance 正把 AI 嵌進旗下電信服務,覆蓋超過 5 億用戶。從通話、App 到家庭場景全面鋪設,等於把 AI 一次推到一個國家級規模的用戶池。
印度首富 Mukesh Ambani 旗下的 Reliance 正在把 AI 大規模織進自家電信服務,而這張網覆蓋的用戶超過五億人。據 TechCrunch 報導,Ambani 的構想是讓 AI 出現在每一通電話、每一個 App 與每一個家庭裡,等於把 AI 一次推送到一個國家級規模的使用者池前面。
這個量級值得停下來想一下。五億用戶接近全球人口的十六分之一,遠超多數 AI 產品累積多年才搆得到的數字。Reliance 的優勢在於它握有現成的電信管道——Jio 早年用低價數據把數億印度人帶上網,如今同一條管道可以反過來成為 AI 的派送通路,不必從零教育市場,使用者已經在線上。
把 AI 直接綁進電信底層,影響面很廣。對使用者,AI 可能變成接電話、用 App 時預設就在的功能,門檻被壓到最低;對開發者與內容方,能不能進到 Reliance 的入口,差別可能是面對五億人或面對空氣;對監管者,這麼集中的 AI 派送能力也會帶出資料與競爭上的新問題。規模本身就是一種權力。
對台灣業者,印度市場的玩法是另一種啟發:當地走的是用既有的大型通路把 AI 一次鋪到底,而非單點做精品 App。看懂這種以管道取勝的打法,對思考東南亞與新興市場布局會有幫助。
歸剛點評|把 AI 綁進覆蓋五億人的電信底層,是用通路規模直接決勝負的打法。誰能進入這種國家級入口,誰就握有別人難以複製的派送權力。
政策
美國指 ASML 最頂尖的晶片曝光機可能流入中國,ASML 否認。報導指出,從商業邏輯看,ASML 沒有理由為單一客戶賭上整張出口執照,這場爭執本質是出口管制下的信任問題。
美國方面表示,ASML 最頂級的晶片製造曝光機可能出現在中國,ASML 則出面否認。ASML 是全球唯一能造出最先進極紫外曝光機的公司,這類機器是製造尖端晶片的咽喉設備,正因如此一直被列在對中出口管制的最核心。一旦這種等級的機器被指流進中國,牽動的就不只是一家公司,而是整套半導體封鎖的成效。
TechCrunch 的分析指出,從商業邏輯看,ASML 並沒有動機去做這件事。它的整門生意都仰賴出口執照,為了單一中國客戶去冒違規、進而失去整張執照的風險,怎麼算都不划算。換句話說,指控與動機之間有明顯落差,這也是 ASML 敢正面否認的底氣。
爭點因此落在「查證」與「信任」上。先進設備就算合法賣到某地,後續是否被轉運、被搬到管制名單上的廠區,往往難以即時追蹤,留給各方各說各話的空間。美國要的是滴水不漏的管控,ASML 要的是別被一句未經證實的指控砸了招牌,兩邊的角力會在缺乏鐵證時持續拉扯。
對位在半導體供應鏈上的台灣,這條新聞是地緣風險的日常切片。設備、材料到製程環環相扣,任何一個管制爭議都可能往下游傳導。看懂這種以一台機器為引信的攻防,有助於判斷產業鏈未來幾季的風向。
歸剛點評|最先進曝光機是半導體封鎖的咽喉,一台機器的去向爭議,直接檢驗整套對中出口管制能不能落實。台灣身在供應鏈核心,風向變化會一路傳導到下游。
資金
Elastic 同意以最高 8,500 萬美元收購 CRV 投資的 Deductive AI。後者成立才三年,主打用 AI 自動找出並修復軟體中的 bug,這筆併購把 AI 除錯能力直接補進 Elastic 的版圖。
據消息來源,Elastic 已同意以最高 8,500 萬美元收購由 CRV 投資的新創 Deductive AI。Deductive AI 成立只有三年,做的事很具體:用 AI 去抓出並修復軟體裡的 bug,把工程師除錯這段最耗神又重複的工作交給模型先跑一遍。對一家年輕公司來說,三年走到被併購、估值上看八千多萬美元,節奏算快。
買方 Elastic 是大家熟悉的搜尋與資料分析平台,旗下產品被大量用在日誌蒐集、系統可觀測性與監控上。把一個 AI 除錯團隊收進來,等於在「發現系統哪裡出錯」之外,再補上「自動定位並提出修法」這一段,讓平台從看見問題往解決問題延伸。
這筆交易也對應了一個更大的趨勢:AI 寫程式之後,下一塊戰場是 AI 維運與除錯。當模型開始大量產出程式碼,找出並修掉其中的錯誤就變得同等重要,能把這段自動化的工具自然成了大廠想補齊的拼圖。小團隊用 AI 把單點問題做深,再被平台型公司收編整合,是這一波相當典型的劇本。
對台灣的工程團隊與新創,這個案例有兩層參考價值:一是 AI 除錯、AI 可觀測性是真實有人買單的方向;二是把一個痛點做到夠深、夠專,本身就是一條清楚的被併購退場路徑。
歸剛點評|AI 寫完程式,緊接著的戰場就是 AI 幫忙找錯、修錯。大廠用併購補上這一塊,說明自動除錯是被真金白銀認可的需求,也替深耕單點的小團隊指出一條退場路。
社會
Luca Guadagnino 執導、講述 OpenAI 執行長 Sam Altman 的電影《Artificial》據報遭 Amazon MGM 放棄。片中由 Andrew Garfield 主演,聚焦 2023 年 Altman 被解任又火速回鍋的五天風暴。
據報導,由名導 Luca Guadagnino 執導、以 OpenAI 執行長 Sam Altman 為主角的電影《Artificial》,已被 Amazon MGM 放棄。這部片籌備約一年,找來《蜘蛛人》男星 Andrew Garfield 飾演主角,題材鎖定 2023 年 11 月那場震動矽谷的風暴——Altman 在五天之內被 OpenAI 董事會解任、又被請回執行長位置的離奇過程。
那五天本身就是現成的劇本。一家當紅 AI 公司的創辦人突然被自家董事會拔掉,員工集體聲援、投資方施壓、輿論炸鍋,最後當事人回鍋、董事會換血,戲劇張力十足。把它搬上銀幕,等於替這一代 AI 熱潮拍一部當代史,外界原本頗有期待。
如今專案被放掉,提醒了一件事:科技圈的故事要變成大眾娛樂產品,中間還隔著好萊塢自己的商業判斷。題材夠不夠賣、卡司成本、平台策略,任何一環卡住都可能讓計畫喊停。被一家放棄不代表永遠拍不成,這類專案常會換東家重啟,但至少短期內,這場五天宮鬥上不了大銀幕。
對華語圈讀者,這條算是 AI 產業外溢進流行文化的有趣註腳。AI 不只活在論文與財報裡,也開始成為電影、影集想消費的題材,反過來看,正說明這股浪潮已經大到主流娛樂都想分一杯羹。
歸剛點評|AI 故事開始被好萊塢當題材,本身說明這股浪潮已外溢進主流文化。但專案被放掉也顯示,科技敘事要變成大眾娛樂,還得過商業這一關。
產品
《酷男的異想世界》生活教練 Karamo Brown 推出健康應用 Kē,主打一個以他本人為原型的 AI 數位分身。他花一年半專注於自身的健身、飲食、冥想與戒癮,想把這套經驗變成能陪伴他人的產品。
Netflix 實境節目《酷男的異想世界》中的生活教練 Karamo Brown,推出了一款名為 Kē 的健康應用,亮點是內建一個以他本人為原型的 AI 數位分身。使用者面對的虛擬教練被設計成帶有 Karamo 的風格與口吻,主打陪伴感,而非一個冷冰冰的問答機器人。
產品背後是他自己的一段經歷。據 TechCrunch 報導,Brown 花了大約一年半時間專注在個人的轉變上,從健身、營養到冥想、戒癮、經營關係與自我成長,把整套親身走過的方法整理起來,現在想透過 App 幫別人也走一遍。名人把自身經驗產品化、再用 AI 分身放大服務量,是這類應用的核心邏輯。
把名人做成 AI 分身的玩法,好處與隱憂並存。好處是把「想被某位教練帶」的渴望規模化,一個人沒辦法同時陪十萬人,分身可以;隱憂在於健康、戒癮、心理這些題目相當敏感,AI 分身給的是內容陪伴,不能取代專業醫療或諮商,邊界沒抓好就有風險。產品能不能做出真正的價值,關鍵在於它老實地把自己定位成陪伴與衛教,而非療程。
對台灣的內容創作者與健康品牌,這是一個值得觀察的範式:個人 IP 加上 AI 分身,可能成為把影響力變現又能規模化的新路。前提是把專業界線講清楚,別讓使用者把陪伴誤當成治療。
歸剛點評|名人 IP 加 AI 數位分身,是把個人影響力規模化的新範式。但健康與戒癮題材敏感,AI 分身只能做陪伴與衛教,邊界沒抓好就會出事。
產業
前 Allbirds 執行長新創的 AI 公司,是一家只有單一創辦人、卻拿到很大一筆種子輪的公司。願景講得出來、資金到位,但團隊還沒成形,下一步要往哪走仍不明朗。
據 TechCrunch 報導,曾任環保鞋履品牌 Allbirds 執行長的創業者,開了一家新的 AI 公司,狀態相當特別:只有一位創辦人,卻已經拿到一筆相當大的種子輪資金。換句話說,錢先到位了,員工卻一個都還沒有,公司目前更像一個被重金押注的構想,而非一支運轉中的團隊。
這種「先有錢、後有人」的開局,是當前 AI 募資熱的一個縮影。在資金充沛、人才稀缺的環境下,投資人願意先賭創辦人的履歷與願景,把大筆錢押在一張藍圖上,相信他能憑名聲與資源把對的人陸續招進來。對知名創辦人來說,這是難得的籌碼;對投資人來說,這是一場關於執行力的提前下注。
風險也寫在同一句話裡。報導直言,這家公司接下來要做什麼仍不清楚,有計畫卻沒講明落點。願景要變成產品,靠的是把團隊組起來、把方向收斂,而這恰恰是最難、也最容易拖延的部分。錢買得到時間與人才,買不到把事情做成的確定性,種子輪的光環能撐多久,要看後續招募與產品進度。
對台灣的早期創業者,這個案例有兩面提醒:一是好的履歷與敘事在 AI 熱潮裡能換到很實在的資金;二是拿到錢只是開場,能不能把空白的組織填成真正會出貨的隊伍,才是真考驗。
歸剛點評|「先有大筆錢、後有團隊」是這波 AI 募資熱的縮影:投資人賭的是創辦人履歷與願景。但錢買不到執行力,能不能把空白組織填成會出貨的隊伍才是真考驗。
研究
法律 AI 越來越仰賴大規模、權威的法律文本,但美國法律最貼近生活的一層——市鎮級的地方法規——長期幾乎沒有機器可讀的版本。LOCUS 建立一個涵蓋全美地方法規的語料庫,把這塊空白補上。
法律 AI 的進展越來越依賴一件事:能不能大規模取得權威的法律文本。研究者點出一個長期被忽略的缺口——美國法律裡最貼近日常生活的一層,也就是市鎮級的地方法規(local ordinances),幾乎沒有以機器可讀的形式被收進現有語料。新提出的 LOCUS 就是針對這塊空白,建立一個涵蓋全美地方法規的語料庫。
別小看這層法律。地方法規管的是分區、住房、營業執照、公共衛生這些直接影響每個人生活的事,對一般民眾的實際約束力往往比聯邦大法更近。可是它分散在成千上萬個市鎮、格式雜亂、許多還埋在 PDF 或紙本裡,難以彙整。正因為蒐集成本高,過去的法律語料多半繞過它,導致法律 AI 在面對「我家這條街能不能開店」這種問題時,根本沒有可靠的資料底子。
把這層法律數位化、結構化,意義在於替後續所有研究與應用打開一塊地基。有了乾淨的地方法規語料,模型才談得上回答在地化的法律問題、做合規檢查或輔助查詢;少了它,再大的模型也只能在缺料的情況下硬猜。開放這類權威語料,本身就是讓法律 AI 從「看起來會」走向「真的查得到」的關鍵一步。
對台灣的法律科技團隊,LOCUS 是一個方法論上的提醒:與其追逐更會聊天的助理,不如先把在地、零散卻關鍵的法源整理成可用資料。在法律這種領域,資料的齊全與權威,往往比模型本身更決定成敗。
歸剛點評|地方法規對一般人的約束力其實最近,卻一直缺機器可讀版本。把這塊補上,法律 AI 才從『看起來會』走向『真的查得到』。資料齊不齊,在法律領域比模型大不大更關鍵。
研究
研究指出,部署在法律工作流的 AI 幻覺率以總體指標看約達 52%,但平均數掩蓋了錯誤集中在哪、往哪偏。LegalHalluLens 提出把幻覺分型來審計,並用經校準的多代理辯論提高可信度。
一篇名為 LegalHalluLens 的研究,把法律 AI 的信任問題攤開來談。研究指出,部署在法律工作流裡的 AI,幻覺率以總體指標來看高達約 52%——也就是說,相當比例的輸出可能是模型編出來、查無實據的內容。對講求精確的法律場景,這個數字相當刺眼。
但研究真正的重點,是這個平均數其實會騙人。52% 是一個籠統的總和,它掩蓋了錯誤到底集中在哪一類問題、往哪個方向偏——是傾向捏造不存在的法條,還是傾向把有的講成沒有?合規人員光看一個總體幻覺率,拿不到任何可以採取行動的訊號。LegalHalluLens 因此主張把幻覺分型(typed)來審計,先弄清楚錯在哪、怎麼錯,才談得上對症。
在審計之外,研究還提出用經過校準的多代理辯論來提高可信度——讓多個模型針對同一個法律問題互相質詰、彼此挑錯,再把結果彙整校準,藉由互相牽制壓低單一模型胡謅的機率。整套設計的目標很明確:給高風險的法律部署一套可量化、能標出錯誤分布的把關機制,而非只丟出一個讓人安心或恐慌的單一數字。
對台灣想把 AI 導入法務、合規的團隊,這篇的態度值得學:先承認模型會說錯,再想辦法量出它錯在哪、用機制去攔。在法律這種錯一個字後果可能很重的領域,敢於審計自家模型的弱點,比宣稱模型多強更值得信任。
歸剛點評|法律場景錯一個字後果很重,而籠統的幻覺率會騙人。把錯誤分型審計、用多代理辯論互相挑錯,是讓 AI 敢進合規與訴訟流程的務實把關。敢揭自家弱點,比宣稱模型多強更可信。
研究
LiveCodeBench 近來成為評估 LLM 寫程式的熱門基準。新研究 Multi-LCB 把它擴展到多種程式語言,讓評測不再只看單一語言,更貼近模型在真實多語言開發場景的表現。
LiveCodeBench(LCB)近來成了業界評估大型語言模型程式能力的熱門基準。它的做法是蒐集競技程式題目、持續加入新題、並依題目發布日期過濾,藉此降低模型在訓練時就看過答案的污染問題,給出比較乾淨的評測。正因為被廣泛採用,它衡量的範圍是否夠全面,就直接影響大家怎麼判斷一個模型會不會寫程式。
新提出的 Multi-LCB 點出一個盲區:評測若集中在單一程式語言,量到的就只是模型在那一種語言上的本事。現實裡的開發是多語言的,前端、後端、資料處理、系統程式各有慣用語言,一個模型 Python 寫得漂亮,不代表換到別的語言一樣穩。Multi-LCB 把 LCB 擴展到多種程式語言,讓基準更貼近真實開發的樣貌。
把評測語言攤開,意義在於讓比較更誠實。當一個模型號稱程式能力很強,現在可以追問:是在哪些語言上強?是不是只在資料最多的幾種語言表現好、冷門語言就露餡?這種多語言視角能逼出模型能力分布的真相,避免單一數字造成的錯覺,也替選型的人提供更貼近自身技術棧的依據。
對台灣的開發團隊,這是一個實用提醒:挑寫程式的 AI 工具時,別只看它在熱門榜上的單一分數,回到自己團隊實際用的語言去測,才知道好不好用。基準越貼近現實,選型越不會踩雷。
歸剛點評|大家用單一語言的分數判斷模型會不會寫程式,很容易被誤導。把評測攤成多語言,逼出能力分布的真相,選型的人才不會只看一個漂亮數字就下單。
研究
大型模型常在「答案藏在長上下文中一小段決定性證據」時失手,例如工具紀錄裡的某一行、圖片裡的某個細節。ContextRL 用上下文感知的強化學習,提升模型鎖定關鍵線索的能力。
大型語言模型有個常見的失誤:當正確答案取決於一段藏在又長又複雜上下文裡的小小決定性證據時,它常常抓不到。研究者舉的例子很具體——可能是一長串工具呼叫紀錄裡的某一行,也可能是一張圖片裡一個不顯眼的細節。資訊其實就在眼前,模型卻被海量背景淹沒,漏掉了那條關鍵線索。
ContextRL 的做法是用上下文感知的強化學習來訓練模型。簡單說,就是透過獎勵訊號去引導模型學會在龐雜輸入裡分辨「哪一段才是真正決定答案的證據」,把注意力放對地方,而不是被大量無關內容帶偏。它面對的是文字與多模態(含圖片)兩種場景,目標都是同一件事:提升模型在長或複雜情境下精準定位證據的能力。
這個方向的價值,在當前 AI 越來越往代理(agent)應用走的脈絡下特別明顯。代理要讀長長的工具回傳、要看截圖、要在多輪互動裡記住關鍵條件,一旦漏掉那條決定性線索,後面整串行動就會錯下去。把「找對證據」這件事用訓練方式強化,等於替代理的可靠度補上一塊地基。
對在做 AI 應用的團隊,這提醒了一個實務重點:模型答錯,常常並非不會推理,問題出在它沒看到該看的那一行。改善輸入的組織方式,再加上像 ContextRL 這類訓練,會比一味換更大的模型更對症。
歸剛點評|模型答錯,往往敗在沒咬住長上下文裡那條決定性線索,而非推理能力不足。在 AI 往代理應用走的當下,把「找對證據」訓練起來,是補可靠度的關鍵地基。
研究
客服等場景的工具呼叫代理,必須跨多輪維持任務狀態、邊呼叫工具邊遵守政策。LedgerAgent 用結構化的狀態紀錄,把對話中觀察到的事實、識別碼、限制與條件記成帳本,提升代理守規矩的能力。
在客服這類場景裡,會呼叫工具的 AI 代理有個硬需求:得在多輪對話中穩住任務狀態,一邊呼叫各種工具,一邊遵守該領域的政策規範。所謂任務狀態,包含從互動與工具回傳裡觀察到的相關事實、識別碼、限制與條件——好比客戶身分、訂單編號、能不能退款的前提等等。標準代理常把這些資訊散在對話歷史裡,越聊越容易記漏或搞混。
LedgerAgent 的核心想法,是把這些狀態結構化地記下來,像記一本帳本(ledger)。每觀察到一個關鍵事實或條件,就有條理地登錄進去,而非任由它淹沒在自然語言的對話流裡。需要判斷下一步該不該呼叫某個工具、能不能執行某個動作時,代理回頭查這本結構化帳本,比在一長串聊天紀錄裡翻找可靠得多。
為什麼這件事重要?因為「守政策」對客服代理是生死線。退款規則、權限邊界、合規要求一旦記錯,輕則答非所問,重則做出不該做的操作。把狀態從鬆散的文字升級成結構化紀錄,等於給代理一個不容易出錯的工作記憶,讓它在多輪、多工具的複雜流程裡仍踩得住規矩。
對台灣想用 AI 做客服或流程自動化的團隊,這篇的啟發很實際:別讓代理只靠對話歷史硬記,替它設計一份明確的狀態結構,可靠度會差很多。代理要進到真實業務,守規矩的能力比能言善道更值錢。
歸剛點評|客服代理「守政策」是生死線,記錯退款規則或權限就可能闖禍。把跨輪狀態從鬆散對話升級成結構化帳本,是讓代理進到真實業務、守得住規矩的務實解法。
研究
靈巧操作可活動關節的物件,對家務、輔助與人形機器人很重要,多指手能提供平行夾爪做不到的柔順接觸。DragMesh-2 針對關節物件操作這個比靜態物件更難的問題提出方法。
對機器人來說,能靈巧地操作「有關節、會動」的物件,是走進家庭、做輔助與發展人形機器人的關鍵能力。研究者指出,多指靈巧手能提供平行夾爪(parallel-jaw,就是那種兩片夾起來的簡單夾具)做不到的柔順接觸,更貼近人手的操作方式,對處理日常物件特別重要。
難點在於,操作關節物件和操作靜態物件不一樣。靜態物件抓起來位置就固定了,關節物件像剪刀、抽屜、夾子、可開合的容器,目標本身會隨著施力而改變形狀與位置,機械手得一邊接觸、一邊預測物件怎麼動、再隨之調整,控制複雜度高出一截。DragMesh-2 正是針對這類「物理上要站得住、又要處理可活動關節」的靈巧手—物件互動問題提出方法。
把這條線拉遠看,它對應的是當前最熱的具身智慧與人形機器人浪潮。語言與視覺模型再強,最後要真的幫人做事,還是得靠一雙能可靠操作真實世界物件的手。會動的物件正是日常環境的大宗,廚房、桌面、櫃子裡到處都是,這種能力做不好,機器人就只能做表演,下不了實用的廚房。
對關注機器人與製造的台灣讀者,這類研究是一個值得長期追蹤的訊號:軟體模型熱鬧之外,真正卡住機器人落地的,往往是這些不起眼卻極難的物理操作問題。手做得好不好,決定機器人有沒有用。
歸剛點評|語言與視覺模型再強,機器人要真的幫人做事還是得靠一雙可靠的手。會動的物件是日常環境大宗,這種靈巧操作做不好,人形機器人就只能表演、下不了廚房。
開源
Simon Willison 的 Datasette 推出新外掛 datasette-apps,可把自包的 HTML+JavaScript 應用直接掛在 Datasette 裡。同日 datasette-acl 0.6a0 也把權限從只管資料表,擴展為更通用的資源分享系統。
知名開發者 Simon Willison 替他的開源資料探索工具 Datasette 推出新外掛 datasette-apps,重點是讓人能把自包式(self-contained)的 HTML 加 JavaScript 應用,直接掛在 Datasette 裡面跑。換句話說,原本拿來瀏覽與查詢資料的工具,現在可以在同一個地方承載互動式的小應用,把資料與介面綁在一起交付,省去另外架前端的麻煩。
同一天還有一個配套釋出:datasette-acl 0.6a0。這個外掛負責權限控管,這次的升級把它從只能管到資料表層級的權限,擴展成更通用的資源分享系統,讓多使用者的 Datasette 實例能更細緻地決定誰能存取什麼。兩者搭在一起,方向很清楚——讓 Datasette 從個人查資料的工具,往多人協作、能掛應用的平台長。
為什麼這對一般人也值得一提?因為它代表一種輕量的做法:不必架一整套後端與前端,靠一個開源工具加外掛,就能把資料變成可分享、有權限、還能互動的小服務。對預算有限、又想快速把內部資料工具化的團隊,這種低門檻路線相當實用,也是開源生態持續補洞的日常縮影。
對台灣的獨立開發者與小團隊,Datasette 這條線值得放進工具箱:把一份資料庫快速包成有介面、有權限的內部應用,是很多新創與工作室真實會遇到的需求。能用開源省下自建成本,就是省下時間。
歸剛點評|不必架整套前後端,用一個開源工具加外掛就能把資料變成有權限、能互動的小服務。對預算有限又想快速把資料工具化的小團隊,這種低門檻路線很實用。
開源
開源專案 headroom 登上 GitHub 趨勢榜。它在工具輸出、日誌、檔案與 RAG 片段進到模型之前先壓縮,宣稱可減少 60% 到 95% 的 token、答案品質不變,提供函式庫、代理與 MCP server 三種用法。
開源專案 headroom 近日登上 GitHub 趨勢榜,解決的是一個很多人有感的痛點:餵給大型模型的內容太肥、太燒 token。它的做法是在工具輸出、日誌、檔案與 RAG(檢索增強生成)片段這些東西進到模型之前,先做一輪壓縮,把冗餘資訊去掉,宣稱能減少 60% 到 95% 的 token,而答案品質維持不變。
理解它的價值,得先知道 token 就是錢與速度。呼叫商用模型 API 按 token 計費,輸入越長帳單越高;同時上下文越長,處理越慢、也越容易稀釋掉關鍵資訊。實務上,工具回傳的原始日誌、檢索回來的大段文件,往往塞滿重複與無關內容,headroom 等於在入口處幫你把這些水分擰乾,再交給模型。
它提供三種用法,覆蓋了不同接法:可以當函式庫直接嵌進程式、可以當代理(proxy)攔在中間自動處理,也可以當 MCP server 接進支援該協定的工具鏈。這種「一個能力、多種接法」的設計,讓人不必大改架構就能用上,是它能快速竄紅的原因之一。對正在被 API 帳單嚇到的開發者,這類省 token 工具的吸引力很直接。
呼應本站近期常談的成本焦慮,這條很對胃口:與其一味換更大的模型,不如先把餵進去的東西瘦身。把確定性的壓縮苦工交給工具,把昂貴的推理留給真正需要的部分,正是省錢又不掉品質的務實思路。
歸剛點評|token 就是錢與速度。與其換更大的模型,不如先把餵進去的內容瘦身。把壓縮這種確定性苦工交給工具、推理留給模型,是省成本又不掉品質的務實路線。
開源
Builder.io 釋出開源專案 agent-native,是一套用來打造「代理原生」應用的框架。隨著 AI 代理成為應用設計的核心,這類框架想替從一開始就以代理為主體的軟體提供基礎工具。
以網頁建構工具聞名的 Builder.io 釋出了一個開源框架 agent-native,目標是替「代理原生」(agent-native)的應用提供開發基礎。所謂代理原生,指的是從設計第一步就把 AI 代理當成應用的主角,而非在既有軟體上外掛一個聊天框。框架要做的,就是把這種以代理為核心的開發常見需求打包成可重用的工具。
這個方向呼應了應用形態正在發生的轉變。過去軟體以畫面與按鈕為中心,使用者點來點去;當 AI 代理能理解意圖、自己呼叫工具完成任務,應用的重心就從「人操作介面」往「人交代、代理執行」移動。為這種新形態量身打造的框架,等於替開發者鋪好骨架,少重造輪子。
用框架來承載新範式,是軟體史上反覆出現的劇本。網頁時代有前端框架、行動時代有 App 框架,每一波新的運算形態成熟,都會長出對應的開發框架來降低門檻、統一做法。agent-native 想搶的,就是代理應用這一棒的位置。能不能成為被廣泛採用的標準,要看社群買不買單、生態長不長得起來。
對台灣想做 AI 應用的開發者,這類框架值得保持關注:它反映出業界對「代理會是下一個應用主體」的共識正在變強。早一點熟悉代理原生的設計思路,會比等範式定型後才追趕來得從容。
歸剛點評|應用重心正從「人操作介面」往「人交代、代理執行」移動。每一波運算形態成熟都會長出對應框架,agent-native 想搶代理應用這一棒,反映業界對代理是下一個主體的共識變強。