歸剛誒AI 第16期｜2026-06-25：OpenAI 首顆自研晶片「Jalapeño」亮相：和博通聯手，專為推論而生

第 16 期2026-06-25（台北時間）

第十六期,今天 AI 的主旋律是『往下扎根、往省裡走』。OpenAI 端出第一顆自研推論晶片 Jalapeño,由博通代工,要把算力的成本與供應鏈主導權一起收回手裡;DeepMind 則把 computer use 下放到便宜快的 Gemini 3.5 Flash,讓跑代理的單位成本再降一階。但便宜的另一面是失控——同一天就有公司忙著阻止員工用瑣碎小任務把 AI 預算燒爆,進入 token 配給時代。人的這頭,新數據顯示工程師其實是 AI 浪潮裡最抗跌的職能,而 Google 的明星研究員還在接力出走 Anthropic。監管戰線上,巨頭為一個選區砸了 2700 萬美元打成平手,女議員則急著否認用 AI 代筆國防修正案。研究端,多篇論文替代理的『自我確認陷阱』與科研重現能力畫線,提醒自動化代理始終是需要被嚴格驗證的工程。

晶片與成本:OpenAI 首顆自研推論晶片 Jalapeño 由博通代工,DeepMind 把代理能力下放便宜的 Gemini 3.5 Flash——算力的瓶頸正被錢、晶片與便宜模型一起解開。
便宜的代價:能力越便宜越誘發無節制使用,公司開始為 AI 預算設限,進入『token 配給』;記憶體廠則因 AI 缺貨單季淨利暴衝到 282 億美元。
人與監管:新數據顯示工程師是 AI 浪潮最抗跌的職能,Google 明星研究員續流向 Anthropic;巨頭為單一選區砸 2700 萬美元代理戰打成平手,AI 監管全面政治化。
代理要被管:多篇論文替代理的『自我確認陷阱』、科研重現、OS 級權限與中文精神科問診立基準——能力下放的同時,可驗證與安全才是不能省的前提。

頭條

OpenAI 首顆自研晶片「Jalapeño」亮相：和博通聯手，專為推論而生

OpenAI 週三正式公布旗下第一顆自家設計的晶片，代號 Jalapeño，由半導體大廠博通負責打造。官方把它定位成一顆「智慧處理器」，是為了驅動現在與未來的大型語言模型而生。技術上它是一顆 ASIC，也就是專用積體電路，整顆晶片的設計目標只鎖定一件事：推論，也就是模型訓練完之後、實際回應使用者每一次提問的運算。

為什麼是推論、為什麼是現在，要從成本結構看。訓練一個模型是一次性的大筆投入，但推論是天天都在燒的水電費，使用者越多、呼叫越頻繁，這筆帳就越重。通用的繪圖晶片什麼都能做，代價是樣樣不夠省；專為推論訂做的晶片可以把不需要的功能砍掉、把記憶體頻寬和資料流排成最順的樣子，換到更低的每次回應成本。對一家把模型當水電在賣的公司，這條省下來的曲線直接關係到能不能賺錢。

更大的盤算是供應鏈的主導權。過去兩年算力的咽喉一直握在輝達手上，誰排得到貨、排到多少，幾乎決定了誰跑得快。OpenAI 自己出晶片設計、找博通代工，等於把一部分命脈收回手裡，也延續了科技巨頭一路往下整合硬體的老路。本站先前報過 Oracle、微軟相繼自建機房與晶片佈局，Jalapeño 是同一張棋盤上 OpenAI 自己落的子。

歸剛點評：自研晶片不是要立刻取代輝達，而是給自己多一條腿站。對台灣最該盯的是代工這一段——博通的訂單最後流向誰、先進封裝吃掉多少產能，牽動的是我們半導體上下游的真實生意，比一顆晶片叫什麼辣椒名字實在多了。

歸剛點評｜算力成本是 AI 生意的命門，OpenAI 自研推論晶片是想把每次回應的成本與供應鏈主導權同時抓回手裡，對全球半導體代工與台廠供應鏈都是直接訊號。

來源：OpenAI　·　TechCrunch　·　The Verge

基建

Gemini 3.5 Flash 學會「用電腦」：DeepMind 把代理操作下放到便宜快模型

DeepMind 把 computer use 能力帶進 Gemini 3.5 Flash，讓更輕、更快、更便宜的模型也能自己點按鈕、填表單、操作畫面，等於把代理自動化的單位成本往下壓了一階。

DeepMind 宣布把 computer use 能力帶進 Gemini 3.5 Flash。所謂 computer use，指的是讓模型像人一樣直接操作圖形介面：看畫面、移動游標、點按鈕、填欄位、在多個步驟之間自己決定下一步。過去這類能力多半綁在最大、最貴的旗艦模型上，這次放進 Flash 這條主打速度與低價的產品線，意義在於門檻被往下拉。

把代理能力放進便宜模型，動的是經濟帳。一個會自己操作網頁、跑完整套流程的代理，每一步都要呼叫一次模型，步驟一多，旗艦模型的帳單很快就嚇人。Flash 這種輕量模型反應快、單次便宜，特別適合那種「步驟很多、但每一步都不難」的瑣碎自動化，例如查資料、填表、跨系統搬資料。成本降一階，能被自動化的工作清單就長一截。

把這條發展接回本站近期的脈絡來看。前幾期談 Anthropic 把 Claude 塞進 Slack、OpenAI 自研推論晶片，方向都指向同一件事：當模型能力逐漸拉平，巨頭比的是誰能把「跑得起、用得起」的代理鋪到最多場景。把昂貴能力下放到便宜模型，正是擴大鋪設面的關鍵一步，也預告今年代理產品的競爭會從「能不能做」轉向「划不划算」。

歸剛點評：對中小團隊這是好消息，便宜模型也能跑代理，等於自動化的入場券降價。但便宜呼叫一多，帳單照樣會偷偷膨脹——本站同一期就有一條講公司在阻止員工燒爆 AI 預算，兩件事擺一起看特別有味道。

歸剛點評｜把代理操作能力下放到便宜快模型，會大幅降低自動化的單位成本，是今年代理產品從『能不能做』轉向『划不划算』的關鍵訊號。

來源：Google DeepMind

勞動

說好的 AI 殺工程師呢？新數據顯示工程職位反而最抗跌

在 AI 主導的裁員敘事裡，工程師看似首當其衝；但 SignalFire 的資料顯示，工程師其實在新進招聘中佔了更大的比重，是相對最抗跌的一群。

AI 會不會先把工程師飯碗端走，是這兩年最常被拿來嚇人的劇本。新創資料公司 SignalFire 的最新數據卻給了相反的畫面：工程師不但沒被掃掉，反而在新進招聘裡佔了更大的比重，是各類職能中相對最抗跌的一群。裁員新聞的標題很響，但實際的雇用流向，講的是另一個故事。

為什麼會這樣，得分清楚兩件事。AI 確實讓寫程式變快了，但「寫出程式碼」從來只是工程工作的一小塊；理解需求、設計架構、把 AI 產出的東西接起來、debug、為線上系統的穩定負責，這些才是真正花時間也最難被取代的部分。當每個工程師被 AI 放大產能，公司想做的事反而更多、能做的專案更廣，對能駕馭這套工具的人需求不減反增。

同一筆數據替前幾期的悲觀敘事補了另一面。本站近期報過 Oracle 大裁員、TechCrunch『因 AI 裁員』滾動清單越列越長，那是真實的一面；但雇用市場同時在重新洗牌，工程這種「離產品最近、最需要判斷」的職能，反而被推到更核心的位置。值得提醒的是,抗跌的是會用 AI 把產能放大的人,不是所有掛工程師頭銜的人。

歸剛點評：與其問 AI 會不會取代工程師，不如問你是不是那種「把 AI 當槓桿、產能翻倍」的工程師。數據站在會用工具的人這一邊，剩下的差距會越拉越大，這對台灣想轉職進科技業的人是很實際的方向。

歸剛點評｜裁員敘事與真實雇用流向出現背離，提醒大家用工具的能力正在重新定義工程職位的價值，對台灣科技人才的職涯選擇有直接參考。

來源：TechCrunch

人才

頂尖 AI 研究員持續出走 Google：Adler、Pritzel 接力投奔 Anthropic

頂尖 AI 研究員 Jonas Adler 與 Alexander Pritzel 離開 Google 加入 Anthropic，延續了 Noam Shazeer、John Jumper 等重量級科學家先後出走的人才外流。

Google 的 AI 人才又少了兩位重量級。頂尖研究員 Jonas Adler 與 Alexander Pritzel 確定離開 Google，轉投 Anthropic，延續了近年一連串高層科學家出走的趨勢。在他們之前，Transformer 論文作者之一 Noam Shazeer、以及拿下諾貝爾獎的 AlphaFold 核心人物 John Jumper 等人,也先後從 Google 體系流向別處。

人才為什麼往外走，原因通常不是單一的。頂尖研究者在意的，往往是手上的研究能不能直接變成有人用的產品、決策鏈夠不夠短、能拿到多少算力與自由度。大公司組織龐大、流程綿密，反而可能成為快速試錯的阻力；新銳實驗室給的股權想像空間與「我說了算」的舞台，對處在生涯巔峰的研究者特別有吸引力。

對 Google 來說，單一個人的離開不致命，可怕的是趨勢累積成的氣勢落差。AI 競賽說到底是人才的競賽，一個明星研究者帶走的不只是自己，還可能牽動一整個團隊的士氣與後續招募。Anthropic 這幾期在本站頻繁現身——Claude Tag、與 OpenAI 的政治代理戰、出資對抗呼吸道感染——一邊搶人一邊四處插旗，擴張的企圖心相當明顯。

歸剛點評：大公司留不住明星研究員，是這一輪 AI 戰爭最被低估的傷口。錢能給、算力能堆，但「我做的東西馬上有人用」這種成就感很難用薪資複製，這也是新創實驗室還搶得贏巨頭的底氣所在。

歸剛點評｜AI 競賽本質是人才競賽，明星研究員持續從 Google 流向 Anthropic 等新銳，反映大公司在留才上的結構性弱點,牽動整個產業的力量對比。

來源：TechCrunch

產業

記憶體荒讓晶片廠大爆賺：營收翻四倍到 414.5 億美元、淨利暴衝到 282 億

在 AI 帶動的記憶體晶片荒裡，一家美國記憶體大廠單季營收較去年同期翻四倍到 414.5 億美元，淨利從 18.8 億美元暴衝到 282 億美元。

AI 把記憶體晶片需求推上天，最直接的受益者賺得盆滿缽滿。據 TechCrunch，一家美國記憶體大廠最新一季的營收，較去年同期翻了四倍來到 414.5 億美元；淨利更從一年前的 18.8 億美元，暴衝到驚人的 282 億美元。短短一年之間，一家公司的賺錢能力像換了一台引擎。

這把火是怎麼燒起來的？AI 伺服器吃的高頻寬記憶體（HBM）是訓練與推論的必需品，產能卻沒辦法一夕長出來，供需嚴重失衡的結果就是價格飆漲、誰有貨誰就有定價權。記憶體產業本來以「景氣循環、賺一年賠一年」聞名，但 AI 這波需求把循環的波形整個拉高,讓原本的低谷變成現在的高原。

對台灣，這條數字不能只當別人家的好消息看。記憶體報價是全球連動的，HBM 缺貨會外溢到一般 DRAM 與消費性電子，從伺服器、手機到顯卡都可能跟著漲；同時也牽動台廠在封測、模組與相關供應鏈的接單。本站先前報過算力與機房的軍備競賽，記憶體爆賺正是同一場景氣的另一個切面。

歸剛點評：記憶體廠這種賺法，本質是 AI 軍備競賽的「賣鏟子」紅利——大家搶著挖金礦，賣鏟子的先發財。但這行最會玩心跳，今天的天價就是明天庫存的風險，賺到的人要記得這是循環，不是常態。

歸剛點評｜記憶體爆賺是 AI 算力軍備競賽外溢到硬體供應鏈的明確訊號，報價全球連動將影響台廠接單與消費性電子價格,值得持續追蹤循環反轉的時點。

來源：TechCrunch

趨勢

從 token 暴食到 token 配給：公司搶著阻止員工用小任務燒爆 AI 預算

短暫的『token 暴食』時代結束了，企業開始為 AI 用量設限——擔心員工把大量瑣碎小任務丟給 AI，悄悄把預算燒到爆表，進入 token 配給的新階段。

AI 工具導入企業後出現一個沒人預料到的問題：員工太愛用了。TechCrunch 形容，短暫的『token 暴食』時代正在結束，取而代之的是『token 配給』的新階段——公司紛紛跳出來想辦法，阻止員工把一堆雞毛蒜皮的小任務都丟給 AI，因為這些零碎呼叫累積起來，會把月底的帳單悄悄燒到嚇人。

問題出在計價方式與人性的碰撞。多數 AI 服務按 token（也就是處理的文字量）計費，單次看起來都很便宜，便宜到讓人完全沒有節制的意識。但當全公司每個人，整天為了改錯字、潤一句話、總結一封短信這種小事都呼叫一次，乘以人數再乘以天數，帳單就以等比級數膨脹。便宜的東西被無限次使用，最後一點都不便宜。

值得和本站同一期的另一條放在一起看：DeepMind 把代理能力下放到便宜的 Flash 模型。能力越便宜、越好用，越會誘發無節制的使用,帳單膨脹的速度反而可能更快。企業現在要學的，是怎麼設預算上限、怎麼把高價值任務和瑣事分流，把 AI 的錢花在刀口上,而不是被它的方便反過來吃掉利潤。

歸剛點評：這根本是吃到飽自助餐的老劇本——說好隨便拿，結果成本控管哭出來。對導入 AI 的台灣公司是個提醒：先想清楚計費與用量治理，別等帳單寄到才發現員工把 AI 當免費的用,省下來的人力成本全進了 token 帳裡。

歸剛點評｜AI 用量治理正成為企業導入後的真實痛點，按 token 計費加上無節制使用會讓成本失控,任何要導入 AI 的團隊都該提前設計用量與預算機制。

來源：TechCrunch

政策

2700 萬美元的 AI 代理戰打成平手：Bores 初選惜敗，Anthropic 對 OpenAI 沒贏家

Anthropic 與 OpenAI 之間一場花了 2700 萬美元的政治代理戰以平手收場——因被親 AI 超級政治行動委員會鎖定而聲量大漲的紐約州議員 Alex Bores，在民主黨初選中以些微差距落敗。

一場燒掉 2700 萬美元的政治代理戰，最後打成了平手。據 The Verge，紐約州議員 Alex Bores 在競選紐約第 12 國會選區民主黨初選時以些微差距落敗。耐人尋味的是，Bores 之所以全國知名，正是因為被一個親 AI 的超級政治行動委員會（super PAC）鎖定狙擊，反而讓他的聲量暴漲。

這場仗的背後，是 AI 兩大巨頭的路線之爭。Bores 曾推動對 AI 的監管立法，因此被偏向鬆綁的一方視為眼中釘、砸錢想把他擋下；而支持監管的一方則出錢相挺。兩股勢力在一個地方選區的初選裡對撞，把總開銷推到 2700 萬美元的天價，等於把一場關於『AI 該不該被管』的全國辯論，濃縮進一張選票裡打。

結果是平手——狙擊他的錢沒能把他直接打下去，他的高人氣也沒能護他過關。這個沒有贏家的結局，恰恰說明 AI 監管的政治戰線已經正式開打，而且雙方都願意為單一席次砸下重本。本站前幾期談過 Anthropic 可能因高調示警把自己講進出口管制，這次的選區代理戰,是同一條監管主線在選舉場上的延伸。

歸剛點評：當科技公司開始為一個地方議員席次砸 2700 萬美元，代表 AI 的戰場已經從機房打進投票所。對台灣的啟示是,AI 監管不會只是技術或法律問題,它正在變成燒錢的政治角力,而我們的相關立法討論也遲早要面對同樣的拉扯。

歸剛點評｜AI 巨頭為單一選區砸 2700 萬美元，標誌 AI 監管之爭已全面政治化、選舉化,預示各國 AI 立法都將面臨產業重金遊說的拉扯。

來源：The Verge

政策

女議員否認用 AI 寫國防修正案：強調只拿來「拼字檢查」

在一份重大國防法案的修正案摘要被指疑似 AI 代筆後，眾議員 Anna Paulina Luna 出面否認，稱幕僚只用 AI 做拼字檢查、法案本文絕非 AI 起草，並強調『沒有任何立法是用 AI 寫的』。

美國國會也碰上了 AI 代筆的尷尬。眾議員 Anna Paulina Luna 出面回應，承認幕僚在一份重大國防法案的修正案摘要裡用了 AI，但堅稱只是拿來做『拼字檢查』，法案本文絕對不是 AI 起草，並強調『沒有任何立法是用 AI 寫的』。她是在 X 上開始有帳號流傳該修正案摘要的截圖後，才發出這份澄清。

事情的引爆點，是那份摘要裡出現了疑似 AI 生成的痕跡，被眼尖的網友抓出來放大檢視。對一份攸關國防預算的正式立法文件,公眾的疑慮很直接：如果連法案說明都靠 AI 草擬,那些數字和條文究竟有沒有經過人好好把關？Luna 的回應把界線劃在『輔助潤稿』和『代為起草』之間,試圖把 AI 的角色限縮在無傷大雅的工具。

這件事的看點不在一位議員怎麼用 AI，而在公共文件正快速失去『預設由人撰寫』的信任。當任何一份政府文件都可能被懷疑是 AI 產出,舉證的壓力反而落到撰寫者身上,要證明『這真的是人寫的、人看過的』。本站長期追蹤的 AI 假內容與信任崩解問題,這次直接打進了立法現場。

歸剛點評：重點從來不是能不能用 AI 拼字，而是公眾還信不信任『官方文件是人認真寫的』。一旦這個預設崩了,每份文件都要自證清白,這種信任成本最後會全社會一起付,立法機關尤其賠不起。

歸剛點評｜當公共與立法文件普遍被懷疑為 AI 代筆,社會將失去『文件預設由人把關』的信任基礎,這種信任崩解的成本遠超單一事件本身。

來源：The Verge

醫療

Stripe、Anthropic、OpenAI 聯手出資：要對付那個沒人治得了的感冒

普通感冒人人都躲不掉、也無從預防。支付公司 Stripe（由 Collison 兄弟創辦）宣布將出資支持一項新計畫，Anthropic 與 OpenAI 也加入，目標是對抗呼吸道感染。

普通感冒大概是人類最熟悉卻最束手無策的病——人人都會中、一年還不只一次,目前能做的頂多是補維他命 C、離鼻塞的人遠一點。據 MIT Technology Review,由 Collison 兄弟（Patrick 與 John）創辦的支付公司 Stripe 宣布將出資支持一項新計畫,AI 巨頭 Anthropic 與 OpenAI 也一起加入,目標直指對抗呼吸道感染。

為什麼是這幾家科技公司來做這件事？這幾年 AI 在生物醫學上的進展,讓『用運算加速找解方』從口號變成可操作的路徑——從蛋白質結構預測到藥物分子設計,模型能把過去要熬好幾年的探索壓縮成幾個月。對手握資金與算力的科技公司來說,押注一個全人類共通、市場又巨大的健康難題,既有公益形象,也藏著實打實的商業想像。

把資金投向呼吸道感染這種看似平凡卻全球性的目標,呼應了本站先前報過的趨勢：AI 正從寫程式、做客服,延伸進嚴肅的科學研究現場,例如 GPT-5 Pro 協助免疫學家解開卡了三年的 T 細胞謎團。當運算能力被導向最難啃的生醫問題,AI 的故事就不再只關於生產力,而關乎人到底能不能活得更好。

歸剛點評：科技公司出錢治感冒,聽起來浪漫,但別忘了他們也在替自己的 AI 找最有說服力的應用場景。動機混著公益與商業沒關係,只要真能讓人少病一場,這筆錢就花得有意義——就怕雷聲大雨點小,變成另一個漂亮的新聞稿。

歸剛點評｜科技資金與 AI 算力正集體湧入嚴肅的生醫研究,代表 AI 的價值敘事從生產力延伸到人類健康,值得關注其能否真正轉化為成果而非公關。

來源：MIT Technology Review

基建

AI 的隱形地基：一個專為餵料而生的「網路資料基礎設施層」正在浮現

AI 應用日新月異，但企業要把潛力變現就需要大規模資料；偏偏多數有用的資訊被封鎖或雜亂無章。一個專門為 AI 取得、清理網路資料的基礎設施層正在成形。

AI 應用每天都在冒出新花樣,但要把這些潛力變成生意,企業需要的是大規模、能用的資料。問題在於,真正有價值的資訊往往被擋在登入牆後、藏在難以解析的格式裡,或散落成一團雜亂。據 MIT Technology Review,正因如此,一個專門替 AI 取得、結構化網路資料的『資料基礎設施層』正在悄悄成形。

要理解這個缺口,得回到網路最初的設計。當年的網頁是為人眼閱讀而生,不是為機器批量讀取而設計;頁面結構鬆散、各家格式不一、還佈滿反爬蟲機制。對需要乾淨、結構化、可大量取用資料的 AI 模型來說,公開網路像一座堆滿寶藏卻沒有目錄的倉庫,看得到、卻很難系統性地搬出來用。

於是一整層新的基礎設施應運而生:專門負責抓取、清洗、結構化、合規授權網路資料,把雜亂的原始網頁,變成模型能直接吃的高品質燃料。這呼應了本站同一期 OpenAI 自研推論晶片的脈絡——當算力的瓶頸逐漸被錢和晶片解開,下一個卡關的會是『資料』。誰能穩定供應乾淨資料,誰就握住 AI 的另一條咽喉。

歸剛點評：大家都盯著模型和晶片,但 AI 真正的瓶頸正悄悄轉到資料這一層。這也是本站自己天天在做的事——抓料、清理、結構化。對想切入 AI 的台灣團隊,與其硬拚模型,不如想想能不能在『餵料』這條供應鏈上卡個位置。

歸剛點評｜當算力瓶頸被資金與晶片解開,乾淨可用的資料供應將成為 AI 的下一個咽喉,資料基礎設施層的崛起是值得切入的新賽道。

來源：MIT Technology Review

資金

人形機器人新創 Agility Robotics 擬借殼 SPAC 上市，估值 25 億美元

2015 年從奧勒岡州立大學分拆出來的人形機器人新創 Agility Robotics，計畫透過 SPAC 借殼上市，交易估值 25 億美元，預期可募得 6.2 億美元資金。

人形機器人這把火燒進了資本市場。2015 年從奧勒岡州立大學分拆出來的新創 Agility Robotics 宣布,計畫透過 SPAC（特殊目的收購公司）借殼方式上市,整筆交易估值 25 億美元,預期可為公司募得約 6.2 億美元的資金。一家做雙足機器人的公司,要正式走進公開市場了。

選 SPAC 而非傳統 IPO,本身就透露訊息。SPAC 借殼通常更快、對尚未獲利但故事性強的成長型公司更友善,讓公司能在還在燒錢、商業模式未完全跑通的階段,就先拿到大筆資金加速擴張。人形機器人正是這種典型:技術想像巨大、量產與落地卻還在早期,需要源源不絕的銀彈撐過漫長的研發爬坡。

Agility 的明星產品是倉儲物流用的雙足機器人,主打在為人設計的環境裡搬運、走動。這條賽道近兩年被特斯拉、Figure 等玩家炒得火熱,資金與目光高度集中。本站先前也追過機器人與具身智慧的進展,Agility 上市等於把這個還在驗證商業模式的領域,提前推到財報與股價的公開檢驗台上。

歸剛點評：人形機器人募資的速度,已經跑在落地實用的前面。25 億美元估值買的是想像,不是現在的營收;對看戲的人來說,接下來要盯的是它能不能把『展示影片很帥』變成『工廠真的省到錢』,這一步跨不過去,故事再好也撐不久。

歸剛點評｜人形機器人新創借 SPAC 快速上市,反映資本對具身智慧的高度押注,但也把尚未驗證商業模式的賽道提前推上公開市場的檢驗台。

來源：TechCrunch

工具

Figma Config 大改版：AI 動態圖形、shader 工具與全端開發畫布登場

Figma 在年度 Config 大會公布多項更新，新增 code layer、動態圖形與 shader 支援，並讓使用者能用 AI 打造自訂外掛，把畫布重新打造成為全端開發優化的協作空間。

Figma 在年度 Config 大會端出一波重量級更新,核心是把設計工具往『會動、能跑程式』的方向推。新版加入了 code layer（程式碼圖層）、動態圖形與 shader 著色器支援,還讓使用者能用 AI 自己打造各種任務用的自訂外掛。官方說,這次把畫布重新設計成適合全端開發的樣子,要把團隊、AI 代理、工具與素材整合到同一個空間。

幾項更新指向同一個野心:讓設計與開發之間那道牆消失。傳統流程裡,設計師畫完稿、工程師再照著重做一遍,中間的落差與來回溝通是長年痛點。當 Figma 把 code layer、動態與互動效果直接做進設計檔,設計師產出的東西越來越接近能直接跑的成品,AI 代理還能在旁邊自動補上重複性的瑣事。

把 AI 織進設計工作流,呼應了本站近期的觀察:當模型能力外溢到各種專業軟體,工具廠商比的是誰能把 AI 最自然地嵌進既有流程,而不是另外開一個聊天視窗。Figma 選擇強化『畫布即開發環境』,既是守住設計師這群核心用戶,也是搶在設計與工程合流的趨勢前面卡位。

歸剛點評：Figma 想做的是把『設計稿』直接變成『半成品程式』,中間那層翻譯成本一旦被吃掉,受影響的是大量做切版的前端工作。對台灣的設計師與前端,這既是生產力升級,也是該想想自己的價值要往哪裡墊高的提醒。

歸剛點評｜設計與開發工具加速合流,AI 被織進既有專業軟體的工作流,將重新定義設計師與前端工程師的分工,值得相關從業者提早因應。

來源：The Verge　·　TechCrunch

產業

Facebook 推創作者專屬 AI 同伴 App，內建創作助理測試中

Facebook 推出一款專為創作者打造的 AI 同伴 App，目前正與部分創作者進行測試，內建先前發表的 Facebook AI 創作者助理。

Facebook 把 AI 創作工具獨立成一款 App。據 TechCrunch,這款新應用專為創作者打造,目前正與部分創作者小規模測試,內建了 Facebook 先前發表的 AI 創作者助理,定位是隨時陪在創作者身邊、幫忙發想與產出內容的 AI 同伴。

把功能從主程式拆成獨立 App,通常代表平台想認真經營某個族群。創作者是社群平台的內容引擎,他們發得越勤、品質越穩,平台的流量與廣告生意才轉得動。給創作者一個專屬的 AI 助手,降低他們發想標題、剪輯、寫文案的負擔,本質是用 AI 補貼創作的辛苦,把人留在自家生態裡持續生產。

這步棋要放進平台爭奪創作者的大戰來看。各家社群都在搶同一批內容生產者,而 AI 工具正成為新的綁定手段——用得越順手、越離不開,創作者就越難搬家。本站同一期也報了 Anthropic 把 Claude 塞進 Slack 吸收組織知識,手法異曲同工:把 AI 嵌進你每天的工作流,黏著度就是護城河。

歸剛點評：平台送創作者 AI 工具,看似貼心,實則是把人綁得更牢的甜頭。對台灣的內容創作者,工具好用就用,但別把命脈全壓在單一平台的 AI 上——哪天它改演算法或收費,你連帶被掐住的就不只是工具,而是整條生產線。

歸剛點評｜AI 創作工具正成為平台綁定創作者的新護城河,理解這層誘因有助於創作者評估對單一平台的依賴風險。

來源：TechCrunch

產業

印度 MoEngage 押注行銷未來是「百萬 AI 代理」，全現金收購補技術

印度行銷科技公司 MoEngage 以全現金交易完成收購，取得可為每位顧客指派專屬 AI 代理的技術，押注行銷的未來是數以百萬計的 AI 代理。

印度行銷科技公司 MoEngage 下了一個大注。據 TechCrunch,該公司以全現金方式完成一筆收購,藉此取得一項關鍵技術:能為每一位顧客指派一個專屬的 AI 代理。MoEngage 的賭注很明確——行銷的未來,是數以百萬計、各自服務單一顧客的 AI 代理。

這個構想要顛覆的,是傳統行銷的『分眾』邏輯。過去再精細的行銷,也只能把人分成一群一群,對每群推大致合適的訊息;而『一人一代理』設想的是把顆粒度細到個人,每個顧客都有一個 AI 隨時根據他的行為、偏好與當下情境,即時決定該推什麼、什麼時候推、用什麼語氣。分眾行銷就此被推到『分到不能再分』的極端。

要讓百萬個代理同時運轉,背後吃的是大量便宜的模型呼叫,這正好和本站同一期 DeepMind 把代理能力下放到便宜 Flash 模型的趨勢對得上。當單次代理運算夠便宜,『替每個人配一個 AI 業務』從成本上才算得過來。MoEngage 用全現金搶技術,等於賭這條路會成為行銷的新標配,先卡位的有先發優勢。

歸剛點評：一人一個 AI 業務員,聽起來是行銷人的夢、消費者的惡夢——被演算法摸透到每個衝動都被精準命中。對台灣的行銷與電商,這是值得偷看的方向,但也提醒大家:超個人化的另一面是隱私與『被操控感』,玩過頭會反噬品牌信任。

歸剛點評｜『一人一 AI 代理』把行銷個人化推到極致,結合便宜模型呼叫的趨勢可能成為新標配,但也帶來隱私與操控的爭議,值得行銷電商業者關注。

來源：TechCrunch

研究

NatureBench：編碼代理能重現 Nature 級論文的 SOTA 成績嗎？

NatureBench 是一個新基準，用來檢驗編碼代理能否重現 Nature 系列頂尖論文所發表的最佳成績（SOTA），把 AI 代理的科研能力放到最嚴格的標準下檢視。

AI 代理會寫程式、能跑實驗,那它能不能真的做出頂尖科學？一篇新研究提出 NatureBench 這個基準,專門用來檢驗編碼代理能否重現 Nature 系列頂尖論文裡所發表的最佳成績,也就是所謂的 SOTA（state-of-the-art）。等於把代理拉到科學界最高標準的擂台上,看它能不能打。

這個基準的設計很硬。重現一篇 Nature 級論文的結果,代理要讀懂複雜的方法、正確實作演算法、處理真實而雜亂的資料、跑出和原作者相當的數字——任何一環出錯,成績就達不到。和那些答案明確、容易評分的程式題不同,科研重現考的是端到端的綜合能力,也最接近『代理能不能取代研究員一部分工作』的真問題。

為代理的科研能力立一把嚴格的尺,呼應了本站持續追蹤的主線:當大家爭相宣稱 AI 能做科學,我們更需要可量化、可比較的證據,而不是漂亮的個案展示。本站前幾期報過 GPT-5 Pro 協助解開 T 細胞謎團的單一突破,NatureBench 補上的是系統性的衡量——讓『代理到底行不行』有客觀答案,而非靠新聞稿說了算。

歸剛點評｜當 AI 代理被宣稱能做科學,可量化的嚴格基準才能把炒作和真實能力分開,NatureBench 為評估代理的科研實力提供客觀標尺。

來源：Hugging Face Papers

研究

別讓代理自我感覺良好：用「執行—蒸餾—驗證」破解自我確認陷阱

一篇論文提出『執行—蒸餾—驗證』範式，要破解 AI 代理在累積經驗時容易陷入的自我確認陷阱——避免代理把自己的錯誤判斷當成正確經驗反覆強化。

AI 代理會從經驗中學習,但它有個危險的毛病:容易相信自己。一篇新論文點出所謂的『自我確認陷阱』——代理在累積經驗時,可能把自己當初的錯誤判斷,當成正確的經驗反覆強化,越錯越有自信,最後在錯誤的路上越走越遠。論文提出一套『執行—蒸餾—驗證』的範式來破解。

這套範式的精神,是逼代理的經驗接受外部現實的檢驗。先讓代理實際去執行任務(執行),把過程中真正有效的部分提煉出來(蒸餾),最關鍵的是再用獨立的方式去確認這些經驗到底對不對(驗證),而不是讓代理自己說自己學對了。多了驗證這一道關卡,錯誤的經驗才不會被悄悄寫進代理的長期記憶裡。

該研究替本站長期強調的觀點補上技術註腳:自動化代理仍是需要被嚴格檢視的工程,不能讓它在無人監督下自我循環。這也和我們工作守則裡那條鐵律相通——回報前一定要驗證『真的做到』,不能把『跑完沒報錯』當成成功。對任何要部署代理的人,這條提醒值千金:沒有外部驗證的自學,很可能是錯誤的自我複製。

歸剛點評｜自動化代理在無監督下自學容易把錯誤當經驗強化,『執行—蒸餾—驗證』替代理可靠性提供方法論,對任何部署代理的團隊都是核心提醒。

來源：Hugging Face Papers

研究

LingxiDiagBench：用多代理框架替中文精神科問診的 LLM 立基準

LingxiDiagBench 提出一個多代理框架，專門用來評測大型語言模型在中文精神科諮詢情境下的表現，補上中文心理健康場景缺乏標準化評測的空白。

在心理健康領域用 AI,華語世界一直缺一把好尺。一篇新論文提出 LingxiDiagBench,一個多代理框架,專門用來評測大型語言模型在中文精神科諮詢情境下的表現。它要解決的是一個現實缺口:過往的醫療 AI 評測多以英文與生理疾病為主,中文的精神科問診場景幾乎沒有標準化的衡量方式。

用『多代理』來做評測有它的道理。精神科問診不是一問一答,而是要在多輪對話裡循序辨識症狀、追問病史、判斷風險、給出方向。框架用不同代理分別扮演病人、醫師、評審等角色,模擬出接近真實的對話流程,再從專業性、安全性、同理等多個面向打分,比單看一句回答準確與否要全面得多。

替中文精神科 AI 立基準,意義超出學術。心理健康諮詢牽涉脆弱的人與高風險的判斷,模型一旦答錯方向,代價可能很沉重;沒有嚴謹的評測,就無從判斷哪些模型真的能安全上場。這也呼應本站一貫的態度:愈是進到醫療、心理這類高風險場景,愈需要可量化的把關,而不是讓模型在沒有標尺的情況下直接面對求助的人。

歸剛點評｜心理健康是高風險場景,中文精神科 AI 缺乏標準化評測等於沒有安全把關,LingxiDiagBench 補上這塊空白,對華語醫療 AI 的安全落地至關重要。

來源：Hugging Face Papers

研究

AOHP：一個開源的 OS 級代理框架，主打個人化、高效又安全

AOHP 是一個開源的作業系統層級代理框架，目標是讓 AI 代理在使用者的系統環境中進行個人化、有效率且安全的互動，為桌面端代理打底。

要讓 AI 代理真正幫你用電腦,光會點瀏覽器還不夠,得深入作業系統這一層。一篇新研究開源了 AOHP,一個 OS 級的代理框架,目標是讓代理在使用者自己的系統環境裡,進行個人化、有效率又安全的互動。它要打的底,是讓桌面端代理能穩定、可控地操作整台機器,而不只是某個網頁。

把代理放到作業系統層,好處與風險都被放大。好處是代理能跨應用工作——讀檔案、開程式、搬資料、串起多個工具,真正接近一個能幫你處理雜事的助手。風險則是它握有的權限太大,一旦失控或被誘導,可能誤刪檔案、外洩隱私甚至執行惡意操作,所以框架特別把『安全』與『個人化』並列為核心設計。

AOHP 選擇開源,呼應了本站同一期 DeepMind 把代理能力下放到便宜模型的脈絡:當底層框架公開、能力又變便宜,桌面代理的開發門檻會快速降低,更多團隊得以投入。但開源也意味著安全機制必須攤在陽光下被檢驗——這正好和『執行—蒸餾—驗證』那篇互相呼應:代理權限越大,可驗證、可控制就越是不能省的前提。

歸剛點評｜OS 級代理握有操作整台電腦的大權限,開源框架降低開發門檻的同時也讓安全設計受公開檢驗,是桌面代理走向實用前必須打好的地基。

來源：Hugging Face Papers

觀點

開源動態：datasette 1.0a35 推進，simonw 引 Tom MacWright 談工具的本份

獨立開發者 Simon Willison 推進 datasette 1.0a35 版本，同時引用 Tom MacWright 的一段話，延續他對開源資料工具與 AI 時代軟體本質的長期思考。

在巨頭砸晶片、搶人才的喧囂之外,獨立開發者 Simon Willison 仍在安靜地推進自己的開源工具。他發布了 datasette 1.0a35,讓這個用來探索與發布資料的開源工具,又往穩定的 1.0 正式版邁進一步;同時他引用了 Tom MacWright 的一段話,延續他對 AI 時代裡軟體該長成什麼樣子的長期思考。

datasette 這類工具的價值,正好和本站同一期談的『資料基礎設施層』對得上。它讓任何人都能把一份資料庫變成可瀏覽、可查詢、可分享的網站,把原本鎖在檔案裡的資料攤開給人和機器使用。在大家忙著餵料給大模型的當下,這種讓資料變得透明、可取用的小而美工具,反而是整個 AI 生態最樸實的地基。

Willison 長期以一個務實懷疑者的角度看 AI,既深度使用、也冷靜點出它的限制,他引用 MacWright 多半是借別人的話,提醒大家別被炒作沖昏頭。這種聲音在當前格外珍貴:當新聞被巨頭的天價交易和宏大敘事佔滿,願意把一個開源版本一點一點打磨好、並持續追問『工具到底為誰服務』的人,提供的是另一種清醒的參照。

歸剛點評｜在巨頭敘事之外,獨立開發者持續打磨開源資料工具並冷靜反思 AI,提供了被炒作淹沒時難得的務實參照,也呼應資料透明化的長期價值。

來源：Simon Willison

今日快訊