歸剛誒AI 第23期｜2026-07-02：Anthropic 正式推出 Claude Science：把大模型搬進藥廠實驗室，鎖定新藥研發

第 23 期2026-07-02（台北時間）

七月第二天，AI 的兩條主線同時拉滿。一條是大廠把戰場推進垂直科學——Anthropic 正式推出串接 60 多個資料庫的 Claude Science，直接把大模型搬進藥廠實驗室，Google 與 OpenAI 在同一賽道緊追。另一條是『規則與閘門』的角力全面浮上檯面：美方鬆綁出口管制讓 Fable 5 全球回歸、Anthropic 聯手三巨頭提越獄評分框架，Cloudflare 則畫下 9/15 大限逼 AI 為爬取內容付費。與此同時，Meta 想賣過剩算力、SpaceX 傳做 AI 手機、Venice AI 靠隱私路線成獨角獸，資金正從『拚模型』往『拚算力與能源』下沉。學界這頭，agent 的程序記憶、技能演化與多輪協作成了共同關鍵字。就在這一天，網際網路之父 Vint Cerf 退休——開放網路的世代交棒給一個到處重新豎閘門的 AI 時代。

產品

Anthropic 正式推出 Claude Science：把大模型搬進藥廠實驗室，鎖定新藥研發

在

月

日

正

式

把

推

上

檯

面

，

這

是

一

套

專

為

科

學

研

究

打

造

的

工

作

台

，

把

公

司

的

大

模

型

調

校

到

能

在

實

驗

室

、

尤

其

是

藥

廠

的

研

發

流

程

裡

直

接

用

。

過

去

研

究

員

要

在

幾

十

個

資

料

庫

、

各

種

檔

案

格

式

與

分

析

工

具

之

間

來

回

切

換

，

想

把

這

些

全

部

收

進

同

一

個

環

境

，

讓

人

從

查

文

獻

、

跑

分

析

到

寫

報

告

都

在

一

個

地

方

完

成

。

官

方

數

字

是

串

接

超

過

個

科

學

資

料

庫

，

並

預

載

基

因

體

學

、

蛋

白

質

結

構

分

析

與

化

學

三

大

領

域

的

工

具

箱

。

為

了

把

生

態

圈

養

起

來

，

在

階

段

開

了

補

助

計

畫

，

提

供

最

高

萬

美

元

的

使

用

額

度

與

專

案

經

費

，

早

期

重

點

壓

在

生

物

與

生

醫

研

究

。

申

請

窗

口

開

到

月

日

，

月

日

發

通

知

，

入

選

專

案

從

月

日

跑

到

月

日

。

這

套

打

法

很

清

楚

，

先

用

免

費

額

度

把

頂

尖

實

驗

室

綁

進

來

，

讓

他

們

的

研

發

工

作

流

長

在

上

，

之

後

就

很

難

換

掉

。

這

步

棋

的

時

間

點

也

不

是

巧

合

。

傳

出

正

在

準

備

，

把

觸

角

伸

進

毛

利

高

、

預

算

深

的

製

藥

產

業

，

等

於

在

企

業

營

收

之

外

多

開

一

條

科

學

研

發

的

財

源

。

同

一

個

賽

道

上

，

與

都

在

搶

，

四

月

才

推

過

鎖

定

生

物

推

理

的

。

對

台

灣

的

生

技

與

學

研

圈

來

說

，

這

代

表

未

來

跟

你

搶

計

畫

的

同

行

，

手

上

可

能

多

了

一

台

能

同

時

讀

六

十

個

資

料

庫

的

助

手

，

門

檻

抬

高

的

速

度

會

比

想

像

中

快

。

歸剛點評｜AI 大廠的戰線正式從『通用聊天』打進『垂直科學研發』。Anthropic 用免費額度綁住頂尖實驗室的工作流，是為 IPO 鋪高毛利營收；對台灣生技學研圈，這是同行武器升級的訊號，該開始想怎麼把這類工具接進自己的研究管線。

來源：MIT Technology Review　·　STAT News　·　pharmaphorum

政策

美方鬆綁出口管制，Anthropic 讓 Fable 5 全球回歸，並提議跨廠越獄評分框架

美國商務部撤下對 Anthropic Fable 5 與 Mythos 5 的出口管制，Fable 5 於 7 月 1 日在 Claude 全平台全球恢復。Anthropic 同時聯手 Amazon、微軟、Google 提出替越獄危害打分的產業框架。

月

日

那

道

命

令

，

要

求

對

任

何

外

國

籍

使

用

者

切

斷

與

更

受

控

的

，

範

圍

連

公

司

自

己

的

非

美

籍

員

工

都

算

在

內

。

因

為

沒

辦

法

即

時

查

證

每

個

人

的

國

籍

，

乾

脆

對

所

有

人

關

掉

這

兩

個

模

型

，

等

於

整

停

擺

了

兩

週

多

。

導

火

線

是

研

究

員

在

上

找

到

一

個

越

獄

手

法

，

能

讓

模

型

指

出

幾

個

軟

體

漏

洞

，

其

中

一

次

還

寫

出

示

範

如

何

利

用

漏

洞

的

程

式

碼

。

月

日

，

商

務

部

撤

下

管

制

，

在

月

日

於

、

與

全

球

恢

復

。

能

解

禁

，

靠

的

是

訓

了

一

個

新

的

安

全

分

類

器

，

專

門

盯

住

報

告

裡

那

個

攻

擊

技

術

，

官

方

說

攔

截

率

超

過

。

因

為

護

欄

較

少

，

被

綁

得

更

緊

，

月

日

先

開

放

給

約

一

百

家

防

衛

關

鍵

基

礎

設

施

的

美

國

企

業

與

聯

邦

機

構

。

更

值

得

看

的

是

後

續

制

度

化

的

動

作

。

找

上

、

微

軟

、

，

提

議

用

一

套

共

同

標

準

替

未

來

的

越

獄

事

件

打

分

，

從

能

力

增

益

、

影

響

廣

度

、

武

器

化

難

易

與

可

發

現

性

四

個

維

度

評

級

。

值

得

注

意

的

是

，

模

型

能

不

能

上

線

，

越

來

越

取

決

於

它

在

資

安

攻

擊

面

的

表

現

與

政

府

監

管

的

角

力

，

而

不

只

是

跑

分

高

低

。

對

台

灣

用

戶

來

說

，

短

期

最

實

際

的

影

響

是

又

能

用

了

；

長

期

則

要

習

慣

，

前

沿

模

型

的

可

用

性

會

被

地

緣

政

治

與

安

全

審

查

反

覆

牽

動

。

歸剛點評｜這件事把一個殘酷現實攤開：前沿模型的生死不在技術，而在監管紅線。Anthropic 從被迫全球斷線到主動提出評分框架，是想把規則制定權握在自己手上。台灣團隊選 API 時要把『政策風險』也列入評估，別把某個模型的可用性當理所當然。

來源：Anthropic　·　The Verge　·　Ars Technica　·　The Hacker News

產業

Cloudflare 出招逼 AI 付費：9/15 起，混用型爬蟲預設被擋在有廣告的頁面外

Cloudflare 給 AI 公司到 9 月 15 日的期限，把搜尋用爬蟲跟訓練／agent 用爬蟲分開，否則在許多刊物網站上被預設封鎖。Pay Per Crawl 進化成 Pay Per Use，讓內容方按價值收費。

丟

出

一

條

會

改

寫

網

路

內

容

經

濟

的

政

策

。

從

月

日

起

，

平

台

預

設

會

擋

住

那

些

把

搜

尋

、

訓

練

混

在

一

起

的

『

混

用

型

』

爬

蟲

，

讓

它

們

進

不

了

有

廣

告

的

頁

面

，

除

非

站

主

自

己

改

設

定

。

這

套

新

預

設

會

套

用

在

新

客

戶

、

既

有

客

戶

新

開

的

網

站

，

以

及

所

有

免

費

方

案

的

既

有

客

戶

身

上

。

傳

統

的

搜

尋

爬

蟲

照

樣

放

行

，

被

針

對

的

是

那

種

一

邊

假

裝

來

做

搜

尋

、

一

邊

把

內

容

抓

去

餵

模

型

的

行

為

。

配

套

的

收

費

機

制

也

升

級

了

。

原

本

的

演

進

成

，

收

費

邏

輯

從

『

你

抓

了

幾

次

』

改

成

『

你

的

內

容

替

創

造

了

多

少

價

值

』

。

對

每

一

隻

爬

蟲

，

發

行

商

可

以

三

選

一

：

免

費

放

行

、

按

次

收

費

、

或

直

接

封

鎖

，

自

己

當

收

款

方

（

）

並

提

供

底

層

技

術

。

這

給

了

刊

物

一

個

過

去

沒

有

的

籌

碼

，

把

流

量

被

白

嫖

的

困

境

變

成

一

張

可

以

談

判

的

牌

。

的

算

盤

是

逼

公

司

把

搜

尋

跟

訓

練

、

用

途

切

乾

淨

，

否

則

就

付

錢

。

這

件

事

牽

動

的

是

整

個

內

容

供

給

鏈

的

權

力

平

衡

—

過

去

公

司

免

費

爬

走

全

網

，

如

今

守

門

的

站

出

來

收

過

路

費

。

對

經

營

內

容

網

站

的

人

，

包

括

手

上

那

幾

個

日

報

與

資

料

站

，

這

是

一

個

要

開

始

盤

點

『

我

要

不

要

收

爬

蟲

的

錢

、

還

是

繼

續

開

放

換

曝

光

』

的

現

實

問

題

，

月

日

是

個

該

記

下

來

的

日

子

。

歸剛點評｜守在全網流量咽喉的 CDN 終於對 AI 白嫖出手，內容方第一次握有『收過路費』的實權。這會直接改變 AI 公司的訓練資料成本結構，也逼每個內容網站主做選擇。經營內容站的人現在就該想清楚 9/15 之後的立場。

來源：TechCrunch　·　Cloudflare Blog

模型

Gemma 4 上 Cerebras 衝到每秒 1800 token，讓即時語音 AI 真的能用

Hugging Face 與 Cerebras 把 Google DeepMind 的 Gemma 4 帶進即時語音場景。Gemma 4 31B 在 Cerebras 上跑超過每秒 1800 token、首字延遲 1.5 秒，多模態含音訊，Apache 2 授權。

的

開

源

多

模

態

模

型

這

次

跟

合

作

，

把

速

度

推

到

能

做

即

時

語

音

的

等

級

。

是

一

整

個

家

族

，

有

、

與

（

）

等

尺

寸

，

走

授

權

可

商

用

，

音

訊

能

力

落

在

、

與

上

，

能

做

語

音

辨

識

、

講

者

分

離

、

影

片

理

解

與

推

理

。

開

源

加

上

多

模

態

，

本

來

就

是

想

讓

開

發

者

把

語

音

助

理

這

類

應

用

自

己

長

出

來

。

真

正

的

關

鍵

是

速

度

。

跑

在

上

超

過

每

秒

，

官

方

稱

是

全

世

界

最

快

的

多

模

態

模

型

；

更

重

要

的

是

首

個

回

應

只

要

秒

就

吐

出

來

。

語

音

互

動

最

怕

延

遲

，

人

一

開

口

、

等

超

過

一

兩

秒

才

回

話

就

崩

了

，

說

自

己

是

唯

一

能

讓

用

在

即

時

場

景

的

供

應

商

，

賣

的

正

是

這

個

『

夠

快

到

不

尷

尬

』

的

體

感

。

月

日

起

，

已

在

公

開

預

覽

。

把

開

源

多

模

態

模

型

跟

專

用

推

理

硬

體

綁

在

一

起

，

等

於

給

想

做

即

時

語

音

的

團

隊

一

條

不

必

自

己

養

旗

艦

閉

源

模

型

的

路

。

對

台

灣

的

應

用

開

發

者

，

這

意

味

著

做

客

服

語

音

、

即

時

口

譯

、

語

音

的

技

術

門

檻

正

在

下

降

，

授

權

也

讓

商

用

少

了

法

務

顧

慮

。

真

正

要

盤

算

的

是

成

本

與

延

遲

的

甜

蜜

點

落

在

哪

裡

，

以

及

本

機

小

模

型

（

例

如

上

的

）

跟

這

種

高

速

雲

端

推

理

該

怎

麼

分

工

。

歸剛點評｜即時語音 AI 卡了很久的『延遲』問題被硬體端解掉了一大半。開源多模態＋每秒 1800 token 的組合，把語音助理、即時口譯這類應用的門檻拉低。想做語音產品的台灣團隊，現在有了不必自建旗艦模型的可行路徑。

來源：Hugging Face　·　Cerebras　·　Hugging Face Blog

資金

隱私優先的 Venice AI 成獨角獸：6500 萬美元 A 輪、估值 10 億，年化營收破 7000 萬

主打不記錄對話的 Venice AI 完成 6500 萬美元 A 輪、估值 10 億美元，這是它首次對外募資。公司已獲利，年化營收超過 7000 萬美元，逾 300 萬用戶、每月處理 1.3 兆 token。

由

加

密

老

將

創

立

的

完

成

萬

美

元

輪

，

估

值

一

舉

站

上

億

美

元

、

正

式

成

為

獨

角

獸

，

而

這

竟

是

它

第

一

次

對

外

募

資

。

更

少

見

的

是

，

公

司

在

拿

錢

之

前

就

已

經

賺

錢

—

年

化

營

收

超

過

萬

美

元

，

早

在

年

第

一

季

就

轉

為

獲

利

。

這

輪

由

專

注

加

密

的

創

投

領

投

，

、

等

跟

進

。

的

賣

點

是

隱

私

。

它

宣

稱

不

記

錄

、

不

儲

存

使

用

者

的

提

問

與

回

應

，

對

話

留

在

使

用

者

自

己

的

裝

置

上

，

同

時

把

競

品

內

建

的

許

多

內

容

過

濾

拿

掉

，

給

的

是

一

個

更

少

審

查

、

更

保

護

隱

私

的

環

境

。

這

套

定

位

替

它

圈

出

一

群

特

定

用

戶

：

平

台

已

有

超

過

萬

活

躍

使

用

者

，

每

月

處

理

兆

、

每

天

超

過

萬

次

呼

叫

。

有

趣

的

是

，

雖

然

創

辦

人

出

身

加

密

圈

，

真

正

用

加

密

貨

幣

付

款

的

用

戶

只

佔

約

。

這

個

案

子

值

得

看

，

因

為

它

證

明

了

『

隱

私

優

先

』

在

生

成

式

裡

撐

得

起

一

門

生

意

，

能

養

出

獨

角

獸

的

商

業

模

式

。

當

主

流

工

具

愈

來

愈

往

企

業

合

規

、

內

容

審

查

靠

攏

，

市

場

另

一

端

就

冒

出

對

『

我

的

對

話

不

要

被

存

下

來

』

有

強

烈

需

求

的

一

群

人

。

對

台

灣

的

產

品

人

，

這

是

一

個

提

醒

：

差

異

化

不

一

定

要

拚

模

型

多

強

，

把

某

個

被

主

流

忽

略

的

價

值

（

隱

私

、

無

審

查

、

資

料

自

主

）

做

到

極

致

，

一

樣

能

長

成

生

意

。

歸剛點評｜『隱私優先』被證明是能賺錢、還能養成獨角獸的路線，而不是空口號。募資前就獲利、年化營收 7000 萬，含金量很高。給台灣產品人的啟示是：差異化未必要拚模型強度，把主流忽略的價值做到極致同樣能成事。

來源：TechCrunch　·　GeekWire

產業

Meta 也想把過剩 AI 算力變現，傳籌建雲端業務叫板 AWS、Google Cloud

據報 Meta 正籌建雲端業務，把過剩的 AI 運算能力賣給外部客戶。內部代號 Meta Compute，考慮兩條路：直接賣裸算力，或讓開發者存取託管在 Meta 基礎設施上的 AI 模型。消息傳出股價一度漲 9%。

據

報

導

，

正

在

籌

建

一

門

雲

端

生

意

，

把

手

上

過

剩

的

運

算

能

力

賣

給

外

部

客

戶

。

這

件

事

被

歸

在

內

部

代

號

的

計

畫

底

下

，

由

基

礎

設

施

主

管

、

超

智

能

實

驗

室

的

與

總

裁

帶

頭

，

目

前

還

在

發

展

中

。

消

息

一

出

，

股

價

一

度

漲

了

約

，

市

場

顯

然

買

單

。

檯

面

上

有

兩

條

路

線

在

討

論

。

一

是

像

那

種

公

司

，

直

接

賣

裸

運

算

能

力

；

二

是

讓

開

發

者

存

取

託

管

在

基

礎

設

施

上

的

模

型

，

模

式

類

似

的

，

由

顧

資

料

中

心

、

按

存

取

量

收

費

。

祖

克

柏

在

五

月

的

股

東

會

上

就

說

過

，

進

軍

雲

端

運

算

『

絕

對

在

考

慮

之

列

』

，

還

提

到

幾

乎

每

週

都

有

公

司

來

敲

門

，

想

買

的

模

型

存

取

權

或

多

餘

算

力

。

轉

向

的

背

後

，

是

整

個

產

業

對

過

度

投

資

的

焦

慮

。

各

家

砸

下

天

文

數

字

蓋

資

料

中

心

、

囤

晶

片

，

接

下

來

就

得

想

辦

法

讓

這

些

昂

貴

資

產

有

回

報

。

跟

前

一

天

傳

出

類

似

打

算

的

一

樣

，

都

在

把

『

自

用

剩

下

的

算

力

』

變

成

現

金

流

。

對

台

灣

看

雲

端

與

基

礎

設

施

的

人

，

這

代

表

算

力

供

給

端

的

玩

家

愈

來

愈

多

、

競

爭

會

更

激

烈

，

中

小

團

隊

未

來

租

的

選

擇

與

議

價

空

間

可

能

因

此

變

大

，

值

得

持

續

盯

著

價

格

走

勢

。

歸剛點評｜當蓋資料中心的錢多到還不完，巨頭就開始把自用剩下的算力拿出來賣。Meta 下場等於雲端市場又多一個重量級供給者，長期對租 GPU 的中小團隊是利多——選擇變多、議價空間變大。這是 AI 投資週期進入『要回本』階段的明確訊號。

來源：TechCrunch　·　CNBC

產品

Google 的 agent 助理 Gemini Spark 登陸 Mac，能整理 Downloads、操作 Workspace

Google 把 24/7 的 agent 助理 Gemini Spark 帶到 Mac（beta），限美國 Google AI Ultra 訂戶。能把 Downloads 裡的 PDF 分類歸檔、操作 Workspace、用本機檔案建試算表，並整合 Canva、Dropbox、Zillow 等第三方 app。

把

它

的

助

理

搬

上

了

，

這

一

版

加

進

既

有

的

桌

面

，

目

前

是

，

只

開

放

給

美

國

的

訂

戶

。

跟

一

般

聊

天

助

理

不

同

，

主

打

的

是

真

的

動

手

做

事

：

在

上

你

可

以

叫

它

把

資

料

夾

裡

的

依

規

則

分

門

別

類

歸

檔

，

也

能

操

作

、

用

你

電

腦

裡

的

檔

案

生

成

試

算

表

，

並

即

時

追

蹤

你

關

心

的

主

題

。

這

次

也

擴

大

了

第

三

方

整

合

，

接

上

、

與

等

服

務

，

等

於

把

的

手

伸

進

更

多

日

常

應

用

。

還

預

告

『

很

快

』

能

在

手

機

上

指

派

多

步

驟

任

務

給

，

例

如

用

手

機

遠

端

叫

桌

面

去

上

撈

某

個

檔

案

的

資

料

；

至

於

在

展

示

過

的

語

音

互

動

，

這

次

還

沒

一

起

到

。

把

從

『

回

答

問

題

』

推

進

到

『

替

你

操

作

電

腦

與

跨

辦

事

』

，

是

今

年

各

家

的

主

戰

場

，

而

能

整

理

、

跨

執

行

任

務

這

件

事

，

也

讓

信

任

與

安

全

的

份

量

跟

著

加

重

—

你

等

於

把

檔

案

系

統

與

帳

號

權

限

交

給

一

個

會

自

己

動

手

的

助

理

。

對

這

種

在

上

重

度

用

跑

工

作

流

的

人

，

這

類

桌

面

值

得

實

測

：

它

能

接

手

的

瑣

事

（

分

類

檔

案

、

整

理

下

載

、

生

報

表

）

，

正

好

是

每

天

吃

掉

時

間

、

又

不

需

要

高

階

判

斷

的

苦

力

活

。

歸剛點評｜桌面 agent 正從『會聊天』走向『會替你操作電腦』，這正是 Max 工作流裡想外包的那類確定性苦力（整理下載、分類檔案、生報表）。值得實測能接手多少；同時也提醒，把檔案與帳號權限交給會自己動手的 agent，安全邊界要先想清楚。

來源：TechCrunch　·　Engadget

硬體

SpaceX 傳有 AI 裝置原型，外形『很像手機』，疑為進軍無線通訊鋪路

據報 SpaceX 在上市前向投資人展示一款『類似手機』的 AI 裝置原型。搭配它把過剩算力變現的動作，被解讀為想把觸角伸進無線通訊市場的又一個訊號。

據

報

導

，

在

準

備

上

市

之

前

，

向

投

資

人

秀

出

一

款

外

形

『

很

像

手

機

』

的

裝

置

原

型

。

細

節

目

前

不

多

，

但

這

個

動

作

被

外

界

讀

成

一

個

訊

號

：

想

把

版

圖

從

火

箭

與

衛

星

，

往

消

費

端

的

無

線

通

訊

市

場

延

伸

。

它

旗

下

的

已

經

在

做

衛

星

直

連

手

機

的

服

務

，

一

台

自

家

的

手

機

形

裝

置

，

剛

好

能

把

『

衛

星

網

路

＋

終

端

裝

置

』

串

成

一

條

龍

。

把

這

件

事

跟

同

期

另

一

則

消

息

擺

在

一

起

看

更

有

意

思

—

也

被

傳

在

盤

算

把

過

剩

的

運

算

能

力

拿

出

來

變

現

，

跟

的

雲

端

算

盤

如

出

一

轍

。

一

邊

是

賣

算

力

、

一

邊

是

做

終

端

硬

體

，

都

指

向

同

一

件

事

：

這

家

公

司

想

從

單

純

的

太

空

基

礎

設

施

，

長

成

一

個

橫

跨

網

路

、

算

力

與

消

費

裝

置

的

綜

合

體

。

當

然

，

原

型

不

等

於

產

品

，

投

資

人

簡

報

上

的

東

西

最

後

量

不

量

產

、

長

什

麼

樣

，

都

還

有

很

大

變

數

。

對

台

灣

的

硬

體

與

供

應

鏈

圈

，

這

類

消

息

的

價

值

不

在

『

要

出

手

機

了

』

這

種

標

題

，

而

在

它

透

露

的

方

向

：

衛

星

直

連

、

終

端

、

算

力

服

務

正

在

被

同

一

批

玩

家

整

合

。

真

要

落

地

，

背

後

的

通

訊

晶

片

、

天

線

、

電

源

與

代

工

需

求

，

很

可

能

又

會

繞

回

台

灣

供

應

鏈

。

現

階

段

當

成

一

個

值

得

追

蹤

的

早

期

訊

號

就

好

，

別

急

著

下

結

論

。

歸剛點評｜火箭公司想做手機，背後是『衛星網路＋AI 終端＋算力服務』被同一批玩家整合的大方向。真要量產，通訊晶片、天線、代工需求多半會繞回台灣供應鏈。原型不等於產品，現在當早期訊號追蹤，別被標題帶著跑。

來源：TechCrunch

資金

自駕新星 Wayve 開 8500 萬美元員工老股收購，估值站上 85 億

自駕公司 Wayve 推出 8500 萬美元的員工股權出售（tender offer），估值達 85 億美元。用員工老股收購當留才與攬才工具，正成為 AI 新創的一股趨勢。

英

國

自

駕

新

創

開

出

一

輪

萬

美

元

的

員

工

老

股

收

購

（

）

，

讓

員

工

有

機

會

把

手

上

持

股

變

現

，

公

司

估

值

也

在

這

一

輪

站

上

億

美

元

。

這

不

是

傳

統

的

對

外

融

資

去

燒

錢

，

而

是

給

早

期

員

工

一

個

落

袋

的

出

口

。

對

一

家

還

沒

上

市

、

股

票

變

不

了

現

的

高

成

長

公

司

來

說

，

這

是

很

實

在

的

一

種

安

撫

人

心

。

用

員

工

老

股

收

購

當

工

具

，

正

在

新

創

圈

變

成

一

股

趨

勢

。

這

幾

年

頂

尖

人

才

被

各

家

搶

到

見

骨

，

光

靠

紙

上

財

富

很

難

把

人

留

住

—

工

程

師

看

得

到

估

值

飆

高

，

卻

拿

不

到

現

金

。

一

輪

讓

員

工

能

賣

掉

部

分

持

股

、

把

帳

面

數

字

換

成

真

金

白

銀

，

等

於

在

不

逼

公

司

上

市

的

前

提

下

，

同

時

達

成

留

才

與

攬

才

兩

個

目

的

。

對

想

挖

角

的

競

爭

對

手

，

這

也

是

一

道

防

線

。

這

個

現

象

值

得

台

灣

的

新

創

與

投

資

圈

注

意

。

它

反

映

的

是

人

才

市

場

已

經

熱

到

，

公

司

得

主

動

設

計

『

中

途

變

現

』

機

制

才

留

得

住

人

，

而

不

是

叫

大

家

苦

等

。

台

灣

新

創

過

去

在

員

工

股

權

的

流

動

性

上

普

遍

偏

弱

，

隨

著

帶

動

的

人

才

競

爭

外

溢

，

怎

麼

設

計

出

既

留

才

又

不

失

血

的

股

權

方

案

，

會

愈

來

愈

是

個

現

實

課

題

。

這

一

步

，

可

以

當

成

一

個

具

體

範

本

來

研

究

。

歸剛點評｜AI 人才貴到公司得主動造『中途變現』出口才留得住人，苦等 IPO 已經不夠看。這是 AI 人才市場過熱的溫度計。台灣新創在員工股權流動性上一向偏弱，這道題遲早要面對，Wayve 提供了可研究的範本。

來源：TechCrunch

資金

Ashton Kutcher 離開 Sound Ventures，攜 Morgan Beller 另創新基金押 AI 底層

演員兼投資人 Ashton Kutcher 離開一手打造的 Sound Ventures，與 Morgan Beller 合創新創投。Sound 過去以重壓頂尖 AI 實驗室聞名，新基金看來要押的是這些公司底下的基礎設施與能源層。

演

員

出

身

的

投

資

人

要

離

開

他

一

手

打

造

的

，

和

合

開

一

支

新

的

創

投

基

金

。

這

些

年

靠

的

是

集

中

、

高

信

念

的

打

法

，

重

壓

少

數

幾

家

領

頭

的

實

驗

室

而

打

出

名

號

。

這

次

跳

出

來

另

起

爐

灶

，

路

線

看

起

來

換

了

一

層

：

新

基

金

要

追

的

不

是

那

些

站

在

檯

面

上

的

模

型

公

司

，

而

是

它

們

底

下

那

一

層

—

支

撐

這

一

切

運

轉

的

基

礎

設

施

與

能

源

。

往

下

游

走

本

身

就

是

一

個

判

斷

。

當

第

一

波

資

金

都

湧

向

做

模

型

、

做

應

用

的

明

星

公

司

，

估

值

被

推

到

很

高

，

聰

明

錢

開

始

往

產

業

鏈

更

下

游

走

，

去

找

那

些

賣

鏟

子

的

人

：

算

力

、

資

料

中

心

、

電

力

供

應

。

這

幾

年

的

瓶

頸

愈

來

愈

不

是

演

算

法

，

而

是

電

夠

不

夠

、

機

房

蓋

不

蓋

得

出

來

。

押

基

礎

設

施

與

能

源

，

賭

的

就

是

不

管

哪

家

模

型

公

司

最

後

勝

出

，

這

些

底

層

需

求

都

少

不

了

。

對

看

創

投

趨

勢

的

人

，

這

是

一

條

清

楚

的

訊

號

：

投

資

的

焦

點

正

在

從

『

誰

的

模

型

最

強

』

往

『

誰

供

得

起

算

力

與

電

力

』

移

動

。

過

去

在

區

塊

鏈

與

新

型

金

融

基

礎

設

施

上

的

經

歷

，

也

讓

這

支

新

基

金

的

視

角

多

了

一

層

。

對

台

灣

的

投

資

與

產

業

圈

，

值

得

順

著

這

條

線

去

想

—

在

這

波

往

基

礎

設

施

下

沉

的

資

金

裡

，

台

灣

在

半

導

體

、

散

熱

、

電

源

與

代

工

的

既

有

優

勢

，

能

不

能

接

得

住

這

股

需

求

。

歸剛點評｜聰明錢開始從『模型明星公司』往下游的算力、資料中心、電力移動，賭的是不管誰勝出、底層需求都少不了。這條『賣鏟子』的投資線，正好對上台灣在半導體、散熱、電源的既有優勢，值得產業圈順著想接單機會。

來源：TechCrunch

研究

問 AI『1 到 10 挑個數字』幾乎都回 7？新創想把模型從群體思考裡拉出來

多數大模型面對開放式問題會收斂到高度雷同的答案，問『1 到 10 選一個數』幾乎都回 7。澳洲新創 Springboards 用一款叫 Flint 的模型訓練出更多樣的回應，試圖解決『AI 群體思考』的老問題。

開

一

個

聊

天

機

器

人

，

不

管

是

、

還

是

，

打

上

『

給

我

一

個

到

的

隨

機

數

』

，

你

多

半

會

拿

到

；

再

要

一

個

，

通

常

是

或

；

再

要

，

就

變

或

。

這

個

小

遊

戲

揭

穿

了

一

件

事

：

多

數

大

模

型

面

對

開

放

式

問

題

時

，

比

你

想

的

更

可

預

測

、

也

更

不

有

創

意

。

把

這

叫

『

群

體

思

考

』

—

不

只

單

一

模

型

自

己

重

複

，

連

不

同

公

司

的

模

型

都

會

不

約

而

同

收

斂

到

很

像

的

答

案

。

去

年

月

一

篇

名

為

《

》

的

論

文

把

這

個

現

象

攤

開

來

測

，

發

現

在

開

放

式

提

問

下

的

同

質

化

程

度

高

得

驚

人

。

研

究

者

推

測

原

因

是

，

現

在

的

模

型

大

多

用

相

似

的

資

料

、

相

似

的

方

法

、

去

訓

練

做

相

似

的

任

務

，

結

果

就

是

大

家

都

往

同

一

個

平

均

值

靠

。

這

對

需

要

靠

發

想

、

探

索

、

找

不

一

樣

角

度

的

場

景

，

是

個

實

在

的

限

制

。

澳

洲

新

創

端

出

解

方

，

一

款

叫

的

模

型

，

專

門

被

訓

練

成

對

開

放

式

問

題

給

出

比

主

流

模

型

更

多

樣

的

回

應

。

值

得

玩

味

的

是

，

它

點

出

一

個

容

易

被

忽

略

的

品

質

維

度

：

我

們

評

模

型

時

老

在

比

誰

答

得

更

準

、

更

對

，

卻

很

少

問

誰

答

得

更

不

一

樣

。

對

用

做

內

容

、

做

腦

力

激

盪

、

做

創

意

發

想

的

人

（

包

括

這

種

靠

產

出

大

量

文

章

與

點

子

的

）

，

這

是

個

提

醒

—

當

你

發

現

產

出

愈

來

愈

千

篇

一

律

，

問

題

可

能

不

在

你

的

提

示

詞

，

而

在

模

型

骨

子

裡

的

收

斂

傾

向

，

適

時

換

模

型

或

刻

意

加

大

隨

機

性

會

有

幫

助

。

歸剛點評｜『AI 產出愈來愈像』不一定是你提示詞的錯，而是模型骨子裡就會往平均值收斂。對靠 AI 大量產內容、發想點子的人是實用提醒：評模型別只比誰更準，也要看誰更不一樣；產出變千篇一律時，換模型或加大隨機性會有效。

來源：MIT Technology Review

人物

『網際網路之父』Vint Cerf 退休，卸下 Google 首席網路傳道者

共同設計網際網路底層協定的 Vint Cerf，將於下週卸下 Google 首席網路傳道者一職、正式退休。他與 Bob Kahn 共同發明的 TCP/IP，是今天整個網路運轉的基礎。

被

稱

為

『

網

際

網

路

之

父

』

之

一

的

，

將

在

下

週

卸

下

首

席

網

路

傳

道

者

（

）

的

職

務

、

正

式

退

休

。

他

和

共

同

設

計

的

協

定

，

是

今

天

全

世

界

網

路

能

互

通

的

底

層

地

基

—

你

現

在

讀

這

則

新

聞

、

每

一

個

封

包

能

從

一

台

機

器

送

到

另

一

台

，

靠

的

就

是

他

們

半

世

紀

前

打

下

的

規

則

。

在

掛

著

『

傳

道

者

』

這

個

少

見

的

頭

銜

多

年

，

四

處

為

開

放

網

路

、

數

位

近

用

與

網

路

治

理

發

聲

。

他

的

退

休

象

徵

著

網

路

草

創

世

代

的

一

次

交

棒

—

那

批

親

手

把

網

路

從

實

驗

室

協

定

變

成

全

球

基

礎

設

施

的

人

，

正

逐

漸

退

到

幕

後

。

而

接

棒

的

時

代

，

主

旋

律

已

經

換

成

：

從

搜

尋

、

瀏

覽

器

到

，

網

路

的

樣

貌

正

被

生

成

式

重

新

改

寫

。

把

退

休

放

在

今

天

這

一

整

版

新

聞

裡

看

，

格

外

有

味

道

。

當

年

他

們

設

計

協

定

時

信

奉

的

是

開

放

、

互

通

、

去

中

心

，

讓

任

何

人

都

能

接

上

網

路

；

如

今

時

代

卻

在

為

『

內

容

要

不

要

付

費

才

給

爬

』

（

見

今

天

的

政

策

）

、

『

模

型

能

不

能

出

口

』

（

見

事

件

）

這

類

問

題

爭

執

不

休

。

老

一

輩

打

造

的

是

一

個

盡

量

沒

有

守

門

人

的

網

路

，

新

一

輩

正

在

重

新

豎

起

各

種

閘

門

。

這

一

頁

交

接

，

值

得

記

上

一

筆

。

歸剛點評｜打造開放網路的世代正在交棒，接手的是一個到處重新豎閘門的 AI 時代——內容要付費才給爬、模型要審查才能出口。把 Cerf 退休跟今天的 Cloudflare、Fable 5 新聞並讀，正好照見網路精神的世代轉折，值得記一筆。

來源：TechCrunch

產品

Google 做出好硬體，但 Gemini 還撐不起這台智慧音箱

The Verge 評測 Google 新智慧音箱：硬體做得不錯，但搭載的 Gemini 還沒準備好。智慧音箱多年來苦尋『音樂、計時、控燈之外』的第二幕，AI 本被寄望改寫，實測卻仍差一截。

對

新

款

智

慧

音

箱

的

結

論

很

直

白

：

硬

體

做

得

漂

亮

，

但

塞

進

去

的

還

沒

到

能

撐

起

這

台

機

器

的

程

度

。

智

慧

音

箱

這

幾

年

一

直

在

找

自

己

的

第

二

幕

—

除

了

放

音

樂

、

設

計

時

器

、

開

關

燈

之

外

，

它

到

底

還

能

幹

嘛

，

始

終

沒

有

好

答

案

。

本

來

被

寄

予

厚

望

要

改

寫

這

件

事

，

去

年

秋

天

就

先

用

翻

新

的

推

了

新

硬

體

。

問

題

出

在

期

待

與

現

實

的

落

差

。

把

一

個

強

大

的

語

言

模

型

接

進

音

箱

，

理

論

上

該

讓

它

從

『

只

會

執

行

固

定

指

令

』

升

級

成

『

能

真

正

對

話

、

幫

你

辦

事

』

；

但

實

測

下

來

，

在

這

台

音

箱

上

的

表

現

還

不

夠

穩

、

不

夠

聰

明

到

讓

人

覺

得

非

它

不

可

。

硬

體

的

手

感

、

音

質

、

設

計

都

在

水

準

之

上

，

軟

體

的

大

腦

卻

拖

了

後

腿

，

這

種

『

身

體

準

備

好

了

、

腦

子

還

沒

跟

上

』

的

錯

位

，

正

是

目

前

硬

體

最

常

見

的

通

病

。

這

則

評

測

的

提

醒

對

做

硬

體

的

人

特

別

實

在

：

把

大

模

型

塞

進

裝

置

不

等

於

體

驗

就

會

變

好

，

語

音

場

景

對

延

遲

、

準

確

與

情

境

理

解

的

要

求

極

高

，

稍

微

卡

一

下

、

答

錯

一

次

，

使

用

者

的

信

任

就

掉

了

。

對

照

今

天

靠

把

即

時

語

音

延

遲

壓

到

秒

的

消

息

，

答

案

其

實

呼

之

欲

出

—

音

箱

要

成

，

缺

的

往

不

是

模

型

會

不

會

講

話

，

而

是

它

能

不

能

快

、

能

不

能

準

、

能

不

能

真

的

懂

你

當

下

要

什

麼

。

硬

體

不

是

瓶

頸

，

體

驗

的

最

後

一

哩

才

是

。

歸剛點評｜把大模型塞進裝置不等於體驗變好——AI 硬體最常見的病就是『身體準備好、腦子沒跟上』。對照今天 Gemma 4 把語音延遲壓到 1.5 秒，答案很清楚：音箱要成，缺的不是會不會講話，是夠不夠快、準、懂你。做 AI 硬體的人該記住這一哩。

來源：The Verge

研究

AFTER 基準：用 382 個真實企業任務，測 AI agent 的『程序記憶』到底行不行

一篇論文提出 AFTER 基準，用 382 個貼近真實的企業任務、涵蓋六種職業角色與 22 種程序技能，檢驗 LLM agent 的程序記憶能否產出可重複利用的技能，並探討如何控制、調適與評估這種記憶。

程

序

記

憶

（

）

正

被

愈

來

愈

多

地

用

來

提

升

在

重

複

性

職

場

任

務

上

的

表

現

，

但

它

到

底

能

不

能

產

出

真

正

可

重

複

利

用

的

技

能

，

其

實

一

直

沒

被

講

清

楚

。

一

篇

新

論

文

提

出

名

為

的

基

準

來

正

面

回

答

這

件

事

：

它

包

含

個

貼

近

真

實

的

企

業

任

務

，

橫

跨

六

種

專

業

職

業

角

色

與

種

程

序

技

能

，

專

門

設

計

來

評

估

能

不

能

把

做

過

的

事

沉

澱

成

下

次

能

用

的

步

驟

。

程

序

記

憶

的

想

法

很

直

覺

—

人

做

過

一

次

報

帳

、

跑

過

一

次

某

個

流

程

，

下

次

就

會

了

；

若

也

能

把

成

功

經

驗

記

成

一

套

可

調

用

的

程

序

，

就

不

必

每

次

從

零

摸

索

。

但

魔

鬼

在

細

節

：

這

些

記

下

來

的

技

能

該

怎

麼

控

制

何

時

該

用

、

環

境

變

了

要

怎

麼

調

適

、

又

該

用

什

麼

標

準

評

它

好

不

好

。

的

價

值

就

在

於

把

這

三

個

問

題

（

控

制

、

調

適

、

評

估

）

放

進

一

個

有

具

體

任

務

、

有

職

業

情

境

的

框

架

裡

量

化

，

而

不

是

停

在

概

念

討

論

。

對

實

際

在

做

工

作

流

的

人

，

這

篇

很

接

地

氣

。

今

天

的

五

機

工

作

流

跟

一

堆

排

程

，

本

質

上

就

是

在

讓

把

重

複

的

苦

力

活

變

成

固

定

程

序

反

覆

執

行

；

程

序

記

憶

研

究

要

解

的

正

是

同

一

件

事

—

怎

麼

讓

記

住

『

這

類

任

務

上

次

是

這

樣

搞

定

的

』

並

穩

定

重

現

，

而

不

是

每

次

都

要

人

重

新

交

代

。

這

類

基

準

能

幫

我

們

判

斷

，

把

哪

些

重

複

任

務

交

給

有

記

憶

的

是

可

靠

的

、

哪

些

還

是

得

人

盯

著

，

對

設

計

省

人

力

又

不

出

包

的

自

動

化

流

程

很

有

參

考

價

值

。

歸剛點評｜程序記憶研究要解的，正是 Max 五機工作流天天在做的事：讓 AI 把重複苦力沉澱成能穩定重現的固定程序。AFTER 用 382 個真實企業任務量化『控制、調適、評估』三難題，能幫判斷哪些重複任務交給有記憶的 agent 靠得住、哪些還得人盯。

來源：Hugging Face Papers

研究

SkillHone：讓 agent 靠『保留決策歷史』持續進化技能，而不是每次砍掉重練

論文提出 SkillHone 框架，針對 agent 技能所面對的任務與環境會不斷變化的問題。現有方法只在有限回合內改進技能、且只留下最終成品，丟掉了後來的 agent 其實需要的決策歷史。SkillHone 想把這段歷史持久保留下來。

技

能

（

）

是

替

語

言

模

型

加

上

特

定

任

務

的

程

序

、

腳

本

與

參

考

資

料

，

讓

它

更

會

做

某

類

事

。

但

這

些

技

能

要

對

付

的

任

務

和

環

境

會

一

直

變

，

昨

天

管

用

的

做

法

今

天

可

能

就

不

適

用

。

問

題

是

，

現

有

的

方

法

多

半

只

在

有

限

的

執

行

回

合

裡

改

進

技

能

，

而

且

只

保

留

最

後

那

個

成

品

，

把

過

程

中

累

積

的

決

策

歷

史

全

丟

了

—

偏

那

段

歷

史

，

正

是

之

後

接

手

的

最

需

要

的

線

索

。

這

篇

論

文

要

補

的

就

是

這

個

洞

。

它

主

張

把

做

決

策

的

歷

史

持

久

地

保

存

下

來

，

讓

技

能

靠

著

這

份

不

斷

累

積

的

『

為

什

麼

當

時

這

樣

選

』

的

紀

錄

持

續

演

化

，

而

不

是

每

換

一

批

任

務

就

從

頭

再

來

。

這

等

於

把

的

成

長

從

『

一

次

性

優

化

』

改

成

『

可

累

積

、

可

承

接

』

的

長

期

過

程

，

讓

後

來

的

站

在

前

人

踩

過

的

坑

上

前

進

。

這

個

思

路

跟

手

上

『

歸

剛

誒

』

這

類

每

天

跑

的

排

程

其

實

很

呼

應

。

每

一

期

日

報

、

每

一

次

抓

取

與

部

署

，

背

後

都

有

一

堆

『

這

次

為

什

麼

這

樣

選

題

、

這

樣

改

流

程

』

的

判

斷

，

如

果

每

天

做

完

就

丟

、

只

留

最

終

成

品

，

累

積

的

經

驗

就

浪

費

了

。

提

醒

的

是

，

把

決

策

歷

史

留

下

來

當

養

分

，

系

統

才

會

愈

跑

愈

聰

明

，

而

不

是

原

地

打

轉

。

對

設

計

長

期

運

轉

的

自

動

化

流

程

的

人

，

這

是

值

得

借

鏡

的

架

構

觀

—

別

只

存

結

果

，

也

要

存

下

『

當

時

怎

麼

想

的

』

。

歸剛點評｜別只存結果，也要存『當時怎麼想的』——SkillHone 點出 agent 進化的關鍵在保留決策歷史，而非每次砍掉重練。這跟 Max 每天跑的日報排程完全呼應：把選題與改流程的判斷留成養分，系統才會愈跑愈聰明，這是設計長期自動化流程的架構觀。

來源：Hugging Face Papers

研究

機器人學會動手後，還記得常識嗎？新研究量測 VLA 模型的知識流失

視覺-語言-動作（VLA）模型多半是拿強大的 VLM 用機器人資料微調而來，但微調後它到底還保留多少常識與事實知識，一直不清楚。這篇論文專門量測 VLA 在適應機器人任務後的知識保留程度。

具

身

智

慧

的

（

視

覺

語

言

動

作

）

模

型

，

通

常

是

拿

一

個

本

來

很

強

的

視

覺

語

言

模

型

，

再

用

機

器

人

資

料

去

微

調

而

成

。

問

題

來

了

：

經

過

這

番

改

造

、

學

會

了

控

制

手

臂

與

感

知

環

境

之

後

，

它

原

本

那

套

常

識

與

事

實

知

識

還

剩

多

少

？

沒

人

說

得

準

。

而

且

當

模

型

在

需

要

知

識

的

任

務

上

失

手

時

，

往

分

不

清

是

它

根

本

不

知

道

，

還

是

知

道

卻

沒

能

力

執

行

—

兩

種

失

敗

混

在

一

起

，

很

難

診

斷

。

這

篇

論

文

正

面

處

理

這

個

模

糊

地

帶

，

設

計

方

法

去

量

測

模

型

在

適

應

機

器

人

任

務

後

的

常

識

與

世

界

知

識

到

底

保

留

了

多

少

。

之

所

以

重

要

，

是

因

為

一

個

會

動

手

的

機

器

人

若

在

過

程

中

悄

流

失

了

對

世

界

的

基

本

理

解

，

它

做

出

來

的

動

作

就

可

能

看

似

俐

落

、

實

則

違

背

常

識

—

好

比

會

精

準

抓

取

，

卻

搞

不

清

該

不

該

抓

、

抓

了

會

怎

樣

。

把

『

知

不

知

道

』

和

『

做

不

做

得

到

』

拆

開

來

評

估

，

是

讓

具

身

變

可

靠

的

必

要

一

步

。

對

關

注

機

器

人

與

具

身

的

人

，

這

提

醒

了

一

個

容

易

被

忽

略

的

代

價

：

把

通

用

大

模

型

特

化

成

專

用

執

行

者

，

往

要

付

出

通

識

退

化

的

隱

形

學

費

。

今

天

另

一

篇

論

文

談

的

程

序

記

憶

、

談

怎

麼

讓

技

能

累

積

不

流

失

，

這

篇

則

從

反

方

向

敲

警

鐘

—

特

化

的

同

時

別

把

根

基

掏

空

。

兩

者

合

起

來

看

，

指

向

同

一

個

核

心

命

題

：

要

真

的

好

用

，

得

同

時

管

好

『

學

到

新

本

事

』

與

『

別

忘

了

舊

常

識

』

這

兩

件

事

。

歸剛點評｜把通用大模型特化成會動手的機器人，往往要付『通識退化』的隱形學費——看似俐落卻可能違背常識。這篇把『知不知道』和『做不做到』拆開評估，是具身 AI 走向可靠的必要一步，也提醒所有做模型特化的人：別為了新本事掏空舊根基。

來源：Hugging Face Papers

研究

SWE-Interact：把寫程式 benchmark 改成『使用者一路來回下指令』的多輪任務

論文提出 SWE-Interact，評估 coding agent 在多輪、互動、使用者驅動的軟體工程任務上的表現。現有前沿 SWE benchmark 多半一開始就給完整需求、再看 agent 自主完成；SWE-Interact 則把使用者放回迴圈裡。

現

在

主

流

的

評

測

，

大

多

長

這

樣

：

一

開

始

就

把

完

整

需

求

全

丟

給

，

然

後

看

它

能

不

能

自

己

一

路

寫

完

。

但

真

實

世

界

的

軟

體

開

發

根

本

不

是

這

樣

—

需

求

是

邊

做

邊

講

清

楚

的

，

人

會

中

途

改

主

意

、

補

條

件

、

看

到

結

果

再

調

方

向

。

這

篇

論

文

就

是

要

補

上

這

個

落

差

，

把

放

進

『

多

輪

、

互

動

、

使

用

者

驅

動

』

的

情

境

裡

評

估

，

讓

使

用

者

重

新

回

到

開

發

迴

圈

當

中

。

轉

變

雖

然

聽

來

不

大

，

意

義

卻

不

小

。

一

個

能

不

能

在

拿

到

完

整

規

格

後

自

主

把

題

目

解

掉

，

跟

它

能

不

能

在

一

場

你

來

我

往

、

需

求

逐

步

浮

現

的

協

作

裡

穩

住

陣

腳

，

是

兩

種

很

不

一

樣

的

能

力

。

後

者

更

接

近

工

程

師

每

天

用

助

手

寫

程

式

的

真

實

體

感

：

你

先

講

個

大

概

，

看

它

寫

出

什

麼

，

再

指

出

哪

裡

不

對

、

要

改

哪

裡

。

把

評

測

拉

到

這

個

更

貼

近

現

場

的

維

度

，

量

的

是

在

模

糊

、

變

動

、

多

回

合

下

的

實

戰

力

。

對

每

天

用

寫

程

式

的

人

（

包

括

這

種

靠

建

站

、

跑

排

程

、

修

腳

本

的

）

，

這

篇

很

有

共

鳴

。

你

會

發

現

真

正

決

定

生

產

力

的

，

不

是

一

次

能

不

能

通

關

某

個

乾

淨

的

題

目

，

而

是

它

能

不

能

聽

懂

你

半

路

改

的

需

求

、

記

住

前

面

講

過

的

脈

絡

、

不

要

每

次

都

要

你

重

講

一

遍

。

評

測

終

於

開

始

測

『

協

作

』

而

不

只

是

『

自

動

完

成

』

，

這

對

挑

選

順

手

的

工

具

，

是

更

貼

近

日

常

的

參

考

。

歸剛點評｜真實開發是邊做邊講清楚需求，不是一次把規格丟給 AI 讓它自己跑完。SWE-Interact 把評測拉到『多輪協作』這個更貼近日常的維度。對每天靠 AI 寫程式、修腳本的人，選工具該看的是它聽不聽得懂你半路改的需求，而不只是能不能通關乾淨題目。

來源：Hugging Face Papers

研究

TRIAGE：替 agent 的每個動作『按角色分功過』，改進代理式強化學習

代理式強化學習要替搜尋、點擊、編輯、導航等面向環境的動作分配功過。標準 GRPO 用最終驗證結果對所有動作 token 給一致的優勢值。TRIAGE 提出依動作角色分型的信用分配，讓不同類型的動作得到更貼切的獎勵訊號。

讓

靠

強

化

學

習

變

強

，

有

個

很

實

際

的

難

題

：

一

條

任

務

軌

跡

裡

有

搜

尋

、

點

擊

、

編

輯

、

導

航

、

跟

物

件

互

動

等

一

大

堆

面

向

環

境

的

動

作

，

最

後

成

功

或

失

敗

的

功

過

，

到

底

該

算

在

哪

個

動

作

頭

上

？

標

準

的

做

法

是

拿

最

終

驗

證

結

果

，

對

所

有

動

作

給

一

個

一

致

的

優

勢

值

—

不

管

你

這

步

是

關

鍵

決

策

還

是

無

關

緊

要

的

中

間

操

作

，

通

吃

同

一

份

獎

懲

。

這

個

訊

號

有

用

，

但

太

粗

。

這

篇

論

文

提

出

更

細

緻

的

做

法

：

依

動

作

的

『

角

色

』

分

型

來

分

配

信

用

。

不

同

種

類

的

動

作

在

任

務

裡

扮

演

的

份

量

本

來

就

不

同

，

把

它

們

一

視

同

仁

地

灌

同

一

個

優

勢

值

，

會

讓

學

習

訊

號

變

糊

、

效

率

變

差

。

按

角

色

區

分

後

，

關

鍵

動

作

能

拿

到

更

貼

切

的

獎

勵

、

雜

訊

動

作

不

被

過

度

強

化

，

學

起

來

就

更

有

方

向

感

。

說

白

了

，

就

是

把

『

整

組

一

起

賞

罰

』

改

成

『

看

你

在

這

局

扮

什

麼

角

色

、

各

自

論

功

行

賞

』

。

這

類

研

究

是

能

力

持

續

變

強

的

底

層

引

擎

。

今

天

這

一

版

日

報

裡

好

幾

篇

都

在

談

—

程

序

記

憶

、

技

能

演

化

、

多

輪

協

作

，

而

補

的

是

最

底

層

的

訓

練

訊

號

怎

麼

給

得

更

準

。

對

一

般

使

用

者

，

這

些

細

節

看

起

來

很

遠

，

但

它

們

決

定

了

你

明

年

用

到

的

會

不

會

更

少

犯

蠢

、

更

懂

得

哪

一

步

重

要

。

當

各

家

都

在

拚

誰

更

能

自

己

動

手

辦

事

，

能

不

能

把

『

功

過

算

得

準

』

這

件

苦

工

做

好

，

往

就

是

拉

開

差

距

的

地

方

。

歸剛點評｜agent 要更會辦事，底層得先把『哪一步該記功、哪一步該記過』算準。TRIAGE 把 GRPO 那種整組一致的粗獎勵，改成按動作角色論功行賞。這類訓練訊號的細活，決定了明年你用到的 AI agent 會不會更少犯蠢——是拉開各家差距的關鍵苦工。

來源：Hugging Face Papers

今日快訊

Google 彙整六月 AI 重點更新Google
Google 與紐約辦 AI 教育高峰會，150 名教育與產業領袖聚首Google
microsoft/AI-For-Beginners 登 GitHub 熱榜GitHub Trending
MOPD：多教師在線蒸餾，把多種能力整進同一個模型Hugging Face Papers
Play2Perfect：探討靈巧『玩耍式』預訓練對精密組裝的影響Hugging Face Papers
大規模多模態資料集，解鎖材料科學文獻裡的視覺紀錄Hugging Face Papers
數學推理的多樣性：我們在量策略，還是只在量措辭？Hugging Face Papers
QVal：便宜地評估長程 LLM agent 的稠密監督訊號Hugging Face Papers