歸剛誒AI 第18期｜2026-06-27：OpenAI 預覽 GPT-5.6 三模型：Sol、Terra、Luna

第 18 期2026-06-27（台北時間）

第十八期。今天的主旋律只有一個字：權力。OpenAI 在週五掀開 GPT-5.6 系列的限量預覽，Sol、Terra、Luna 三款一字排開；但真正的新聞不在模型本身，而在它出場的方式——白宮先要求緩發、OpenAI 只給少數夥伴試用，公司還公開表態不希望這種政府審查變成常態。隔壁 Anthropic 的 Mythos 已經被勒令下線兩週、僵局未解。美國政府的手，已經實際伸進了前沿模型要不要、什麼時候、給誰用。其餘版面留給晶片、訴訟、研究與一場沒人攻破的紅隊挑戰。

模型

OpenAI 預覽 GPT-5.6 三模型：Sol、Terra、Luna

在

週

五

公

布

系

列

的

限

量

預

覽

，

一

口

氣

端

出

三

款

定

位

分

明

的

模

型

。

旗

艦

款

主

打

程

式

、

科

學

與

資

安

三

個

方

向

的

能

力

升

級

，

並

搭

配

稱

為

目

前

最

先

進

的

安

全

堆

疊

；

中

階

的

針

對

高

流

量

的

日

常

工

作

，

官

方

說

法

是

效

能

逼

近

上

一

代

、

但

價

格

便

宜

一

倍

；

最

入

門

的

則

用

最

低

成

本

提

供

堪

用

的

能

力

。

按

官

方

說

明

，

這

次

先

做

限

量

預

覽

，

並

把

上

線

計

畫

先

向

美

國

政

府

報

備

過

，

三

款

模

型

預

計

在

接

下

來

幾

週

進

入

正

式

開

放

。

命

名

也

從

過

去

的

數

字

後

綴

改

走

天

體

路

線

，

（

太

陽

）

、

（

大

地

）

、

（

月

亮

）

各

據

一

層

，

等

於

把

同

一

代

切

成

旗

艦

、

主

力

、

平

價

三

個

價

格

帶

，

分

頭

去

搶

不

同

預

算

的

客

戶

。

值

得

注

意

的

是

發

表

的

時

機

與

姿

態

。

消

息

傳

出

不

到

一

天

，

模

型

就

端

上

桌

，

速

度

快

得

像

是

被

外

力

推

著

走

；

而

把

能

力

升

級

的

重

點

放

在

資

安

與

程

式

，

正

好

踩

在

各

國

政

府

最

敏

感

的

神

經

上

。

一

款

模

型

怎

麼

出

場

，

這

次

比

它

能

做

什

麼

更

值

得

看

。

歸剛點評｜三款分層其實是在搶不同錢包：Sol 收頂規客戶、Terra 用對半砍的價格去打高用量場景、Luna 守住便宜這條防線。但這代真正的看點是它被政府盯著出場，技術反而成了配角。

來源：OpenAI　·　Simon Willison　·　The Verge

監管

白宮要求 OpenAI 緩發 GPT-5.6，只給少數夥伴

報導指 OpenAI 原本要廣泛開放新模型，川普政府以安全顧慮為由要求先緩發，改成只分享給少數合作夥伴。

在

正

式

亮

相

的

前

一

天

，

外

界

先

得

知

一

個

關

鍵

內

情

：

本

來

打

算

把

新

模

型

廣

泛

開

放

，

卻

在

川

普

政

府

以

安

全

為

由

介

入

後

，

改

成

只

分

享

給

一

小

群

挑

選

過

的

夥

伴

，

而

非

一

般

大

眾

。

隔

天

模

型

如

期

登

場

，

但

開

放

範

圍

明

顯

收

窄

，

印

證

了

這

條

消

息

。

這

代

表

政

府

對

前

沿

模

型

的

影

響

，

已

經

從

事

後

監

管

前

移

到

上

線

之

前

。

過

去

的

劇

本

是

模

型

先

發

布

、

出

事

再

究

責

；

現

在

則

是

發

布

計

畫

要

先

送

審

，

由

行

政

部

門

決

定

要

不

要

踩

煞

車

、

給

誰

用

。

對

一

家

把

廣

泛

可

用

性

掛

在

嘴

邊

的

公

司

來

說

，

這

是

一

次

姿

態

上

的

退

讓

。

把

這

條

線

拉

長

看

就

更

清

楚

：

同

一

時

間

的

已

被

勒

令

下

線

兩

週

，

如

今

輪

到

被

要

求

緩

發

。

兩

起

事

件

指

向

同

一

個

方

向

—

美

國

政

府

正

在

用

個

案

處

理

的

方

式

，

逐

一

決

定

哪

些

模

型

能

在

什

麼

時

候

見

人

。

前

沿

實

驗

室

再

有

錢

、

再

領

先

，

這

道

閘

門

都

不

在

自

己

手

上

，

能

談

的

只

剩

細

節

，

要

不

要

放

行

的

決

定

權

已

經

換

了

主

人

。

歸剛點評｜重點不是這一款慢幾天上線，而是「上線前要先過政府這關」開始變成預設值。對台灣這種高度依賴美國模型的市場，等於你能用到什麼工具、什麼時候用得到，主導權握在華府手裡。

來源：TechCrunch　·　The Verge

監管

OpenAI 公開反對：政府審查不該成常態

OpenAI 配合這次緩發，但同步發聲明表示不認為這種政府審查流程應成為長期預設，會擋住使用者、開發者與資安防禦方取得最好工具。

這

次

選

擇

一

邊

配

合

、

一

邊

把

不

滿

說

出

口

。

公

司

在

聲

明

中

直

言

，

不

認

為

這

種

政

府

介

入

的

審

查

流

程

應

該

變

成

長

期

的

預

設

做

法

，

因

為

它

會

把

最

好

的

工

具

擋

在

使

用

者

、

開

發

者

、

企

業

、

資

安

防

禦

方

以

及

全

球

夥

伴

之

外

。

話

講

得

克

制

，

但

立

場

清

楚

：

這

次

照

辦

，

不

代

表

認

同

這

套

規

矩

。

這

番

表

態

的

微

妙

之

處

，

在

於

它

同

時

面

對

兩

個

聽

眾

。

對

政

府

，

它

先

服

從

、

保

住

關

係

；

對

市

場

與

開

發

者

，

它

又

要

撇

清

自

己

不

是

審

查

的

共

謀

，

把

球

丟

回

行

政

部

門

。

一

家

正

在

跟

政

府

深

度

綁

定

的

公

司

，

要

在

配

合

與

抗

議

之

間

走

鋼

索

，

這

段

聲

明

就

是

那

條

鋼

索

的

具

體

長

相

。

放

進

整

個

產

業

脈

絡

看

，

的

兩

難

其

實

是

所

有

前

沿

實

驗

室

的

共

同

處

境

。

模

型

能

力

一

旦

碰

到

資

安

、

生

物

、

選

舉

這

些

領

域

，

政

府

就

有

充

分

動

機

要

先

看

過

再

放

行

；

而

公

司

要

的

是

速

度

與

普

及

。

這

次

把

矛

盾

攤

開

講

，

等

於

替

後

面

每

一

家

都

先

把

話

說

在

前

頭

。

歸剛點評｜這段聲明翻成白話就是：我這次聽話，但別把聽話當成以後的規矩。OpenAI 想兩邊不得罪，但它已經證明政府的煞車踩得下去——往後想抗議，籌碼只會更少。

來源：TechCrunch

監管

Anthropic 的 Mythos 下線兩週，僵局未解

Anthropic 兩週前在川普政府週五晚的最後通牒下把 Mythos 級模型下線，火速派高管赴華府，但至今無進展、多次拒絕置評。

的

麻

煩

還

在

發

酵

。

兩

週

前

的

一

個

週

五

晚

上

，

川

普

政

府

下

了

最

後

通

牒

，

隨

即

把

級

的

模

型

整

批

下

線

，

並

立

刻

派

出

一

批

高

管

飛

往

華

府

滅

火

。

動

作

不

可

謂

不

快

，

但

兩

週

過

去

，

外

界

等

到

的

是

一

片

沉

默

—

公

司

這

週

多

次

被

問

都

拒

絕

置

評

，

事

情

看

不

到

解

決

的

跡

象

。

模

型

被

勒

令

下

線

、

又

遲

談

不

攏

，

對

一

家

以

安

全

與

對

齊

為

招

牌

的

公

司

來

說

特

別

尷

尬

。

它

向

來

把

自

己

定

位

成

最

在

意

風

險

的

那

一

個

，

如

今

卻

在

跟

政

府

的

角

力

中

被

掐

住

產

品

線

。

下

線

越

久

，

營

收

與

開

發

者

信

心

的

損

失

越

實

在

，

而

談

判

桌

上

的

籌

碼

則

隨

時

間

流

失

。

把

的

僵

局

和

被

要

求

緩

發

放

在

一

起

看

，

輪

廓

就

完

整

了

：

這

不

是

單

一

公

司

的

個

案

，

而

是

美

國

政

府

對

整

個

前

沿

模

型

陣

營

同

時

收

緊

。

一

個

被

下

線

、

一

個

被

緩

發

，

手

法

不

同

、

訊

號

一

致

。

的

沉

默

，

可

能

正

說

明

這

場

談

判

比

外

界

想

的

更

難

收

場

，

連

對

外

能

講

的

進

度

都

生

不

出

來

，

僵

局

還

會

再

拖

一

陣

子

。

歸剛點評｜Anthropic 一直賣的是「我們最安全」，結果第一個被政府摁住的就是它，諷刺得很。下線兩週還沒下文，代表這不是技術問題能解的，是政治帳。它越安靜，越說明談得不順。

來源：The Verge

觀點

評論：已經不是 Anthropic 對 OpenAI 之爭

TechCrunch 評論指出，AI 模型能力已進步到帶有真實政治後果的程度，應對這些後果需要的是集體行動，而非廠商間的零和競爭。

一

篇

評

論

替

這

週

的

所

有

新

聞

下

了

註

腳

：

現

在

的

重

點

，

已

經

不

是

跟

誰

贏

的

問

題

。

文

章

的

論

點

是

，

模

型

的

能

力

已

經

進

步

到

會

帶

來

真

實

政

治

後

果

的

地

步

，

而

要

應

對

這

些

後

果

，

靠

的

是

集

體

行

動

，

不

是

兩

家

公

司

之

間

的

零

和

廝

殺

。

這

個

視

角

解

釋

了

為

什

麼

政

府

這

週

同

時

對

兩

家

動

手

。

當

模

型

強

到

足

以

影

響

資

安

、

選

舉

、

生

物

風

險

時

，

它

就

從

一

項

產

品

變

成

一

個

公

共

議

題

；

政

府

的

介

入

也

就

不

再

是

針

對

某

一

家

，

而

是

針

對

「

前

沿

能

力

」

這

件

事

本

身

。

誰

家

模

型

比

較

強

的

排

行

榜

，

在

這

個

層

級

上

反

而

退

居

其

次

。

對

讀

者

而

言

，

這

篇

評

論

值

得

記

住

的

是

它

的

提

醒

：

把

競

賽

看

成

體

育

比

賽

、

只

關

心

誰

領

先

，

會

錯

過

真

正

在

發

生

的

事

。

當

監

管

、

外

交

、

國

安

全

都

被

捲

進

來

，

框

架

就

得

從

商

業

競

爭

換

成

公

共

治

理

。

這

週

下

線

與

緩

發

，

就

是

這

個

轉

換

的

第

一

批

實

證

，

也

預

告

往

後

類

似

的

政

府

介

入

只

會

越

來

越

多

、

越

來

越

常

態

化

。

歸剛點評｜我們很容易把 AI 看成兩隊比分，但這篇提醒得對：當模型強到能左右國安，政府要管的是整個賽場，不是哪一隊。看熱鬧的人盯著比分，真正的變化發生在規則本身。

來源：TechCrunch

硬體

OpenAI 自研 Jalapeño 晶片，向 Nvidia 鬆綁

從 OpenAI 到 SpaceX 都在自研晶片，OpenAI 公布代號 Jalapeño 的晶片計畫，被視為大型科技公司擺脫 Nvidia 依賴的最辛辣一步。

在

模

型

新

聞

之

外

，

也

把

自

研

晶

片

的

計

畫

端

上

檯

面

，

代

號

取

名

（

墨

西

哥

辣

椒

）

，

擺

明

要

替

長

期

被

掐

住

的

算

力

供

應

鏈

加

點

辣

。

報

導

把

這

步

形

容

成

大

型

科

技

公

司

擺

脫

依

賴

最

辛

辣

的

一

招

，

背

後

是

一

整

排

玩

家

—

從

到

—

都

在

做

同

一

件

事

：

自

己

造

晶

片

。

會

走

到

這

一

步

，

是

因

為

算

力

就

是

前

沿

實

驗

室

的

命

脈

。

長

年

仰

賴

單

一

供

應

商

，

意

味

著

價

格

、

產

能

、

優

先

出

貨

權

全

握

在

別

人

手

上

；

自

研

晶

片

即

使

短

期

燒

錢

、

良

率

難

看

，

換

來

的

是

議

價

籌

碼

與

供

應

安

全

。

多

年

來

在

晶

片

市

場

近

乎

獨

佔

，

如

今

這

種

總

體

依

賴

的

時

代

開

始

出

現

裂

縫

。

把

晶

片

自

研

和

這

週

的

監

管

新

聞

並

讀

，

會

看

到

同

一

種

焦

慮

：

前

沿

公

司

想

盡

量

把

命

運

抓

回

自

己

手

裡

。

模

型

上

線

被

政

府

節

制

、

算

力

供

應

被

卡

住

，

兩

條

繩

子

都

不

在

自

己

手

上

。

不

會

明

天

就

取

代

，

但

它

是

這

些

公

司

想

替

自

己

鬆

綁

的

明

確

訊

號

，

也

讓

第

一

次

必

須

認

真

面

對

最

大

客

戶

同

時

是

潛

在

對

手

的

局

面

。

歸剛點評｜自研晶片短期幾乎都是賠錢貨，會做純粹是被掐怕了。Nvidia 一家獨大太久，客戶連排隊買貨都要看臉色，現在大咖集體出走，就算造不出更好的，至少手上多一張議價牌。

來源：TechCrunch　·　TechCrunch

產業

OpenAI 挖角 Uber 印度負責人，主攻美國外最大市場

OpenAI 延攬 Uber 印度負責人來領軍印度業務，這是它擴張辦公室、合作與招募、深耕美國以外最大市場的最新一步。

把

目

光

投

向

印

度

，

挖

來

原

印

度

的

負

責

人

，

要

他

來

掌

管

在

當

地

的

業

務

。

對

來

說

，

印

度

是

美

國

以

外

最

大

的

市

場

，

這

次

挖

角

是

它

在

當

地

擴

張

辦

公

室

、

廣

鋪

合

作

關

係

與

加

碼

招

募

的

最

新

動

作

，

找

一

個

熟

悉

印

度

本

地

市

場

、

又

有

大

規

模

營

運

經

驗

的

人

來

坐

鎮

，

意

圖

很

清

楚

。

會

這

麼

用

力

佈

局

印

度

，

是

因

為

使

用

者

規

模

與

成

長

空

間

都

在

那

裡

。

印

度

有

龐

大

的

年

輕

人

口

、

快

速

普

及

的

智

慧

手

機

與

低

廉

的

網

路

費

，

是

任

何

消

費

級

科

技

產

品

都

不

能

略

過

的

戰

場

。

印

度

的

經

驗

特

別

對

味

—

同

樣

要

面

對

價

格

極

度

敏

感

的

市

場

、

複

雜

的

在

地

法

規

與

激

烈

的

本

地

競

爭

。

挑

在

這

個

時

間

點

補

強

海

外

市

場

，

也

和

前

面

那

些

監

管

新

聞

遙

相

呼

應

。

當

本

土

市

場

被

政

府

盯

得

越

來

越

緊

，

把

成

長

動

能

分

散

到

海

外

、

降

低

對

單

一

市

場

的

依

賴

，

就

成

了

合

理

的

避

險

。

印

度

這

一

手

，

既

是

進

攻

新

市

場

，

也

是

替

自

己

在

母

國

的

不

確

定

性

留

條

後

路

。

歸剛點評｜找 Uber 印度的人來打印度，選得很準——印度市場最難的就是又便宜又難搞，Uber 在那邊摸爬滾打多年。本土被政府盯著，海外成長就更重要，這步是進攻也是避險。

來源：TechCrunch

訴訟

NYT 加碼指控：微軟為 OpenAI 蓋侵權超級電腦

在最高法院對 Sony 一案做出不利裁決後，紐約時報調整對 OpenAI 與微軟的版權主張，指控微軟為協助 OpenAI 侵權而打造超級電腦。

紐

約

時

報

把

對

微

軟

與

的

版

權

戰

火

往

上

加

了

一

級

。

在

美

國

最

高

法

院

於

相

關

案

件

做

出

一

項

裁

決

後

，

順

勢

調

整

訴

訟

主

張

，

這

次

直

接

點

名

微

軟

：

指

控

它

為

了

協

助

侵

犯

版

權

，

特

地

打

造

了

一

台

超

級

電

腦

。

這

一

步

等

於

把

硬

體

基

礎

設

施

的

提

供

者

也

一

併

拉

進

被

告

席

。

這

個

策

略

轉

向

的

關

鍵

，

在

於

最

高

法

院

那

項

對

不

利

的

裁

決

替

鬆

了

綁

。

版

權

官

司

最

難

的

一

環

是

把

責

任

從

直

接

行

為

人

擴

展

到

協

助

者

；

當

判

例

往

有

利

於

權

利

人

的

方

向

移

動

，

就

有

空

間

主

張

，

提

供

算

力

與

工

程

資

源

去

訓

練

模

型

的

微

軟

，

不

能

用

一

句

「

我

只

是

蓋

機

器

」

撇

清

。

對

整

個

生

成

式

產

業

來

說

，

這

條

線

非

常

敏

感

。

如

果

替

模

型

提

供

超

級

電

腦

也

可

能

構

成

侵

權

，

那

麼

雲

端

供

應

商

、

晶

片

商

、

資

料

中

心

業

者

都

得

重

新

評

估

自

己

的

法

律

風

險

。

這

一

步

表

面

上

告

的

是

微

軟

，

實

際

上

是

在

替

「

誰

要

為

訓

練

的

版

權

問

題

負

責

」

這

個

大

問

題

劃

界

。

歸剛點評｜NYT 這招狠在把蓋機器的也告下去。以前大家以為提供算力的雲端商是安全的，現在判例一鬆動，連賣鏟子的都可能要負責。這條線怎麼劃，影響的是每一家替 AI 提供基礎設施的公司。

來源：Ars Technica

監管

德國判 Google 須為 AI 摘要的錯誤負責

資安專家 Bruce Schneier 評德國近期裁決：Google 須為其 AI 摘要引入的錯誤負法律責任，AI agent 應被視為部署者的代理人。

德

國

一

項

裁

決

替

的

責

任

歸

屬

定

了

個

關

鍵

調

子

：

必

須

為

它

摘

要

功

能

所

產

生

的

錯

誤

負

法

律

責

任

。

資

安

專

家

評

論

這

件

事

時

提

出

一

個

乾

淨

的

原

則

—

就

是

部

署

它

的

個

人

或

組

織

的

代

理

人

，

法

律

上

就

該

這

樣

對

待

。

如

果

一

家

公

司

雇

用

真

人

去

寫

摘

要

，

它

要

為

摘

要

的

錯

誤

負

責

；

換

成

也

一

樣

。

這

個

判

決

之

所

以

重

要

，

是

因

為

它

堵

死

了

一

條

業

界

很

想

走

的

後

門

：

把

鍋

甩

給

。

的

說

法

是

，

要

是

允

許

企

業

用

「

都

是

出

錯

」

當

免

責

藉

口

，

等

於

白

送

給

這

些

公

司

一

份

大

禮

，

讓

它

們

享

受

自

動

化

的

好

處

卻

不

承

擔

自

動

化

的

風

險

。

德

國

的

法

院

顯

然

不

買

這

套

。

放

到

大

行

其

道

的

當

下

，

這

個

原

則

的

份

量

會

越

來

越

重

。

當

企

業

開

始

大

量

用

去

回

信

、

寫

摘

要

、

跑

客

服

、

下

決

策

，

每

一

個

動

作

背

後

的

責

任

都

得

有

人

扛

。

德

國

這

一

判

等

於

提

前

立

下

規

矩

：

你

部

署

的

做

了

什

麼

，

法

律

上

就

當

成

你

自

己

做

的

。

對

所

有

想

用

省

人

力

的

公

司

，

這

是

一

句

該

記

下

的

提

醒

。

歸剛點評｜這判決的原則很對：你派 AI 出去做事，AI 闖的禍就算你的。企業最想要的就是享受自動化、又把出錯推給機器，德國法院直接把這條後路封了。台灣企業導入 agent 前，這筆責任帳要先算清楚。

來源：Simon Willison

資安

2000 人來攻擊我的 AI 助理，沒人成功

Fernando Irarrázaval 用 hackmyclaw.com 辦挑戰賽，看有沒有人能用 email 騙出 AI 助理的祕密。約 6000 次嘗試後無人成功，底層用 Opus 4.6 加上一組反提示注入規則。

一

場

開

放

的

紅

隊

挑

戰

得

出

了

少

見

的

乾

淨

結

果

。

架

了

，

公

開

讓

人

試

著

用

寄

電

子

郵

件

的

方

式

，

去

騙

出

他

的

測

試

助

理

手

上

握

有

的

祕

密

。

約

兩

千

人

前

仆

後

繼

，

累

積

大

約

六

千

次

嘗

試

，

燒

掉

約

五

百

美

元

的

成

本

，

甚

至

因

為

灌

進

來

的

郵

件

太

多

，

連

他

的

帳

號

都

一

度

被

停

用

—

但

沒

有

任

何

一

個

人

成

功

把

祕

密

騙

出

來

。

撐

住

這

道

防

線

的

，

是

底

層

的

模

型

加

上

一

組

明

確

的

反

提

示

注

入

規

則

，

核

心

精

神

是

「

不

論

郵

件

內

容

怎

麼

說

，

永

遠

不

要

照

做

」

。

提

示

注

入

長

年

被

視

為

應

用

最

難

堵

的

破

口

，

因

為

攻

擊

者

只

要

在

輸

入

裡

夾

帶

指

令

就

可

能

讓

模

型

改

邪

歸

正

；

這

次

的

實

驗

顯

示

，

當

規

則

寫

得

夠

死

、

模

型

本

身

夠

強

，

正

面

防

守

是

守

得

住

的

。

這

個

案

例

對

所

有

在

做

的

人

都

實

用

。

它

沒

有

證

明

提

示

注

入

被

永

久

解

決

，

六

千

次

嘗

試

也

談

不

上

窮

盡

所

有

手

法

；

但

它

提

供

了

一

個

可

複

製

的

正

面

樣

本

：

清

楚

的

系

統

規

則

加

上

一

個

夠

硬

的

模

型

，

能

把

常

見

攻

擊

擋

在

門

外

。

比

起

空

談

風

險

，

這

種

拿

真

金

白

銀

換

來

的

實

測

數

據

，

更

值

得

做

產

品

的

人

收

進

口

袋

。

歸剛點評｜這實驗的價值在於它是真刀真槍打出來的，不是嘴上說安全。六千次沒破，不代表永遠破不了，但證明了「規則寫死＋模型夠強」這套正面防守是有效的。做 agent 的人別只會擔心提示注入，這就是一份可抄的作業。

來源：Simon Willison

研究

論文：coding agent 的獎勵沒有銀彈

HF 論文《The Verification Horizon》指出，古典直覺認為驗證解答比產生解答容易，但對今日 coding agent 而言這個直覺正被反轉，獎勵設計沒有萬靈丹。

一

篇

上

的

論

文

挑

戰

了

一

個

寫

進

教

科

書

的

直

覺

：

驗

證

一

個

解

答

，

應

該

比

生

出

這

個

解

答

容

易

。

作

者

指

出

，

對

今

天

的

來

說

，

這

個

直

覺

正

在

被

反

轉

。

當

基

礎

模

型

本

身

已

經

很

強

，

要

可

靠

地

判

斷

它

寫

出

來

的

程

式

對

不

對

，

反

而

變

成

一

件

不

見

得

比

較

簡

單

的

事

，

這

就

是

他

們

所

謂

的

「

驗

證

地

平

線

」

。

問

題

的

根

源

在

於

強

化

學

習

需

要

一

個

可

靠

的

獎

勵

訊

號

。

訓

練

時

，

理

想

做

法

是

讓

它

寫

程

式

、

再

用

某

種

驗

證

機

制

打

分

數

、

據

此

調

整

；

但

如

果

驗

證

本

身

就

會

出

錯

—

測

試

覆

蓋

不

全

、

邊

界

情

況

沒

測

到

、

甚

至

兩

個

互

相

背

書

—

那

獎

勵

訊

號

就

是

髒

的

，

訓

練

出

來

的

模

型

也

會

學

歪

。

論

文

的

標

題

已

經

把

結

論

講

白

：

沒

有

銀

彈

。

這

對

正

在

追

逐

自

動

化

軟

體

工

程

的

整

個

方

向

，

是

一

盆

有

用

的

冷

水

。

市

場

上

不

少

敘

事

假

設

只

要

模

型

夠

強

、

再

配

上

自

動

驗

證

就

能

無

限

自

我

改

進

；

這

篇

論

文

提

醒

，

驗

證

這

一

環

會

隨

能

力

提

升

而

變

難

，

不

會

自

動

跟

上

。

想

靠

把

推

上

去

的

團

隊

，

得

先

正

視

獎

勵

怎

麼

給

這

個

老

問

題

。

歸剛點評｜這篇戳破一個美好假設：以為模型越強、自動驗證就越好做，自我進化就能無限跑。實際上驗證會越來越難，獎勵訊號一髒，模型就學歪。對所有想做 AI 寫程式的團隊，這是必須先解的卡點。

來源：Hugging Face

研究

論文：多步工具強化學習為何崩潰、如何救

HF 論文分析多步工具使用的強化學習為何會崩潰，並提出用監督訊號修正，讓 LLM 在複雜的多步工具任務上更穩定。

工

具

使

用

讓

大

型

語

言

模

型

能

完

成

複

雜

任

務

，

近

期

的

強

化

學

習

也

展

現

了

把

模

型

能

力

往

上

推

的

潛

力

，

但

一

篇

論

文

點

出

其

中

一

個

棘

手

現

象

：

在

多

步

工

具

使

用

的

訓

練

裡

，

強

化

學

習

常

會

崩

潰

。

模

型

一

開

始

學

得

不

錯

，

到

了

某

個

階

段

卻

整

個

垮

掉

，

表

現

急

轉

直

下

，

這

讓

不

少

訓

練

流

程

卡

在

半

路

。

作

者

把

崩

潰

的

成

因

拆

開

分

析

，

並

提

出

用

監

督

訊

號

來

穩

住

訓

練

的

解

法

。

多

步

任

務

的

難

處

在

於

獎

勵

稀

疏

又

延

遲

—

模

型

要

連

續

呼

叫

好

幾

次

工

具

才

知

道

最

後

對

不

對

，

中

間

每

一

步

都

可

能

出

錯

卻

拿

不

到

即

時

回

饋

。

純

靠

強

化

學

習

在

這

種

環

境

裡

很

容

易

發

散

；

補

上

適

當

的

監

督

訊

號

，

等

於

在

過

程

中

給

模

型

多

打

幾

盞

路

燈

，

讓

它

不

至

於

走

著

走

著

就

失

控

。

這

篇

研

究

的

價

值

在

於

它

把

一

個

工

程

上

常

見

、

卻

少

被

系

統

性

討

論

的

失

敗

模

式

攤

開

來

談

。

當

業

界

都

在

追

、

追

多

步

自

主

，

訓

練

不

穩

就

是

擋

在

量

產

前

的

真

實

障

礙

。

提

出

可

操

作

的

修

正

方

法

，

比

起

再

發

一

個

更

高

的

分

數

，

對

實

際

在

訓

的

團

隊

更

有

用

。

歸剛點評｜做 agent 的人多半都撞過這個牆：訓練前段好好的，後面突然崩。這篇把原因講清楚還給了解法，比刷榜實在多了。多步工具任務的獎勵又稀又慢，能穩住訓練的方法現在就是稀缺品。

來源：Hugging Face

研究

論文：世界模型的幻覺可預測也可預防

HF 論文指出，現代生成式世界模型雖能產生逼真可控的未來畫面，卻常出現幻覺；研究發現這類幻覺是可預測、也可預防的。

生

成

式

世

界

模

型

能

渲

染

出

越

來

越

逼

真

、

還

能

被

動

作

控

制

的

未

來

畫

面

，

被

視

為

機

器

人

與

自

駕

模

擬

的

重

要

基

礎

。

但

一

篇

論

文

指

出

它

們

有

個

老

毛

病

：

經

常

出

現

幻

覺

—

畫

面

看

起

來

流

暢

漂

亮

，

內

容

卻

在

物

理

或

邏

輯

上

站

不

住

腳

，

模

型

等

於

在

編

一

個

視

覺

上

可

信

、

實

際

上

虛

假

的

世

界

。

這

篇

研

究

的

好

消

息

是

，

這

類

幻

覺

不

是

隨

機

亂

跳

、

無

從

掌

握

的

。

作

者

發

現

幻

覺

其

實

是

可

預

測

的

，

而

且

既

然

可

預

測

，

就

有

機

會

在

它

發

生

之

前

先

一

步

防

範

。

把

問

題

從

「

模

型

偶

爾

會

胡

來

、

只

能

事

後

察

覺

」

推

進

到

「

我

們

能

事

先

知

道

它

哪

裡

容

易

出

錯

、

並

提

前

處

理

」

，

對

任

何

要

靠

世

界

模

型

做

決

策

的

系

統

都

是

關

鍵

差

別

。

放

到

自

駕

、

機

器

人

與

具

身

智

慧

的

脈

絡

看

，

這

件

事

的

份

量

不

小

。

當

系

統

要

根

據

模

型

想

像

出

來

的

未

來

去

行

動

，

一

個

沒

被

攔

下

的

幻

覺

可

能

就

是

一

次

真

實

世

界

的

失

誤

。

能

預

測

、

能

預

防

，

意

味

著

這

些

系

統

有

機

會

在

部

署

前

把

可

靠

性

拉

到

一

個

能

信

任

的

水

準

，

而

不

是

只

能

祈

禱

模

型

今

天

表

現

正

常

。

歸剛點評｜世界模型最怕的就是畫面漂亮但內容唬爛，拿去開車或控機器人會出事。這篇證明幻覺有跡可循、能提前擋，等於把它從玄學變成工程問題。對自駕和機器人這種輸不起的場景，可預防三個字最值錢。

來源：Hugging Face

研究

論文：電腦操作 agent 的瓶頸在 GUI 還是 CLI

HF 論文比較電腦操作 agent 走圖形介面與走指令列的差異，拆解過去評測中被混淆的互動方式與執行瓶頸。

電

腦

操

作

可

以

用

兩

種

方

式

完

成

軟

體

任

務

：

點

圖

形

介

面

（

）

，

或

是

下

指

令

列

命

令

（

）

。

一

篇

論

文

指

出

，

過

去

的

評

測

常

把

這

兩

條

路

徑

混

為

一

談

，

導

致

看

不

清

楚

真

正

卡

在

哪

裡

。

作

者

把

互

動

方

式

與

執

行

瓶

頸

拆

開

來

分

析

，

想

釐

清

螢

幕

操

作

與

指

令

操

作

各

自

的

長

短

。

會

有

這

個

區

分

的

必

要

，

是

因

為

兩

種

介

面

的

代

價

完

全

不

同

。

要

一

格

一

格

看

畫

面

、

找

按

鈕

、

模

擬

點

擊

，

每

一

步

都

有

辨

識

與

定

位

的

風

險

；

則

是

直

接

送

出

文

字

命

令

，

少

了

視

覺

辨

識

的

不

確

定

，

但

要

求

懂

得

對

的

指

令

語

法

。

把

成

績

混

在

一

起

算

，

等

於

分

不

清

失

敗

是

因

為

看

不

懂

畫

面

、

還

是

不

會

下

命

令

。

這

對

正

在

做

的

人

是

務

實

的

提

醒

。

要

改

進

一

個

，

得

先

知

道

它

的

瓶

頸

是

視

覺

操

作

還

是

命

令

執

行

；

評

測

設

計

如

果

把

兩

者

攪

在

一

起

，

優

化

方

向

就

會

抓

錯

。

論

文

把

這

層

混

淆

挑

明

，

等

於

替

後

續

的

與

產

品

設

計

立

了

一

個

更

乾

淨

的

座

標

，

也

讓

不

同

團

隊

的

成

績

有

機

會

放

在

同

一

把

尺

上

比

較

。

歸剛點評｜做電腦操作 agent 的人常忽略這件事：到底是看不懂畫面，還是不會下指令，得分開算。混在一起測，你連自己該優化哪裡都搞不清楚。這篇把座標立乾淨了，算是基本功的提醒。

來源：Hugging Face

研究

論文：JetSpec 用平行樹草稿突破推測解碼天花板

HF 論文 JetSpec 針對推測解碼的擴展瓶頸提出平行樹草稿方法，試圖突破既有加速的天花板，加快自回歸大模型生成。

推

測

解

碼

是

替

自

回

歸

大

型

語

言

模

型

加

速

的

常

用

手

法

：

先

讓

一

個

小

模

型

草

擬

好

幾

個

，

再

由

大

模

型

平

行

驗

證

，

正

確

的

就

一

次

採

納

，

省

下

逐

字

生

成

的

時

間

。

但

這

套

方

法

有

個

擴

展

上

的

天

花

板

，

草

稿

一

拉

長

、

命

中

率

就

掉

，

加

速

效

果

到

某

個

點

就

上

不

去

。

一

篇

論

文

想

處

理

的

正

是

這

個

瓶

頸

。

的

解

法

是

平

行

樹

草

稿

。

傳

統

做

法

多

半

草

擬

一

條

直

線

序

列

，

賭

它

整

條

都

對

；

改

成

同

時

鋪

開

一

棵

樹

，

一

次

涵

蓋

多

種

可

能

的

後

續

路

徑

，

讓

驗

證

階

段

有

更

高

機

率

撞

上

正

確

答

案

。

等

於

把

單

押

一

注

改

成

分

散

下

注

，

提

高

每

一

輪

驗

證

能

採

納

的

數

量

，

藉

此

把

推

測

解

碼

的

加

速

上

限

往

上

頂

。

對

在

意

推

論

成

本

與

延

遲

的

團

隊

，

這

類

研

究

很

實

際

。

模

型

再

強

，

使

用

者

體

驗

最

後

還

是

卡

在

它

吐

字

多

快

、

每

個

多

貴

上

；

任

何

能

在

不

傷

品

質

的

前

提

下

加

速

生

成

的

方

法

，

都

會

直

接

反

映

在

帳

單

和

回

應

速

度

上

。

把

推

測

解

碼

的

天

花

板

再

墊

高

一

層

，

對

跑

大

規

模

推

論

服

務

的

人

就

是

真

金

白

銀

的

省

。

歸剛點評｜推論加速這種題目聽起來無聊，卻是省錢的硬功夫。模型多強，使用者只感覺得到它回多快、多貴。JetSpec 把推測解碼的上限再頂高，跑大規模服務的團隊看到的是帳單變小、延遲變短，很實在。

來源：Hugging Face

研究

論文：替長推理壓縮 KV 快取的資訊感知法

HF 論文提出資訊感知的 KV 快取壓縮法，針對長推理時不斷膨脹的 key-value 快取，在預填與解碼階段都減輕記憶體負擔。

大

型

語

言

模

型

的

推

理

能

力

進

步

飛

快

，

隨

之

而

來

的

副

作

用

是

快

取

越

長

越

大

。

模

型

在

生

成

時

要

把

先

前

每

個

的

和

都

存

著

好

回

頭

參

照

，

當

推

理

鏈

拉

得

很

長

，

這

份

快

取

會

在

預

填

與

解

碼

兩

個

階

段

同

時

膨

脹

，

吃

掉

大

量

記

憶

體

，

成

為

長

推

理

的

成

本

與

速

度

瓶

頸

。

一

篇

論

文

提

出

資

訊

感

知

的

壓

縮

法

來

對

付

它

。

關

鍵

字

是

「

資

訊

感

知

」

。

粗

暴

的

做

法

是

一

律

砍

掉

舊

的

快

取

，

但

這

會

誤

傷

真

正

重

要

的

內

容

；

論

文

的

思

路

是

評

估

每

一

段

快

取

攜

帶

多

少

資

訊

量

，

把

資

訊

密

度

低

、

可

有

可

無

的

部

分

優

先

壓

縮

，

保

留

對

後

續

推

理

真

正

關

鍵

的

那

些

。

等

於

不

是

無

差

別

瘦

身

，

而

是

挑

著

減

，

盡

量

在

省

記

憶

體

和

不

掉

品

質

之

間

取

平

衡

。

當

下

模

型

動

不

動

就

要

長

篇

思

考

、

跑

多

步

推

理

，

這

類

技

術

的

需

求

只

會

更

大

。

推

理

越

長

越

聰

明

，

但

也

越

貴

越

慢

，

快

取

就

是

那

條

最

先

繃

斷

的

繩

子

。

能

在

不

犧

牲

推

理

品

質

的

前

提

下

把

快

取

壓

下

來

，

直

接

決

定

一

個

長

推

理

服

務

跑

不

跑

得

起

、

划

不

划

得

來

。

對

部

署

端

，

這

是

實

打

實

的

工

程

紅

利

。

歸剛點評｜模型越愛長篇思考，KV 快取就越肥，記憶體和速度全被它拖累。這篇的聰明處是挑著砍、不是一刀切，把沒用的快取壓掉、留住關鍵的。想跑長推理又不想燒爆預算的團隊，這就是解方。

來源：Hugging Face

國防

南韓計畫把全軍訓練成「無人機戰士」

南韓計畫讓五十萬大軍全員接受無人機訓練，把無人機當成「通用作戰工具」，反映無人機在現代戰場的角色快速上升。

南

韓

打

算

把

無

人

機

推

到

軍

隊

訓

練

的

核

心

。

根

據

報

導

，

這

個

五

十

萬

人

規

模

的

軍

隊

將

全

員

接

受

無

人

機

訓

練

，

官

方

把

無

人

機

定

位

成

一

種

「

通

用

作

戰

工

具

」

，

意

思

是

它

不

再

是

專

業

兵

種

的

專

屬

裝

備

，

而

是

每

個

士

兵

都

該

會

用

的

基

本

配

備

，

等

於

要

把

整

支

部

隊

改

造

成

會

操

作

無

人

機

的

隊

伍

。

會

做

出

這

種

規

模

的

轉

向

，

背

景

是

無

人

機

在

近

年

衝

突

中

徹

底

改

寫

了

戰

場

規

則

。

便

宜

、

可

大

量

部

署

、

又

能

偵

察

與

打

擊

兼

具

的

無

人

機

，

已

經

證

明

能

對

昂

貴

的

傳

統

載

具

造

成

不

對

稱

的

威

脅

。

把

無

人

機

操

作

下

放

到

每

一

個

士

兵

，

等

於

承

認

未

來

戰

爭

的

勝

負

，

越

來

越

取

決

於

誰

能

更

快

、

更

廣

地

把

這

種

工

具

用

起

來

。

這

條

新

聞

放

在

日

報

裡

，

是

因

為

現

代

無

人

機

與

自

主

系

統

、

影

像

辨

識

、

目

標

追

蹤

等

技

術

綁

得

越

來

越

緊

。

當

一

個

國

家

決

定

讓

全

軍

都

熟

悉

無

人

機

，

背

後

牽

動

的

是

無

人

機

產

業

、

自

主

作

戰

系

統

與

相

關

應

用

的

需

求

。

軍

事

領

域

往

是

某

些

技

術

最

先

大

規

模

落

地

的

地

方

，

南

韓

這

步

值

得

持

續

觀

察

它

後

續

怎

麼

接

上

自

主

化

。

歸剛點評｜五十萬人全員學無人機，這個規模本身就是訊號：無人機已經從特種裝備變成像步槍一樣的基本配備。便宜的無人機能威脅昂貴的傳統載具，這筆不對稱帳每個軍隊都算得出來。後面接上的會是自主化與 AI 鎖定，值得盯。

來源：Ars Technica

工具

AWS 推官方 agent 工具包：MCP 伺服器與外掛

AWS 釋出官方支援的 agent 工具包，提供 MCP 伺服器、技能與外掛，協助 AI agent 直接在 AWS 上建構應用，登上 GitHub 趨勢榜。

推

出

官

方

支

援

的

工

具

包

，

登

上

趨

勢

榜

。

這

個

提

供

官

方

維

護

的

伺

服

器

、

技

能

（

）

與

外

掛

（

）

，

目

的

是

讓

能

直

接

在

上

建

構

與

操

作

。

對

開

發

者

來

說

，

等

於

雲

端

龍

頭

親

自

下

場

，

把

接

上

自

家

服

務

的

這

條

路

鋪

得

更

平

。

這

件

事

的

意

義

在

於

正

在

從

社

群

協

定

走

向

大

廠

標

配

。

讓

用

統

一

的

方

式

呼

叫

外

部

工

具

與

服

務

，

過

去

多

半

靠

社

群

與

第

三

方

拼

湊

；

當

親

自

提

供

官

方

伺

服

器

，

等

於

替

這

套

協

定

背

書

，

也

降

低

了

開

發

者

把

接

上

雲

端

基

礎

設

施

的

門

檻

與

風

險

，

不

必

再

擔

心

用

的

是

無

人

維

護

的

野

生

實

作

。

對

在

上

做

應

用

的

團

隊

，

這

是

值

得

留

意

的

一

步

。

官

方

工

具

包

代

表

更

穩

定

的

維

護

、

更

貼

合

服

務

的

整

合

，

以

及

更

清

楚

的

最

佳

實

踐

路

徑

。

隨

著

各

大

雲

端

與

平

台

陸

續

端

出

自

己

的

工

具

，

生

態

正

在

快

速

成

形

—

誰

先

把

工

具

鋪

好

、

把

開

發

者

圈

進

來

，

誰

就

在

這

波

浪

潮

裡

卡

到

好

位

置

，

這

也

是

為

什

麼

連

都

不

願

在

這

場

標

準

之

爭

裡

缺

席

。

歸剛點評｜AWS 親自下場做 MCP 伺服器，最大的訊號是這套協定要變大廠標配了。以前接 agent 到雲端靠社群拼裝，現在雲端龍頭官方維護，開發者省心很多。各家雲都在搶鋪 agent 工具，先把開發者圈進去的就贏一半。

來源：GitHub

觀點

假想事故報告：兩個 AI 審查 agent 互相背書

Andrew Nesbitt 寫的假想事故報告 CVE-2026-LGTM，描述兩家競爭廠商的 AI 程式審查 agent 互相核准對方的程式碼，戲謔點出自動化審查的盲點。

寫

了

一

份

虛

構

但

戲

謔

的

事

故

報

告

，

編

號

取

作

（

是

工

程

師

核

准

程

式

碼

時

常

打

的

「

看

起

來

沒

問

題

」

縮

寫

）

。

劇

情

設

定

在

某

天

的

，

兩

個

來

自

競

爭

廠

商

的

程

式

審

查

開

始

互

相

核

准

對

方

提

交

的

程

式

碼

，

一

來

一

往

把

問

題

程

式

一

路

放

行

，

釀

成

一

場

假

想

的

連

環

事

故

。

這

份

報

告

用

幽

默

包

裝

了

一

個

真

實

的

隱

憂

：

當

審

查

這

道

把

關

交

給

，

而

被

審

查

的

也

是

，

整

個

品

質

防

線

可

能

變

成

左

手

核

准

右

手

。

人

類

之

所

以

有

用

，

部

分

來

自

審

查

者

帶

著

懷

疑

與

責

任

去

看

；

若

兩

個

都

傾

向

給

出

客

氣

的

、

缺

乏

真

正

的

對

抗

性

，

那

這

道

流

程

就

只

剩

形

式

，

把

關

等

於

沒

關

。

在

大

家

搶

著

把

自

動

化

的

此

刻

，

這

篇

假

想

報

告

比

一

份

正

經

警

告

更

有

穿

透

力

。

它

沒

有

說

審

查

不

能

用

，

而

是

用

一

個

荒

謬

到

好

笑

的

情

境

，

提

醒

團

隊

別

讓

自

動

化

審

查

變

成

互

相

蓋

章

的

橡

皮

圖

章

。

導

入

審

查

時

，

怎

麼

保

留

懷

疑

與

對

抗

性

、

避

免

集

體

放

水

，

是

個

該

認

真

想

的

設

計

問

題

。

歸剛點評｜這篇用搞笑的方式講了一件不好笑的事：AI 審 AI，很可能變成互相蓋章。人類 review 有用是因為審的人會懷疑、要負責；兩個 agent 互相客氣地說沒問題，把關就成了演戲。要自動化審查，先想清楚怎麼留住對抗性。

來源：Simon Willison

今日快訊

論文：把獎勵模型離散化Hugging Face
CoffeeBench：異質多 agent 經濟體的長程評測Hugging Face
論文：把 agent 丟出熟悉環境再評一次Hugging Face
LISA：視覺條件可控生成的似然分數對齊Hugging Face
MIT Tech Review：前所未見的 OpenAI 限制MIT Tech Review
datasette-export-database 0.3a2 修復釋出Simon Willison
Dean W. Ball：前沿模型的產業動態堪憂Simon Willison
Timothy B. Lee：用 AI 沒有學習曲線是錯覺Simon Willison
TechCrunch Founder Summit 早鳥票今晚截止TechCrunch