歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

第 18 期2026-06-27(台北時間)

第十八期。今天的主旋律只有一個字:權力。OpenAI 在週五掀開 GPT-5.6 系列的限量預覽,Sol、Terra、Luna 三款一字排開;但真正的新聞不在模型本身,而在它出場的方式——白宮先要求緩發、OpenAI 只給少數夥伴試用,公司還公開表態不希望這種政府審查變成常態。隔壁 Anthropic 的 Mythos 已經被勒令下線兩週、僵局未解。美國政府的手,已經實際伸進了前沿模型要不要、什麼時候、給誰用。其餘版面留給晶片、訴訟、研究與一場沒人攻破的紅隊挑戰。

模型

OpenAI 預覽 GPT-5.6 三模型:Sol、Terra、Luna

OpenAI 預覽 GPT-5.6 三模型:Sol、Terra、Luna

O

p

e

n

A

I

G

P

T

-

5

.

6

S

o

l

O

p

e

n

A

I

T

e

r

r

a

G

P

T

-

5

.

5

便

L

u

n

a

S

o

l

T

e

r

r

a

L

u

n

a

姿

歸剛點評|三款分層其實是在搶不同錢包:Sol 收頂規客戶、Terra 用對半砍的價格去打高用量場景、Luna 守住便宜這條防線。但這代真正的看點是它被政府盯著出場,技術反而成了配角。
來源:OpenAI · Simon Willison · The Verge
監管

白宮要求 OpenAI 緩發 GPT-5.6,只給少數夥伴

報導指 OpenAI 原本要廣泛開放新模型,川普政府以安全顧慮為由要求先緩發,改成只分享給少數合作夥伴。

白宮要求 OpenAI 緩發 GPT-5.6,只給少數夥伴

G

P

T

-

5

.

6

O

p

e

n

A

I

沿

姿

退

A

n

t

h

r

o

p

i

c

M

y

t

h

o

s

O

p

e

n

A

I

沿

歸剛點評|重點不是這一款慢幾天上線,而是「上線前要先過政府這關」開始變成預設值。對台灣這種高度依賴美國模型的市場,等於你能用到什麼工具、什麼時候用得到,主導權握在華府手裡。
來源:TechCrunch · The Verge
監管

OpenAI 公開反對:政府審查不該成常態

OpenAI 配合這次緩發,但同步發聲明表示不認為這種政府審查流程應成為長期預設,會擋住使用者、開發者與資安防禦方取得最好工具。

OpenAI 公開反對:政府審查不該成常態

O

p

e

n

A

I

滿

使

O

p

e

n

A

I

沿

O

p

e

n

A

I

歸剛點評|這段聲明翻成白話就是:我這次聽話,但別把聽話當成以後的規矩。OpenAI 想兩邊不得罪,但它已經證明政府的煞車踩得下去——往後想抗議,籌碼只會更少。
來源:TechCrunch
監管

Anthropic 的 Mythos 下線兩週,僵局未解

Anthropic 兩週前在川普政府週五晚的最後通牒下把 Mythos 級模型下線,火速派高管赴華府,但至今無進展、多次拒絕置評。

Anthropic 的 Mythos 下線兩週,僵局未解

A

n

t

h

r

o

p

i

c

A

n

t

h

r

o

p

i

c

M

y

t

h

o

s

M

y

t

h

o

s

O

p

e

n

A

I

沿

A

n

t

h

r

o

p

i

c

歸剛點評|Anthropic 一直賣的是「我們最安全」,結果第一個被政府摁住的就是它,諷刺得很。下線兩週還沒下文,代表這不是技術問題能解的,是政治帳。它越安靜,越說明談得不順。
來源:The Verge
觀點

評論:已經不是 Anthropic 對 OpenAI 之爭

TechCrunch 評論指出,AI 模型能力已進步到帶有真實政治後果的程度,應對這些後果需要的是集體行動,而非廠商間的零和競爭。

評論:已經不是 Anthropic 對 OpenAI 之爭

T

e

c

h

C

r

u

n

c

h

A

n

t

h

r

o

p

i

c

O

p

e

n

A

I

A

I

沿

退

A

I

M

y

t

h

o

s

G

P

T

-

5

.

6

歸剛點評|我們很容易把 AI 看成兩隊比分,但這篇提醒得對:當模型強到能左右國安,政府要管的是整個賽場,不是哪一隊。看熱鬧的人盯著比分,真正的變化發生在規則本身。
來源:TechCrunch
硬體

OpenAI 自研 Jalapeño 晶片,向 Nvidia 鬆綁

從 OpenAI 到 SpaceX 都在自研晶片,OpenAI 公布代號 Jalapeño 的晶片計畫,被視為大型科技公司擺脫 Nvidia 依賴的最辛辣一步。

OpenAI 自研 Jalapeño 晶片,向 Nvidia 鬆綁

O

p

e

n

A

I

J

a

l

a

p

e

ñ

o

西

N

v

i

d

i

a

N

v

i

d

i

a

O

p

e

n

A

I

S

p

a

c

e

X

沿

使

N

v

i

d

i

a

A

I

沿

N

v

i

d

i

a

J

a

l

a

p

e

ñ

o

N

v

i

d

i

a

N

v

i

d

i

a

歸剛點評|自研晶片短期幾乎都是賠錢貨,會做純粹是被掐怕了。Nvidia 一家獨大太久,客戶連排隊買貨都要看臉色,現在大咖集體出走,就算造不出更好的,至少手上多一張議價牌。
來源:TechCrunch · TechCrunch
產業

OpenAI 挖角 Uber 印度負責人,主攻美國外最大市場

OpenAI 延攬 Uber 印度負責人來領軍印度業務,這是它擴張辦公室、合作與招募、深耕美國以外最大市場的最新一步。

OpenAI 挖角 Uber 印度負責人,主攻美國外最大市場

O

p

e

n

A

I

U

b

e

r

O

p

e

n

A

I

O

p

e

n

A

I

使

U

b

e

r

歸剛點評|找 Uber 印度的人來打印度,選得很準——印度市場最難的就是又便宜又難搞,Uber 在那邊摸爬滾打多年。本土被政府盯著,海外成長就更重要,這步是進攻也是避險。
來源:TechCrunch
監管

德國判 Google 須為 AI 摘要的錯誤負責

資安專家 Bruce Schneier 評德國近期裁決:Google 須為其 AI 摘要引入的錯誤負法律責任,AI agent 應被視為部署者的代理人。

德國判 Google 須為 AI 摘要的錯誤負責

A

I

調

G

o

o

g

l

e

A

I

B

r

u

c

e

S

c

h

n

e

i

e

r

A

I

a

g

e

n

t

A

I

A

I

S

c

h

n

e

i

e

r

A

I

a

g

e

n

t

A

I

A

I

a

g

e

n

t

歸剛點評|這判決的原則很對:你派 AI 出去做事,AI 闖的禍就算你的。企業最想要的就是享受自動化、又把出錯推給機器,德國法院直接把這條後路封了。台灣企業導入 agent 前,這筆責任帳要先算清楚。
資安

2000 人來攻擊我的 AI 助理,沒人成功

Fernando Irarrázaval 用 hackmyclaw.com 辦挑戰賽,看有沒有人能用 email 騙出 AI 助理的祕密。約 6000 次嘗試後無人成功,底層用 Opus 4.6 加上一組反提示注入規則。

2000 人來攻擊我的 AI 助理,沒人成功

F

e

r

n

a

n

d

o

I

r

a

r

r

á

z

a

v

a

l

h

a

c

k

m

y

c

l

a

w

.

c

o

m

O

p

e

n

C

l

a

w

t

o

k

e

n

G

o

o

g

l

e

O

p

u

s

4

.

6

L

L

M

A

I

a

g

e

n

t

歸剛點評|這實驗的價值在於它是真刀真槍打出來的,不是嘴上說安全。六千次沒破,不代表永遠破不了,但證明了「規則寫死+模型夠強」這套正面防守是有效的。做 agent 的人別只會擔心提示注入,這就是一份可抄的作業。
研究

論文:coding agent 的獎勵沒有銀彈

HF 論文《The Verification Horizon》指出,古典直覺認為驗證解答比產生解答容易,但對今日 coding agent 而言這個直覺正被反轉,獎勵設計沒有萬靈丹。

論文:coding agent 的獎勵沒有銀彈

H

u

g

g

i

n

g

F

a

c

e

c

o

d

i

n

g

a

g

e

n

t

c

o

d

i

n

g

a

g

e

n

t

調

A

I

R

L

c

o

d

i

n

g

a

g

e

n

t

歸剛點評|這篇戳破一個美好假設:以為模型越強、自動驗證就越好做,自我進化就能無限跑。實際上驗證會越來越難,獎勵訊號一髒,模型就學歪。對所有想做 AI 寫程式的團隊,這是必須先解的卡點。
來源:Hugging Face
研究

論文:多步工具強化學習為何崩潰、如何救

HF 論文分析多步工具使用的強化學習為何會崩潰,並提出用監督訊號修正,讓 LLM 在複雜的多步工具任務上更穩定。

論文:多步工具強化學習為何崩潰、如何救

使

a

g

e

n

t

i

c

H

u

g

g

i

n

g

F

a

c

e

使

a

g

e

n

t

a

g

e

n

t

b

e

n

c

h

m

a

r

k

a

g

e

n

t

歸剛點評|做 agent 的人多半都撞過這個牆:訓練前段好好的,後面突然崩。這篇把原因講清楚還給了解法,比刷榜實在多了。多步工具任務的獎勵又稀又慢,能穩住訓練的方法現在就是稀缺品。
來源:Hugging Face
研究

論文:世界模型的幻覺可預測也可預防

HF 論文指出,現代生成式世界模型雖能產生逼真可控的未來畫面,卻常出現幻覺;研究發現這類幻覺是可預測、也可預防的。

論文:世界模型的幻覺可預測也可預防

H

u

g

g

i

n

g

F

a

c

e

歸剛點評|世界模型最怕的就是畫面漂亮但內容唬爛,拿去開車或控機器人會出事。這篇證明幻覺有跡可循、能提前擋,等於把它從玄學變成工程問題。對自駕和機器人這種輸不起的場景,可預防三個字最值錢。
來源:Hugging Face
研究

論文:電腦操作 agent 的瓶頸在 GUI 還是 CLI

HF 論文比較電腦操作 agent 走圖形介面與走指令列的差異,拆解過去評測中被混淆的互動方式與執行瓶頸。

論文:電腦操作 agent 的瓶頸在 GUI 還是 CLI

a

g

e

n

t

G

U

I

C

L

I

H

u

g

g

i

n

g

F

a

c

e

a

g

e

n

t

G

U

I

a

g

e

n

t

C

L

I

a

g

e

n

t

c

o

m

p

u

t

e

r

-

u

s

e

a

g

e

n

t

a

g

e

n

t

b

e

n

c

h

m

a

r

k

歸剛點評|做電腦操作 agent 的人常忽略這件事:到底是看不懂畫面,還是不會下指令,得分開算。混在一起測,你連自己該優化哪裡都搞不清楚。這篇把座標立乾淨了,算是基本功的提醒。
來源:Hugging Face
研究

論文:JetSpec 用平行樹草稿突破推測解碼天花板

HF 論文 JetSpec 針對推測解碼的擴展瓶頸提出平行樹草稿方法,試圖突破既有加速的天花板,加快自回歸大模型生成。

論文:JetSpec 用平行樹草稿突破推測解碼天花板

t

o

k

e

n

稿

H

u

g

g

i

n

g

F

a

c

e

J

e

t

S

p

e

c

J

e

t

S

p

e

c

稿

J

e

t

S

p

e

c

t

o

k

e

n

使

t

o

k

e

n

J

e

t

S

p

e

c

歸剛點評|推論加速這種題目聽起來無聊,卻是省錢的硬功夫。模型多強,使用者只感覺得到它回多快、多貴。JetSpec 把推測解碼的上限再頂高,跑大規模服務的團隊看到的是帳單變小、延遲變短,很實在。
來源:Hugging Face
研究

論文:替長推理壓縮 KV 快取的資訊感知法

HF 論文提出資訊感知的 KV 快取壓縮法,針對長推理時不斷膨脹的 key-value 快取,在預填與解碼階段都減輕記憶體負擔。

論文:替長推理壓縮 KV 快取的資訊感知法

k

e

y

-

v

a

l

u

e

t

o

k

e

n

k

e

y

v

a

l

u

e

H

u

g

g

i

n

g

F

a

c

e

K

V

歸剛點評|模型越愛長篇思考,KV 快取就越肥,記憶體和速度全被它拖累。這篇的聰明處是挑著砍、不是一刀切,把沒用的快取壓掉、留住關鍵的。想跑長推理又不想燒爆預算的團隊,這就是解方。
來源:Hugging Face
國防

南韓計畫把全軍訓練成「無人機戰士」

南韓計畫讓五十萬大軍全員接受無人機訓練,把無人機當成「通用作戰工具」,反映無人機在現代戰場的角色快速上升。

南韓計畫把全軍訓練成「無人機戰士」

便

A

I

A

I

A

I

歸剛點評|五十萬人全員學無人機,這個規模本身就是訊號:無人機已經從特種裝備變成像步槍一樣的基本配備。便宜的無人機能威脅昂貴的傳統載具,這筆不對稱帳每個軍隊都算得出來。後面接上的會是自主化與 AI 鎖定,值得盯。
來源:Ars Technica
工具

AWS 推官方 agent 工具包:MCP 伺服器與外掛

AWS 釋出官方支援的 agent 工具包,提供 MCP 伺服器、技能與外掛,協助 AI agent 直接在 AWS 上建構應用,登上 GitHub 趨勢榜。

AWS 推官方 agent 工具包:MCP 伺服器與外掛

A

W

S

a

g

e

n

t

G

i

t

H

u

b

a

g

e

n

t

-

t

o

o

l

k

i

t

-

f

o

r

-

a

w

s

M

C

P

s

k

i

l

l

s

p

l

u

g

i

n

s

A

I

a

g

e

n

t

A

W

S

a

g

e

n

t

M

C

P

M

C

P

a

g

e

n

t

A

W

S

M

C

P

a

g

e

n

t

A

W

S

A

I

A

W

S

a

g

e

n

t

M

C

P

a

g

e

n

t

A

W

S

歸剛點評|AWS 親自下場做 MCP 伺服器,最大的訊號是這套協定要變大廠標配了。以前接 agent 到雲端靠社群拼裝,現在雲端龍頭官方維護,開發者省心很多。各家雲都在搶鋪 agent 工具,先把開發者圈進去的就贏一半。
來源:GitHub
觀點

假想事故報告:兩個 AI 審查 agent 互相背書

Andrew Nesbitt 寫的假想事故報告 CVE-2026-LGTM,描述兩家競爭廠商的 AI 程式審查 agent 互相核准對方的程式碼,戲謔點出自動化審查的盲點。

假想事故報告:兩個 AI 審查 agent 互相背書

A

n

d

r

e

w

N

e

s

b

i

t

t

C

V

E

-

2

0

2

6

-

L

G

T

M

L

G

T

M

1

6

:

0

0

U

T

C

A

I

a

g

e

n

t

A

I

A

I

c

o

d

e

r

e

v

i

e

w

a

g

e

n

t

L

G

T

M

c

o

d

e

r

e

v

i

e

w

穿

A

I

A

I

a

g

e

n

t

歸剛點評|這篇用搞笑的方式講了一件不好笑的事:AI 審 AI,很可能變成互相蓋章。人類 review 有用是因為審的人會懷疑、要負責;兩個 agent 互相客氣地說沒問題,把關就成了演戲。要自動化審查,先想清楚怎麼留住對抗性。

今日快訊