第 23 期2026-07-02(台北時間)
七月第二天,AI 的兩條主線同時拉滿。一條是大廠把戰場推進垂直科學——Anthropic 正式推出串接 60 多個資料庫的 Claude Science,直接把大模型搬進藥廠實驗室,Google 與 OpenAI 在同一賽道緊追。另一條是『規則與閘門』的角力全面浮上檯面:美方鬆綁出口管制讓 Fable 5 全球回歸、Anthropic 聯手三巨頭提越獄評分框架,Cloudflare 則畫下 9/15 大限逼 AI 為爬取內容付費。與此同時,Meta 想賣過剩算力、SpaceX 傳做 AI 手機、Venice AI 靠隱私路線成獨角獸,資金正從『拚模型』往『拚算力與能源』下沉。學界這頭,agent 的程序記憶、技能演化與多輪協作成了共同關鍵字。就在這一天,網際網路之父 Vint Cerf 退休——開放網路的世代交棒給一個到處重新豎閘門的 AI 時代。
產品
A
n
t
h
r
o
p
i
c
在
7
月
1
日
正
式
把
C
l
a
u
d
e
S
c
i
e
n
c
e
推
上
檯
面
,
這
是
一
套
專
為
科
學
研
究
打
造
的
A
I
工
作
台
,
把
公
司
的
大
模
型
調
校
到
能
在
實
驗
室
、
尤
其
是
藥
廠
的
研
發
流
程
裡
直
接
用
。
過
去
研
究
員
要
在
幾
十
個
資
料
庫
、
各
種
檔
案
格
式
與
分
析
工
具
之
間
來
回
切
換
,
C
l
a
u
d
e
S
c
i
e
n
c
e
想
把
這
些
全
部
收
進
同
一
個
環
境
,
讓
人
從
查
文
獻
、
跑
分
析
到
寫
報
告
都
在
一
個
地
方
完
成
。
官
方
數
字
是
串
接
超
過
6
0
個
科
學
資
料
庫
,
並
預
載
基
因
體
學
、
蛋
白
質
結
構
分
析
與
化
學
三
大
領
域
的
工
具
箱
。
為
了
把
生
態
圈
養
起
來
,
A
n
t
h
r
o
p
i
c
在
b
e
t
a
階
段
開
了
補
助
計
畫
,
提
供
最
高
3
萬
美
元
的
使
用
額
度
與
專
案
經
費
,
早
期
重
點
壓
在
生
物
與
生
醫
研
究
。
申
請
窗
口
開
到
7
月
1
5
日
,
7
月
3
1
日
發
通
知
,
入
選
專
案
從
9
月
1
日
跑
到
1
2
月
1
日
。
這
套
打
法
很
清
楚
,
先
用
免
費
額
度
把
頂
尖
實
驗
室
綁
進
來
,
讓
他
們
的
研
發
工
作
流
長
在
C
l
a
u
d
e
上
,
之
後
就
很
難
換
掉
。
這
步
棋
的
時
間
點
也
不
是
巧
合
。
A
n
t
h
r
o
p
i
c
傳
出
正
在
準
備
I
P
O
,
把
觸
角
伸
進
毛
利
高
、
預
算
深
的
製
藥
產
業
,
等
於
在
企
業
營
收
之
外
多
開
一
條
科
學
研
發
的
財
源
。
同
一
個
賽
道
上
,
G
o
o
g
l
e
與
O
p
e
n
A
I
都
在
搶
,
O
p
e
n
A
I
四
月
才
推
過
鎖
定
生
物
推
理
的
G
P
T
-
R
o
s
a
l
i
n
d
。
對
台
灣
的
生
技
與
學
研
圈
來
說
,
這
代
表
未
來
跟
你
搶
計
畫
的
同
行
,
手
上
可
能
多
了
一
台
能
同
時
讀
六
十
個
資
料
庫
的
A
I
助
手
,
門
檻
抬
高
的
速
度
會
比
想
像
中
快
。
歸剛點評|AI 大廠的戰線正式從『通用聊天』打進『垂直科學研發』。Anthropic 用免費額度綁住頂尖實驗室的工作流,是為 IPO 鋪高毛利營收;對台灣生技學研圈,這是同行武器升級的訊號,該開始想怎麼把這類工具接進自己的研究管線。
政策
美國商務部撤下對 Anthropic Fable 5 與 Mythos 5 的出口管制,Fable 5 於 7 月 1 日在 Claude 全平台全球恢復。Anthropic 同時聯手 Amazon、微軟、Google 提出替越獄危害打分的產業框架。
6
月
1
2
日
那
道
命
令
,
要
求
A
n
t
h
r
o
p
i
c
對
任
何
外
國
籍
使
用
者
切
斷
F
a
b
l
e
5
與
更
受
控
的
M
y
t
h
o
s
5
,
範
圍
連
公
司
自
己
的
非
美
籍
員
工
都
算
在
內
。
因
為
沒
辦
法
即
時
查
證
每
個
人
的
國
籍
,
A
n
t
h
r
o
p
i
c
乾
脆
對
所
有
人
關
掉
這
兩
個
模
型
,
等
於
整
整
停
擺
了
兩
週
多
。
導
火
線
是
A
m
a
z
o
n
研
究
員
在
F
a
b
l
e
5
上
找
到
一
個
越
獄
手
法
,
能
讓
模
型
指
出
幾
個
軟
體
漏
洞
,
其
中
一
次
還
寫
出
示
範
如
何
利
用
漏
洞
的
程
式
碼
。
6
月
3
0
日
,
商
務
部
撤
下
管
制
,
F
a
b
l
e
5
在
7
月
1
日
於
C
l
a
u
d
e
.
a
i
、
C
l
a
u
d
e
P
l
a
t
f
o
r
m
、
C
l
a
u
d
e
C
o
d
e
與
C
l
a
u
d
e
C
o
w
o
r
k
全
球
恢
復
。
能
解
禁
,
靠
的
是
A
n
t
h
r
o
p
i
c
訓
了
一
個
新
的
安
全
分
類
器
,
專
門
盯
住
報
告
裡
那
個
攻
擊
技
術
,
官
方
說
攔
截
率
超
過
9
9
%
。
M
y
t
h
o
s
5
因
為
護
欄
較
少
,
被
綁
得
更
緊
,
6
月
2
6
日
先
開
放
給
約
一
百
家
防
衛
關
鍵
基
礎
設
施
的
美
國
企
業
與
聯
邦
機
構
。
更
值
得
看
的
是
後
續
制
度
化
的
動
作
。
A
n
t
h
r
o
p
i
c
找
上
A
m
a
z
o
n
、
微
軟
、
G
o
o
g
l
e
,
提
議
用
一
套
共
同
標
準
替
未
來
的
越
獄
事
件
打
分
,
從
能
力
增
益
、
影
響
廣
度
、
武
器
化
難
易
與
可
發
現
性
四
個
維
度
評
級
。
值
得
注
意
的
是
,
模
型
能
不
能
上
線
,
越
來
越
取
決
於
它
在
資
安
攻
擊
面
的
表
現
與
政
府
監
管
的
角
力
,
而
不
只
是
跑
分
高
低
。
對
台
灣
用
戶
來
說
,
短
期
最
實
際
的
影
響
是
F
a
b
l
e
5
又
能
用
了
;
長
期
則
要
習
慣
,
前
沿
模
型
的
可
用
性
會
被
地
緣
政
治
與
安
全
審
查
反
覆
牽
動
。
歸剛點評|這件事把一個殘酷現實攤開:前沿模型的生死不在技術,而在監管紅線。Anthropic 從被迫全球斷線到主動提出評分框架,是想把規則制定權握在自己手上。台灣團隊選 API 時要把『政策風險』也列入評估,別把某個模型的可用性當理所當然。
產業
Cloudflare 給 AI 公司到 9 月 15 日的期限,把搜尋用爬蟲跟訓練/agent 用爬蟲分開,否則在許多刊物網站上被預設封鎖。Pay Per Crawl 進化成 Pay Per Use,讓內容方按價值收費。
C
l
o
u
d
f
l
a
r
e
丟
出
一
條
會
改
寫
網
路
內
容
經
濟
的
政
策
。
從
9
月
1
5
日
起
,
平
台
預
設
會
擋
住
那
些
把
搜
尋
、
a
g
e
n
t
、
訓
練
混
在
一
起
的
『
混
用
型
』
爬
蟲
,
讓
它
們
進
不
了
有
廣
告
的
頁
面
,
除
非
站
主
自
己
改
設
定
。
這
套
新
預
設
會
套
用
在
新
客
戶
、
既
有
客
戶
新
開
的
網
站
,
以
及
所
有
免
費
方
案
的
既
有
客
戶
身
上
。
傳
統
的
搜
尋
爬
蟲
照
樣
放
行
,
被
針
對
的
是
那
種
一
邊
假
裝
來
做
搜
尋
、
一
邊
把
內
容
抓
去
餵
模
型
的
行
為
。
配
套
的
收
費
機
制
也
升
級
了
。
原
本
的
P
a
y
P
e
r
C
r
a
w
l
演
進
成
P
a
y
P
e
r
U
s
e
,
收
費
邏
輯
從
『
你
抓
了
幾
次
』
改
成
『
你
的
內
容
替
A
I
創
造
了
多
少
價
值
』
。
對
每
一
隻
A
I
爬
蟲
,
發
行
商
可
以
三
選
一
:
免
費
放
行
、
按
次
收
費
、
或
直
接
封
鎖
,
C
l
o
u
d
f
l
a
r
e
自
己
當
收
款
方
(
M
e
r
c
h
a
n
t
o
f
R
e
c
o
r
d
)
並
提
供
底
層
技
術
。
這
給
了
刊
物
一
個
過
去
沒
有
的
籌
碼
,
把
流
量
被
白
嫖
的
困
境
變
成
一
張
可
以
談
判
的
牌
。
C
l
o
u
d
f
l
a
r
e
的
算
盤
是
逼
A
I
公
司
把
搜
尋
跟
訓
練
、
a
g
e
n
t
用
途
切
乾
淨
,
否
則
就
付
錢
。
這
件
事
牽
動
的
是
整
個
內
容
供
給
鏈
的
權
力
平
衡
—
—
過
去
A
I
公
司
免
費
爬
走
全
網
,
如
今
守
門
的
C
D
N
站
出
來
收
過
路
費
。
對
經
營
內
容
網
站
的
人
,
包
括
M
a
x
手
上
那
幾
個
A
I
日
報
與
資
料
站
,
這
是
一
個
要
開
始
盤
點
『
我
要
不
要
收
A
I
爬
蟲
的
錢
、
還
是
繼
續
開
放
換
曝
光
』
的
現
實
問
題
,
9
月
1
5
日
是
個
該
記
下
來
的
日
子
。
歸剛點評|守在全網流量咽喉的 CDN 終於對 AI 白嫖出手,內容方第一次握有『收過路費』的實權。這會直接改變 AI 公司的訓練資料成本結構,也逼每個內容網站主做選擇。經營內容站的人現在就該想清楚 9/15 之後的立場。
模型
Hugging Face 與 Cerebras 把 Google DeepMind 的 Gemma 4 帶進即時語音場景。Gemma 4 31B 在 Cerebras 上跑超過每秒 1800 token、首字延遲 1.5 秒,多模態含音訊,Apache 2 授權。
G
o
o
g
l
e
D
e
e
p
M
i
n
d
的
開
源
多
模
態
模
型
G
e
m
m
a
4
這
次
跟
C
e
r
e
b
r
a
s
合
作
,
把
速
度
推
到
能
做
即
時
語
音
的
等
級
。
G
e
m
m
a
4
是
一
整
個
家
族
,
有
E
2
B
、
E
4
B
、
3
1
B
與
2
6
B
-
A
4
B
(
M
o
E
)
等
尺
寸
,
走
A
p
a
c
h
e
2
授
權
可
商
用
,
音
訊
能
力
落
在
E
2
B
、
E
4
B
與
1
2
B
上
,
能
做
語
音
辨
識
、
講
者
分
離
、
影
片
理
解
與
a
g
e
n
t
推
理
。
開
源
加
上
多
模
態
,
本
來
就
是
想
讓
開
發
者
把
語
音
助
理
這
類
應
用
自
己
長
出
來
。
真
正
的
關
鍵
是
速
度
。
G
e
m
m
a
4
3
1
B
跑
在
C
e
r
e
b
r
a
s
I
n
f
e
r
e
n
c
e
上
超
過
每
秒
1
8
0
0
t
o
k
e
n
,
官
方
稱
是
全
世
界
最
快
的
多
模
態
模
型
;
更
重
要
的
是
首
個
回
應
t
o
k
e
n
只
要
1
.
5
秒
就
吐
出
來
。
語
音
互
動
最
怕
延
遲
,
人
一
開
口
、
等
超
過
一
兩
秒
才
回
話
就
崩
了
,
C
e
r
e
b
r
a
s
說
自
己
是
唯
一
能
讓
G
e
m
m
a
4
用
在
即
時
場
景
的
供
應
商
,
賣
的
正
是
這
個
『
夠
快
到
不
尷
尬
』
的
體
感
。
6
月
2
9
日
起
,
G
e
m
m
a
4
3
1
B
已
在
C
e
r
e
b
r
a
s
I
n
f
e
r
e
n
c
e
C
l
o
u
d
公
開
預
覽
。
把
開
源
多
模
態
模
型
跟
專
用
推
理
硬
體
綁
在
一
起
,
等
於
給
想
做
即
時
語
音
A
I
的
團
隊
一
條
不
必
自
己
養
旗
艦
閉
源
模
型
的
路
。
對
台
灣
的
應
用
開
發
者
,
這
意
味
著
做
客
服
語
音
、
即
時
口
譯
、
語
音
a
g
e
n
t
的
技
術
門
檻
正
在
下
降
,
A
p
a
c
h
e
2
授
權
也
讓
商
用
少
了
法
務
顧
慮
。
真
正
要
盤
算
的
是
成
本
與
延
遲
的
甜
蜜
點
落
在
哪
裡
,
以
及
本
機
小
模
型
(
例
如
M
a
c
上
的
O
l
l
a
m
a
)
跟
這
種
高
速
雲
端
推
理
該
怎
麼
分
工
。
歸剛點評|即時語音 AI 卡了很久的『延遲』問題被硬體端解掉了一大半。開源多模態+每秒 1800 token 的組合,把語音助理、即時口譯這類應用的門檻拉低。想做語音產品的台灣團隊,現在有了不必自建旗艦模型的可行路徑。
資金
主打不記錄對話的 Venice AI 完成 6500 萬美元 A 輪、估值 10 億美元,這是它首次對外募資。公司已獲利,年化營收超過 7000 萬美元,逾 300 萬用戶、每月處理 1.3 兆 token。
由
加
密
老
將
E
r
i
k
V
o
o
r
h
e
e
s
創
立
的
V
e
n
i
c
e
A
I
完
成
6
5
0
0
萬
美
元
A
輪
,
估
值
一
舉
站
上
1
0
億
美
元
、
正
式
成
為
獨
角
獸
,
而
這
竟
是
它
第
一
次
對
外
募
資
。
更
少
見
的
是
,
公
司
在
拿
錢
之
前
就
已
經
賺
錢
—
—
年
化
營
收
超
過
7
0
0
0
萬
美
元
,
早
在
2
0
2
6
年
第
一
季
就
轉
為
獲
利
。
這
輪
由
專
注
加
密
的
創
投
D
r
a
g
o
n
f
l
y
領
投
,
C
o
i
n
b
a
s
e
V
e
n
t
u
r
e
s
、
N
o
r
t
h
I
s
l
a
n
d
V
e
n
t
u
r
e
s
等
跟
進
。
V
e
n
i
c
e
的
賣
點
是
隱
私
。
它
宣
稱
不
記
錄
、
不
儲
存
使
用
者
的
提
問
與
回
應
,
對
話
留
在
使
用
者
自
己
的
裝
置
上
,
同
時
把
競
品
內
建
的
許
多
內
容
過
濾
拿
掉
,
給
的
是
一
個
更
少
審
查
、
更
保
護
隱
私
的
環
境
。
這
套
定
位
替
它
圈
出
一
群
特
定
用
戶
:
平
台
已
有
超
過
3
0
0
萬
活
躍
使
用
者
,
每
月
處
理
1
.
3
兆
t
o
k
e
n
、
每
天
超
過
1
7
0
萬
次
A
P
I
呼
叫
。
有
趣
的
是
,
雖
然
創
辦
人
出
身
加
密
圈
,
真
正
用
加
密
貨
幣
付
款
的
用
戶
只
佔
約
8
%
。
V
e
n
i
c
e
這
個
案
子
值
得
看
,
因
為
它
證
明
了
『
隱
私
優
先
』
在
生
成
式
A
I
裡
撐
得
起
一
門
生
意
,
能
養
出
獨
角
獸
的
商
業
模
式
。
當
主
流
工
具
愈
來
愈
往
企
業
合
規
、
內
容
審
查
靠
攏
,
市
場
另
一
端
就
冒
出
對
『
我
的
對
話
不
要
被
存
下
來
』
有
強
烈
需
求
的
一
群
人
。
對
台
灣
的
產
品
人
,
這
是
一
個
提
醒
:
差
異
化
不
一
定
要
拚
模
型
多
強
,
把
某
個
被
主
流
忽
略
的
價
值
(
隱
私
、
無
審
查
、
資
料
自
主
)
做
到
極
致
,
一
樣
能
長
成
生
意
。
歸剛點評|『隱私優先』被證明是能賺錢、還能養成獨角獸的路線,而不是空口號。募資前就獲利、年化營收 7000 萬,含金量很高。給台灣產品人的啟示是:差異化未必要拚模型強度,把主流忽略的價值做到極致同樣能成事。
產業
據報 Meta 正籌建雲端業務,把過剩的 AI 運算能力賣給外部客戶。內部代號 Meta Compute,考慮兩條路:直接賣裸算力,或讓開發者存取託管在 Meta 基礎設施上的 AI 模型。消息傳出股價一度漲 9%。
據
B
l
o
o
m
b
e
r
g
報
導
,
M
e
t
a
正
在
籌
建
一
門
雲
端
生
意
,
把
手
上
過
剩
的
A
I
運
算
能
力
賣
給
外
部
客
戶
。
這
件
事
被
歸
在
內
部
代
號
M
e
t
a
C
o
m
p
u
t
e
的
計
畫
底
下
,
由
基
礎
設
施
主
管
S
a
n
t
o
s
h
J
a
n
a
r
d
h
a
n
、
M
e
t
a
超
智
能
實
驗
室
的
D
a
n
i
e
l
G
r
o
s
s
與
總
裁
D
i
n
a
P
o
w
e
l
l
M
c
C
o
r
m
i
c
k
帶
頭
,
目
前
還
在
發
展
中
。
消
息
一
出
,
M
e
t
a
股
價
一
度
漲
了
約
9
%
,
市
場
顯
然
買
單
。
檯
面
上
有
兩
條
路
線
在
討
論
。
一
是
像
C
o
r
e
W
e
a
v
e
那
種
n
e
o
c
l
o
u
d
公
司
,
直
接
賣
裸
運
算
能
力
;
二
是
讓
開
發
者
存
取
託
管
在
M
e
t
a
基
礎
設
施
上
的
A
I
模
型
,
模
式
類
似
A
m
a
z
o
n
的
B
e
d
r
o
c
k
,
由
M
e
t
a
顧
資
料
中
心
、
按
存
取
量
收
費
。
祖
克
柏
在
五
月
的
股
東
會
上
就
說
過
,
進
軍
雲
端
運
算
『
絕
對
在
考
慮
之
列
』
,
還
提
到
幾
乎
每
週
都
有
公
司
來
敲
門
,
想
買
M
e
t
a
的
模
型
存
取
權
或
多
餘
算
力
。
轉
向
的
背
後
,
是
整
個
產
業
對
A
I
過
度
投
資
的
焦
慮
。
各
家
砸
下
天
文
數
字
蓋
資
料
中
心
、
囤
晶
片
,
接
下
來
就
得
想
辦
法
讓
這
些
昂
貴
資
產
有
回
報
。
M
e
t
a
跟
前
一
天
傳
出
類
似
打
算
的
S
p
a
c
e
X
一
樣
,
都
在
把
『
自
用
剩
下
的
算
力
』
變
成
現
金
流
。
對
台
灣
看
雲
端
與
A
I
基
礎
設
施
的
人
,
這
代
表
算
力
供
給
端
的
玩
家
愈
來
愈
多
、
競
爭
會
更
激
烈
,
中
小
團
隊
未
來
租
G
P
U
的
選
擇
與
議
價
空
間
可
能
因
此
變
大
,
值
得
持
續
盯
著
價
格
走
勢
。
歸剛點評|當蓋資料中心的錢多到還不完,巨頭就開始把自用剩下的算力拿出來賣。Meta 下場等於雲端市場又多一個重量級供給者,長期對租 GPU 的中小團隊是利多——選擇變多、議價空間變大。這是 AI 投資週期進入『要回本』階段的明確訊號。
產品
Google 把 24/7 的 agent 助理 Gemini Spark 帶到 Mac(beta),限美國 Google AI Ultra 訂戶。能把 Downloads 裡的 PDF 分類歸檔、操作 Workspace、用本機檔案建試算表,並整合 Canva、Dropbox、Zillow 等第三方 app。
G
o
o
g
l
e
把
它
的
a
g
e
n
t
助
理
G
e
m
i
n
i
S
p
a
r
k
搬
上
了
M
a
c
,
這
一
版
加
進
既
有
的
G
e
m
i
n
i
桌
面
a
p
p
,
目
前
是
b
e
t
a
,
只
開
放
給
美
國
的
G
o
o
g
l
e
A
I
U
l
t
r
a
訂
戶
。
跟
一
般
聊
天
助
理
不
同
,
S
p
a
r
k
主
打
的
是
真
的
動
手
做
事
:
在
M
a
c
上
你
可
以
叫
它
把
D
o
w
n
l
o
a
d
s
資
料
夾
裡
的
P
D
F
依
規
則
分
門
別
類
歸
檔
,
也
能
操
作
W
o
r
k
s
p
a
c
e
a
p
p
、
用
你
電
腦
裡
的
檔
案
生
成
試
算
表
,
並
即
時
追
蹤
你
關
心
的
主
題
。
這
次
也
擴
大
了
第
三
方
整
合
,
接
上
C
a
n
v
a
、
D
r
o
p
b
o
x
、
I
n
s
t
a
c
a
r
t
、
O
p
e
n
T
a
b
l
e
與
Z
i
l
l
o
w
R
e
n
t
a
l
s
等
服
務
,
等
於
把
a
g
e
n
t
的
手
伸
進
更
多
日
常
應
用
。
G
o
o
g
l
e
還
預
告
『
很
快
』
能
在
手
機
上
指
派
多
步
驟
任
務
給
S
p
a
r
k
,
例
如
用
手
機
遠
端
叫
桌
面
a
g
e
n
t
去
M
a
c
上
撈
某
個
檔
案
的
資
料
;
至
於
在
I
/
O
2
0
2
6
展
示
過
的
m
a
c
O
S
語
音
互
動
,
這
次
還
沒
一
起
到
。
把
a
g
e
n
t
從
『
回
答
問
題
』
推
進
到
『
替
你
操
作
電
腦
與
跨
a
p
p
辦
事
』
,
是
今
年
各
家
A
I
的
主
戰
場
,
而
G
e
m
i
n
i
S
p
a
r
k
能
整
理
D
o
w
n
l
o
a
d
s
、
跨
a
p
p
執
行
任
務
這
件
事
,
也
讓
信
任
與
安
全
的
份
量
跟
著
加
重
—
—
你
等
於
把
檔
案
系
統
與
帳
號
權
限
交
給
一
個
會
自
己
動
手
的
助
理
。
對
M
a
x
這
種
在
M
a
c
m
i
n
i
上
重
度
用
A
I
跑
工
作
流
的
人
,
這
類
桌
面
a
g
e
n
t
值
得
實
測
:
它
能
接
手
的
瑣
事
(
分
類
檔
案
、
整
理
下
載
、
生
報
表
)
,
正
好
是
每
天
吃
掉
時
間
、
又
不
需
要
高
階
判
斷
的
苦
力
活
。
歸剛點評|桌面 agent 正從『會聊天』走向『會替你操作電腦』,這正是 Max 工作流裡想外包的那類確定性苦力(整理下載、分類檔案、生報表)。值得實測能接手多少;同時也提醒,把檔案與帳號權限交給會自己動手的 agent,安全邊界要先想清楚。
硬體
據報 SpaceX 在上市前向投資人展示一款『類似手機』的 AI 裝置原型。搭配它把過剩算力變現的動作,被解讀為想把觸角伸進無線通訊市場的又一個訊號。
據
報
導
,
S
p
a
c
e
X
在
準
備
上
市
之
前
,
向
投
資
人
秀
出
一
款
外
形
『
很
像
手
機
』
的
A
I
裝
置
原
型
。
細
節
目
前
不
多
,
但
這
個
動
作
被
外
界
讀
成
一
個
訊
號
:
S
p
a
c
e
X
想
把
版
圖
從
火
箭
與
衛
星
,
往
消
費
端
的
無
線
通
訊
市
場
延
伸
。
它
旗
下
的
S
t
a
r
l
i
n
k
已
經
在
做
衛
星
直
連
手
機
的
服
務
,
一
台
自
家
的
手
機
形
A
I
裝
置
,
剛
好
能
把
『
衛
星
網
路
+
終
端
裝
置
』
串
成
一
條
龍
。
把
這
件
事
跟
同
期
另
一
則
消
息
擺
在
一
起
看
更
有
意
思
—
—
S
p
a
c
e
X
也
被
傳
在
盤
算
把
過
剩
的
運
算
能
力
拿
出
來
變
現
,
跟
M
e
t
a
的
雲
端
算
盤
如
出
一
轍
。
一
邊
是
賣
算
力
、
一
邊
是
做
終
端
硬
體
,
都
指
向
同
一
件
事
:
這
家
公
司
想
從
單
純
的
太
空
基
礎
設
施
,
長
成
一
個
橫
跨
網
路
、
算
力
與
消
費
裝
置
的
綜
合
體
。
當
然
,
原
型
不
等
於
產
品
,
投
資
人
簡
報
上
的
東
西
最
後
量
不
量
產
、
長
什
麼
樣
,
都
還
有
很
大
變
數
。
對
台
灣
的
硬
體
與
供
應
鏈
圈
,
這
類
消
息
的
價
值
不
在
『
S
p
a
c
e
X
要
出
手
機
了
』
這
種
標
題
,
而
在
它
透
露
的
方
向
:
衛
星
直
連
、
A
I
終
端
、
算
力
服
務
正
在
被
同
一
批
玩
家
整
合
。
真
要
落
地
,
背
後
的
通
訊
晶
片
、
天
線
、
電
源
與
代
工
需
求
,
很
可
能
又
會
繞
回
台
灣
供
應
鏈
。
現
階
段
當
成
一
個
值
得
追
蹤
的
早
期
訊
號
就
好
,
別
急
著
下
結
論
。
歸剛點評|火箭公司想做手機,背後是『衛星網路+AI 終端+算力服務』被同一批玩家整合的大方向。真要量產,通訊晶片、天線、代工需求多半會繞回台灣供應鏈。原型不等於產品,現在當早期訊號追蹤,別被標題帶著跑。
資金
自駕公司 Wayve 推出 8500 萬美元的員工股權出售(tender offer),估值達 85 億美元。用員工老股收購當留才與攬才工具,正成為 AI 新創的一股趨勢。
英
國
自
駕
新
創
W
a
y
v
e
開
出
一
輪
8
5
0
0
萬
美
元
的
員
工
老
股
收
購
(
e
m
p
l
o
y
e
e
t
e
n
d
e
r
o
f
f
e
r
)
,
讓
員
工
有
機
會
把
手
上
持
股
變
現
,
公
司
估
值
也
在
這
一
輪
站
上
8
5
億
美
元
。
這
不
是
傳
統
的
對
外
融
資
去
燒
錢
,
而
是
給
早
期
員
工
一
個
落
袋
的
出
口
。
對
一
家
還
沒
上
市
、
股
票
變
不
了
現
的
高
成
長
公
司
來
說
,
這
是
很
實
在
的
一
種
安
撫
人
心
。
用
員
工
老
股
收
購
當
工
具
,
正
在
A
I
新
創
圈
變
成
一
股
趨
勢
。
這
幾
年
頂
尖
A
I
人
才
被
各
家
搶
到
見
骨
,
光
靠
紙
上
財
富
很
難
把
人
留
住
—
—
工
程
師
看
得
到
估
值
飆
高
,
卻
拿
不
到
現
金
。
一
輪
t
e
n
d
e
r
o
f
f
e
r
讓
員
工
能
賣
掉
部
分
持
股
、
把
帳
面
數
字
換
成
真
金
白
銀
,
等
於
在
不
逼
公
司
上
市
的
前
提
下
,
同
時
達
成
留
才
與
攬
才
兩
個
目
的
。
對
想
挖
角
的
競
爭
對
手
,
這
也
是
一
道
防
線
。
這
個
現
象
值
得
台
灣
的
新
創
與
投
資
圈
注
意
。
它
反
映
的
是
A
I
人
才
市
場
已
經
熱
到
,
公
司
得
主
動
設
計
『
中
途
變
現
』
機
制
才
留
得
住
人
,
而
不
是
叫
大
家
苦
等
I
P
O
。
台
灣
新
創
過
去
在
員
工
股
權
的
流
動
性
上
普
遍
偏
弱
,
隨
著
A
I
帶
動
的
人
才
競
爭
外
溢
,
怎
麼
設
計
出
既
留
才
又
不
失
血
的
股
權
方
案
,
會
愈
來
愈
是
個
現
實
課
題
。
W
a
y
v
e
這
一
步
,
可
以
當
成
一
個
具
體
範
本
來
研
究
。
歸剛點評|AI 人才貴到公司得主動造『中途變現』出口才留得住人,苦等 IPO 已經不夠看。這是 AI 人才市場過熱的溫度計。台灣新創在員工股權流動性上一向偏弱,這道題遲早要面對,Wayve 提供了可研究的範本。
資金
演員兼投資人 Ashton Kutcher 離開一手打造的 Sound Ventures,與 Morgan Beller 合創新創投。Sound 過去以重壓頂尖 AI 實驗室聞名,新基金看來要押的是這些公司底下的基礎設施與能源層。
演
員
出
身
的
投
資
人
A
s
h
t
o
n
K
u
t
c
h
e
r
要
離
開
他
一
手
打
造
的
S
o
u
n
d
V
e
n
t
u
r
e
s
,
和
M
o
r
g
a
n
B
e
l
l
e
r
合
開
一
支
新
的
創
投
基
金
。
S
o
u
n
d
V
e
n
t
u
r
e
s
這
些
年
靠
的
是
集
中
、
高
信
念
的
打
法
,
重
壓
少
數
幾
家
領
頭
的
A
I
實
驗
室
而
打
出
名
號
。
K
u
t
c
h
e
r
這
次
跳
出
來
另
起
爐
灶
,
路
線
看
起
來
換
了
一
層
:
新
基
金
要
追
的
不
是
那
些
站
在
檯
面
上
的
模
型
公
司
,
而
是
它
們
底
下
那
一
層
—
—
支
撐
這
一
切
運
轉
的
基
礎
設
施
與
能
源
。
往
下
游
走
本
身
就
是
一
個
判
斷
。
當
第
一
波
資
金
都
湧
向
做
模
型
、
做
應
用
的
明
星
公
司
,
估
值
被
推
到
很
高
,
聰
明
錢
開
始
往
產
業
鏈
更
下
游
走
,
去
找
那
些
賣
鏟
子
的
人
:
算
力
、
資
料
中
心
、
電
力
供
應
。
A
I
這
幾
年
的
瓶
頸
愈
來
愈
不
是
演
算
法
,
而
是
電
夠
不
夠
、
機
房
蓋
不
蓋
得
出
來
。
押
基
礎
設
施
與
能
源
,
賭
的
就
是
不
管
哪
家
模
型
公
司
最
後
勝
出
,
這
些
底
層
需
求
都
少
不
了
。
對
看
創
投
趨
勢
的
人
,
這
是
一
條
清
楚
的
訊
號
:
A
I
投
資
的
焦
點
正
在
從
『
誰
的
模
型
最
強
』
往
『
誰
供
得
起
算
力
與
電
力
』
移
動
。
M
o
r
g
a
n
B
e
l
l
e
r
過
去
在
區
塊
鏈
與
新
型
金
融
基
礎
設
施
上
的
經
歷
,
也
讓
這
支
新
基
金
的
視
角
多
了
一
層
。
對
台
灣
的
投
資
與
產
業
圈
,
值
得
順
著
這
條
線
去
想
—
—
在
這
波
往
基
礎
設
施
下
沉
的
資
金
裡
,
台
灣
在
半
導
體
、
散
熱
、
電
源
與
代
工
的
既
有
優
勢
,
能
不
能
接
得
住
這
股
需
求
。
歸剛點評|聰明錢開始從『模型明星公司』往下游的算力、資料中心、電力移動,賭的是不管誰勝出、底層需求都少不了。這條『賣鏟子』的投資線,正好對上台灣在半導體、散熱、電源的既有優勢,值得產業圈順著想接單機會。
研究
多數大模型面對開放式問題會收斂到高度雷同的答案,問『1 到 10 選一個數』幾乎都回 7。澳洲新創 Springboards 用一款叫 Flint 的模型訓練出更多樣的回應,試圖解決『AI 群體思考』的老問題。
開
一
個
聊
天
機
器
人
,
不
管
是
C
l
a
u
d
e
、
C
h
a
t
G
P
T
還
是
G
e
m
i
n
i
,
打
上
『
給
我
一
個
1
到
1
0
的
隨
機
數
』
,
你
多
半
會
拿
到
7
;
再
要
一
個
,
通
常
是
3
或
4
;
再
要
,
就
變
8
或
9
。
這
個
小
遊
戲
揭
穿
了
一
件
事
:
多
數
大
模
型
面
對
開
放
式
問
題
時
,
比
你
想
的
更
可
預
測
、
也
更
不
有
創
意
。
M
I
T
T
e
c
h
n
o
l
o
g
y
R
e
v
i
e
w
把
這
叫
『
群
體
思
考
』
—
—
不
只
單
一
模
型
自
己
重
複
,
連
不
同
公
司
的
模
型
都
會
不
約
而
同
收
斂
到
很
像
的
答
案
。
去
年
1
1
月
一
篇
名
為
《
A
r
t
i
f
i
c
i
a
l
H
i
v
e
m
i
n
d
》
的
論
文
把
這
個
現
象
攤
開
來
測
,
發
現
L
L
M
在
開
放
式
提
問
下
的
同
質
化
程
度
高
得
驚
人
。
研
究
者
推
測
原
因
是
,
現
在
的
模
型
大
多
用
相
似
的
資
料
、
相
似
的
方
法
、
去
訓
練
做
相
似
的
任
務
,
結
果
就
是
大
家
都
往
同
一
個
平
均
值
靠
。
這
對
需
要
靠
A
I
發
想
、
探
索
、
找
不
一
樣
角
度
的
場
景
,
是
個
實
實
在
在
的
限
制
。
澳
洲
新
創
S
p
r
i
n
g
b
o
a
r
d
s
端
出
解
方
,
一
款
叫
F
l
i
n
t
的
模
型
,
專
門
被
訓
練
成
對
開
放
式
問
題
給
出
比
主
流
模
型
更
多
樣
的
回
應
。
值
得
玩
味
的
是
,
它
點
出
一
個
容
易
被
忽
略
的
品
質
維
度
:
我
們
評
模
型
時
老
在
比
誰
答
得
更
準
、
更
對
,
卻
很
少
問
誰
答
得
更
不
一
樣
。
對
用
A
I
做
內
容
、
做
腦
力
激
盪
、
做
創
意
發
想
的
人
(
包
括
M
a
x
這
種
靠
A
I
產
出
大
量
文
章
與
點
子
的
)
,
這
是
個
提
醒
—
—
當
你
發
現
產
出
愈
來
愈
千
篇
一
律
,
問
題
可
能
不
在
你
的
提
示
詞
,
而
在
模
型
骨
子
裡
的
收
斂
傾
向
,
適
時
換
模
型
或
刻
意
加
大
隨
機
性
會
有
幫
助
。
歸剛點評|『AI 產出愈來愈像』不一定是你提示詞的錯,而是模型骨子裡就會往平均值收斂。對靠 AI 大量產內容、發想點子的人是實用提醒:評模型別只比誰更準,也要看誰更不一樣;產出變千篇一律時,換模型或加大隨機性會有效。
人物
共同設計網際網路底層協定的 Vint Cerf,將於下週卸下 Google 首席網路傳道者一職、正式退休。他與 Bob Kahn 共同發明的 TCP/IP,是今天整個網路運轉的基礎。
被
稱
為
『
網
際
網
路
之
父
』
之
一
的
V
i
n
t
C
e
r
f
,
將
在
下
週
卸
下
G
o
o
g
l
e
首
席
網
路
傳
道
者
(
c
h
i
e
f
i
n
t
e
r
n
e
t
e
v
a
n
g
e
l
i
s
t
)
的
職
務
、
正
式
退
休
。
他
和
B
o
b
K
a
h
n
共
同
設
計
的
T
C
P
/
I
P
協
定
,
是
今
天
全
世
界
網
路
能
互
通
的
底
層
地
基
—
—
你
現
在
讀
這
則
新
聞
、
每
一
個
封
包
能
從
一
台
機
器
送
到
另
一
台
,
靠
的
就
是
他
們
半
世
紀
前
打
下
的
規
則
。
C
e
r
f
在
G
o
o
g
l
e
掛
著
『
傳
道
者
』
這
個
少
見
的
頭
銜
多
年
,
四
處
為
開
放
網
路
、
數
位
近
用
與
網
路
治
理
發
聲
。
他
的
退
休
象
徵
著
網
路
草
創
世
代
的
一
次
交
棒
—
—
那
批
親
手
把
網
路
從
實
驗
室
協
定
變
成
全
球
基
礎
設
施
的
人
,
正
逐
漸
退
到
幕
後
。
而
接
棒
的
時
代
,
主
旋
律
已
經
換
成
A
I
:
從
搜
尋
、
瀏
覽
器
到
a
g
e
n
t
,
網
路
的
樣
貌
正
被
生
成
式
A
I
重
新
改
寫
。
把
C
e
r
f
退
休
放
在
今
天
這
一
整
版
A
I
新
聞
裡
看
,
格
外
有
味
道
。
當
年
他
們
設
計
協
定
時
信
奉
的
是
開
放
、
互
通
、
去
中
心
,
讓
任
何
人
都
能
接
上
網
路
;
如
今
A
I
時
代
卻
在
為
『
內
容
要
不
要
付
費
才
給
爬
』
(
見
今
天
的
C
l
o
u
d
f
l
a
r
e
政
策
)
、
『
模
型
能
不
能
出
口
』
(
見
F
a
b
l
e
5
事
件
)
這
類
問
題
爭
執
不
休
。
老
一
輩
打
造
的
是
一
個
盡
量
沒
有
守
門
人
的
網
路
,
新
一
輩
正
在
重
新
豎
起
各
種
閘
門
。
這
一
頁
交
接
,
值
得
記
上
一
筆
。
歸剛點評|打造開放網路的世代正在交棒,接手的是一個到處重新豎閘門的 AI 時代——內容要付費才給爬、模型要審查才能出口。把 Cerf 退休跟今天的 Cloudflare、Fable 5 新聞並讀,正好照見網路精神的世代轉折,值得記一筆。
產品
The Verge 評測 Google 新智慧音箱:硬體做得不錯,但搭載的 Gemini 還沒準備好。智慧音箱多年來苦尋『音樂、計時、控燈之外』的第二幕,AI 本被寄望改寫,實測卻仍差一截。
T
h
e
V
e
r
g
e
對
G
o
o
g
l
e
新
款
智
慧
音
箱
的
結
論
很
直
白
:
硬
體
做
得
漂
亮
,
但
塞
進
去
的
G
e
m
i
n
i
還
沒
到
能
撐
起
這
台
機
器
的
程
度
。
智
慧
音
箱
這
幾
年
一
直
在
找
自
己
的
第
二
幕
—
—
除
了
放
音
樂
、
設
計
時
器
、
開
關
燈
之
外
,
它
到
底
還
能
幹
嘛
,
始
終
沒
有
好
答
案
。
A
I
本
來
被
寄
予
厚
望
要
改
寫
這
件
事
,
A
m
a
z
o
n
去
年
秋
天
就
先
用
翻
新
的
A
l
e
x
a
推
了
新
硬
體
。
問
題
出
在
期
待
與
現
實
的
落
差
。
把
一
個
強
大
的
語
言
模
型
接
進
音
箱
,
理
論
上
該
讓
它
從
『
只
會
執
行
固
定
指
令
』
升
級
成
『
能
真
正
對
話
、
幫
你
辦
事
』
;
但
實
測
下
來
,
G
e
m
i
n
i
在
這
台
音
箱
上
的
表
現
還
不
夠
穩
、
不
夠
聰
明
到
讓
人
覺
得
非
它
不
可
。
硬
體
的
手
感
、
音
質
、
設
計
都
在
水
準
之
上
,
軟
體
的
大
腦
卻
拖
了
後
腿
,
這
種
『
身
體
準
備
好
了
、
腦
子
還
沒
跟
上
』
的
錯
位
,
正
是
目
前
A
I
硬
體
最
常
見
的
通
病
。
這
則
評
測
的
提
醒
對
做
A
I
硬
體
的
人
特
別
實
在
:
把
大
模
型
塞
進
裝
置
不
等
於
體
驗
就
會
變
好
,
語
音
場
景
對
延
遲
、
準
確
與
情
境
理
解
的
要
求
極
高
,
稍
微
卡
一
下
、
答
錯
一
次
,
使
用
者
的
信
任
就
掉
了
。
對
照
今
天
G
e
m
m
a
4
靠
C
e
r
e
b
r
a
s
把
即
時
語
音
延
遲
壓
到
1
.
5
秒
的
消
息
,
答
案
其
實
呼
之
欲
出
—
—
A
I
音
箱
要
成
,
缺
的
往
往
不
是
模
型
會
不
會
講
話
,
而
是
它
能
不
能
快
、
能
不
能
準
、
能
不
能
真
的
懂
你
當
下
要
什
麼
。
硬
體
不
是
瓶
頸
,
體
驗
的
最
後
一
哩
才
是
。
歸剛點評|把大模型塞進裝置不等於體驗變好——AI 硬體最常見的病就是『身體準備好、腦子沒跟上』。對照今天 Gemma 4 把語音延遲壓到 1.5 秒,答案很清楚:音箱要成,缺的不是會不會講話,是夠不夠快、準、懂你。做 AI 硬體的人該記住這一哩。
研究
一篇論文提出 AFTER 基準,用 382 個貼近真實的企業任務、涵蓋六種職業角色與 22 種程序技能,檢驗 LLM agent 的程序記憶能否產出可重複利用的技能,並探討如何控制、調適與評估這種記憶。
程
序
記
憶
(
p
r
o
c
e
d
u
r
a
l
m
e
m
o
r
y
)
正
被
愈
來
愈
多
地
用
來
提
升
L
L
M
a
g
e
n
t
在
重
複
性
職
場
任
務
上
的
表
現
,
但
它
到
底
能
不
能
產
出
真
正
可
重
複
利
用
的
技
能
,
其
實
一
直
沒
被
講
清
楚
。
一
篇
新
論
文
提
出
名
為
A
F
T
E
R
的
基
準
來
正
面
回
答
這
件
事
:
它
包
含
3
8
2
個
貼
近
真
實
的
企
業
任
務
,
橫
跨
六
種
專
業
職
業
角
色
與
2
2
種
程
序
技
能
,
專
門
設
計
來
評
估
a
g
e
n
t
能
不
能
把
做
過
的
事
沉
澱
成
下
次
能
用
的
步
驟
。
程
序
記
憶
的
想
法
很
直
覺
—
—
人
做
過
一
次
報
帳
、
跑
過
一
次
某
個
流
程
,
下
次
就
會
了
;
a
g
e
n
t
若
也
能
把
成
功
經
驗
記
成
一
套
可
調
用
的
程
序
,
就
不
必
每
次
從
零
摸
索
。
但
魔
鬼
在
細
節
:
這
些
記
下
來
的
技
能
該
怎
麼
控
制
何
時
該
用
、
環
境
變
了
要
怎
麼
調
適
、
又
該
用
什
麼
標
準
評
它
好
不
好
。
A
F
T
E
R
的
價
值
就
在
於
把
這
三
個
問
題
(
控
制
、
調
適
、
評
估
)
放
進
一
個
有
具
體
任
務
、
有
職
業
情
境
的
框
架
裡
量
化
,
而
不
是
停
在
概
念
討
論
。
對
實
際
在
做
a
g
e
n
t
工
作
流
的
人
,
這
篇
很
接
地
氣
。
今
天
M
a
x
的
五
機
工
作
流
跟
一
堆
排
程
,
本
質
上
就
是
在
讓
A
I
把
重
複
的
苦
力
活
變
成
固
定
程
序
反
覆
執
行
;
程
序
記
憶
研
究
要
解
的
正
是
同
一
件
事
—
—
怎
麼
讓
a
g
e
n
t
記
住
『
這
類
任
務
上
次
是
這
樣
搞
定
的
』
並
穩
定
重
現
,
而
不
是
每
次
都
要
人
重
新
交
代
。
這
類
基
準
能
幫
我
們
判
斷
,
把
哪
些
重
複
任
務
交
給
有
記
憶
的
a
g
e
n
t
是
可
靠
的
、
哪
些
還
是
得
人
盯
著
,
對
設
計
省
人
力
又
不
出
包
的
自
動
化
流
程
很
有
參
考
價
值
。
歸剛點評|程序記憶研究要解的,正是 Max 五機工作流天天在做的事:讓 AI 把重複苦力沉澱成能穩定重現的固定程序。AFTER 用 382 個真實企業任務量化『控制、調適、評估』三難題,能幫判斷哪些重複任務交給有記憶的 agent 靠得住、哪些還得人盯。
研究
論文提出 SkillHone 框架,針對 agent 技能所面對的任務與環境會不斷變化的問題。現有方法只在有限回合內改進技能、且只留下最終成品,丟掉了後來的 agent 其實需要的決策歷史。SkillHone 想把這段歷史持久保留下來。
A
g
e
n
t
技
能
(
a
g
e
n
t
s
k
i
l
l
s
)
是
替
語
言
模
型
a
g
e
n
t
加
上
特
定
任
務
的
程
序
、
腳
本
與
參
考
資
料
,
讓
它
更
會
做
某
類
事
。
但
這
些
技
能
要
對
付
的
任
務
和
環
境
會
一
直
變
,
昨
天
管
用
的
做
法
今
天
可
能
就
不
適
用
。
問
題
是
,
現
有
的
方
法
多
半
只
在
有
限
的
執
行
回
合
裡
改
進
技
能
,
而
且
只
保
留
最
後
那
個
成
品
,
把
過
程
中
累
積
的
決
策
歷
史
全
丟
了
—
—
偏
偏
那
段
歷
史
,
正
是
之
後
接
手
的
a
g
e
n
t
最
需
要
的
線
索
。
S
k
i
l
l
H
o
n
e
這
篇
論
文
要
補
的
就
是
這
個
洞
。
它
主
張
把
a
g
e
n
t
做
決
策
的
歷
史
持
久
地
保
存
下
來
,
讓
技
能
能
靠
著
這
份
不
斷
累
積
的
『
為
什
麼
當
時
這
樣
選
』
的
紀
錄
持
續
演
化
,
而
不
是
每
換
一
批
任
務
就
從
頭
再
來
。
這
等
於
把
a
g
e
n
t
的
成
長
從
『
一
次
性
優
化
』
改
成
『
可
累
積
、
可
承
接
』
的
長
期
過
程
,
讓
後
來
的
a
g
e
n
t
站
在
前
人
踩
過
的
坑
上
前
進
。
這
個
思
路
跟
M
a
x
手
上
『
歸
剛
誒
A
I
』
這
類
每
天
跑
的
排
程
其
實
很
呼
應
。
每
一
期
日
報
、
每
一
次
抓
取
與
部
署
,
背
後
都
有
一
堆
『
這
次
為
什
麼
這
樣
選
題
、
這
樣
改
流
程
』
的
判
斷
,
如
果
每
天
做
完
就
丟
、
只
留
最
終
成
品
,
累
積
的
經
驗
就
浪
費
了
。
S
k
i
l
l
H
o
n
e
提
醒
的
是
,
把
決
策
歷
史
留
下
來
當
養
分
,
A
I
系
統
才
會
愈
跑
愈
聰
明
,
而
不
是
原
地
打
轉
。
對
設
計
長
期
運
轉
的
自
動
化
流
程
的
人
,
這
是
值
得
借
鏡
的
架
構
觀
—
—
別
只
存
結
果
,
也
要
存
下
『
當
時
怎
麼
想
的
』
。
歸剛點評|別只存結果,也要存『當時怎麼想的』——SkillHone 點出 agent 進化的關鍵在保留決策歷史,而非每次砍掉重練。這跟 Max 每天跑的日報排程完全呼應:把選題與改流程的判斷留成養分,系統才會愈跑愈聰明,這是設計長期自動化流程的架構觀。
研究
視覺-語言-動作(VLA)模型多半是拿強大的 VLM 用機器人資料微調而來,但微調後它到底還保留多少常識與事實知識,一直不清楚。這篇論文專門量測 VLA 在適應機器人任務後的知識保留程度。
具
身
智
慧
的
V
L
A
(
視
覺
-
語
言
-
動
作
)
模
型
,
通
常
是
拿
一
個
本
來
很
強
的
視
覺
-
語
言
模
型
,
再
用
機
器
人
資
料
去
微
調
而
成
。
問
題
來
了
:
經
過
這
番
改
造
、
學
會
了
控
制
手
臂
與
感
知
環
境
之
後
,
它
原
本
那
套
常
識
與
事
實
知
識
還
剩
多
少
?
沒
人
說
得
準
。
而
且
當
模
型
在
需
要
知
識
的
任
務
上
失
手
時
,
往
往
分
不
清
是
它
根
本
不
知
道
,
還
是
知
道
卻
沒
能
力
執
行
—
—
兩
種
失
敗
混
在
一
起
,
很
難
診
斷
。
這
篇
論
文
正
面
處
理
這
個
模
糊
地
帶
,
設
計
方
法
去
量
測
V
L
A
模
型
在
適
應
機
器
人
任
務
後
的
常
識
與
世
界
知
識
到
底
保
留
了
多
少
。
之
所
以
重
要
,
是
因
為
一
個
會
動
手
的
機
器
人
若
在
過
程
中
悄
悄
流
失
了
對
世
界
的
基
本
理
解
,
它
做
出
來
的
動
作
就
可
能
看
似
俐
落
、
實
則
違
背
常
識
—
—
好
比
會
精
準
抓
取
,
卻
搞
不
清
該
不
該
抓
、
抓
了
會
怎
樣
。
把
『
知
不
知
道
』
和
『
做
不
做
得
到
』
拆
開
來
評
估
,
是
讓
具
身
A
I
變
可
靠
的
必
要
一
步
。
對
關
注
機
器
人
與
具
身
A
I
的
人
,
這
提
醒
了
一
個
容
易
被
忽
略
的
代
價
:
把
通
用
大
模
型
特
化
成
專
用
執
行
者
,
往
往
要
付
出
通
識
退
化
的
隱
形
學
費
。
今
天
另
一
篇
h
f
論
文
談
a
g
e
n
t
的
程
序
記
憶
、
談
怎
麼
讓
技
能
累
積
不
流
失
,
這
篇
則
從
反
方
向
敲
警
鐘
—
—
特
化
的
同
時
別
把
根
基
掏
空
。
兩
者
合
起
來
看
,
指
向
同
一
個
核
心
命
題
:
A
I
要
真
的
好
用
,
得
同
時
管
好
『
學
到
新
本
事
』
與
『
別
忘
了
舊
常
識
』
這
兩
件
事
。
歸剛點評|把通用大模型特化成會動手的機器人,往往要付『通識退化』的隱形學費——看似俐落卻可能違背常識。這篇把『知不知道』和『做不做到』拆開評估,是具身 AI 走向可靠的必要一步,也提醒所有做模型特化的人:別為了新本事掏空舊根基。
研究
論文提出 SWE-Interact,評估 coding agent 在多輪、互動、使用者驅動的軟體工程任務上的表現。現有前沿 SWE benchmark 多半一開始就給完整需求、再看 agent 自主完成;SWE-Interact 則把使用者放回迴圈裡。
現
在
主
流
的
c
o
d
i
n
g
a
g
e
n
t
評
測
,
大
多
長
這
樣
:
一
開
始
就
把
完
整
需
求
全
丟
給
a
g
e
n
t
,
然
後
看
它
能
不
能
自
己
一
路
寫
完
。
但
真
實
世
界
的
軟
體
開
發
根
本
不
是
這
樣
—
—
需
求
是
邊
做
邊
講
清
楚
的
,
人
會
中
途
改
主
意
、
補
條
件
、
看
到
結
果
再
調
方
向
。
S
W
E
-
I
n
t
e
r
a
c
t
這
篇
論
文
就
是
要
補
上
這
個
落
差
,
把
c
o
d
i
n
g
a
g
e
n
t
放
進
『
多
輪
、
互
動
、
使
用
者
驅
動
』
的
情
境
裡
評
估
,
讓
使
用
者
重
新
回
到
開
發
迴
圈
當
中
。
轉
變
雖
然
聽
來
不
大
,
意
義
卻
不
小
。
一
個
a
g
e
n
t
能
不
能
在
拿
到
完
整
規
格
後
自
主
把
題
目
解
掉
,
跟
它
能
不
能
在
一
場
你
來
我
往
、
需
求
逐
步
浮
現
的
協
作
裡
穩
住
陣
腳
,
是
兩
種
很
不
一
樣
的
能
力
。
後
者
更
接
近
工
程
師
每
天
用
A
I
助
手
寫
程
式
的
真
實
體
感
:
你
先
講
個
大
概
,
看
它
寫
出
什
麼
,
再
指
出
哪
裡
不
對
、
要
改
哪
裡
。
S
W
E
-
I
n
t
e
r
a
c
t
把
評
測
拉
到
這
個
更
貼
近
現
場
的
維
度
,
量
的
是
a
g
e
n
t
在
模
糊
、
變
動
、
多
回
合
下
的
實
戰
力
。
對
每
天
用
A
I
寫
程
式
的
人
(
包
括
M
a
x
這
種
靠
A
I
建
站
、
跑
排
程
、
修
腳
本
的
)
,
這
篇
很
有
共
鳴
。
你
會
發
現
真
正
決
定
生
產
力
的
,
不
是
a
g
e
n
t
一
次
能
不
能
通
關
某
個
乾
淨
的
題
目
,
而
是
它
能
不
能
聽
懂
你
半
路
改
的
需
求
、
記
住
前
面
講
過
的
脈
絡
、
不
要
每
次
都
要
你
重
講
一
遍
。
評
測
終
於
開
始
測
『
協
作
』
而
不
只
是
『
自
動
完
成
』
,
這
對
挑
選
順
手
的
c
o
d
i
n
g
工
具
,
是
更
貼
近
日
常
的
參
考
。
歸剛點評|真實開發是邊做邊講清楚需求,不是一次把規格丟給 AI 讓它自己跑完。SWE-Interact 把評測拉到『多輪協作』這個更貼近日常的維度。對每天靠 AI 寫程式、修腳本的人,選工具該看的是它聽不聽得懂你半路改的需求,而不只是能不能通關乾淨題目。
研究
代理式強化學習要替搜尋、點擊、編輯、導航等面向環境的動作分配功過。標準 GRPO 用最終驗證結果對所有動作 token 給一致的優勢值。TRIAGE 提出依動作角色分型的信用分配,讓不同類型的動作得到更貼切的獎勵訊號。
讓
A
I
a
g
e
n
t
靠
強
化
學
習
變
強
,
有
個
很
實
際
的
難
題
:
一
條
任
務
軌
跡
裡
有
搜
尋
、
點
擊
、
編
輯
、
導
航
、
跟
物
件
互
動
等
一
大
堆
面
向
環
境
的
動
作
,
最
後
成
功
或
失
敗
的
功
過
,
到
底
該
算
在
哪
個
動
作
頭
上
?
標
準
的
G
R
P
O
做
法
是
拿
最
終
驗
證
結
果
,
對
所
有
動
作
t
o
k
e
n
給
一
個
一
致
的
優
勢
值
—
—
不
管
你
這
步
是
關
鍵
決
策
還
是
無
關
緊
要
的
中
間
操
作
,
通
通
吃
同
一
份
獎
懲
。
這
個
訊
號
有
用
,
但
太
粗
。
T
R
I
A
G
E
這
篇
論
文
提
出
更
細
緻
的
做
法
:
依
動
作
的
『
角
色
』
分
型
來
分
配
信
用
。
不
同
種
類
的
動
作
在
任
務
裡
扮
演
的
份
量
本
來
就
不
同
,
把
它
們
一
視
同
仁
地
灌
同
一
個
優
勢
值
,
會
讓
學
習
訊
號
變
糊
、
效
率
變
差
。
按
角
色
區
分
後
,
關
鍵
動
作
能
拿
到
更
貼
切
的
獎
勵
、
雜
訊
動
作
不
被
過
度
強
化
,
a
g
e
n
t
學
起
來
就
更
有
方
向
感
。
說
白
了
,
就
是
把
『
整
組
一
起
賞
罰
』
改
成
『
看
你
在
這
局
扮
什
麼
角
色
、
各
自
論
功
行
賞
』
。
這
類
研
究
是
a
g
e
n
t
能
力
持
續
變
強
的
底
層
引
擎
。
今
天
這
一
版
日
報
裡
好
幾
篇
都
在
談
a
g
e
n
t
—
—
程
序
記
憶
、
技
能
演
化
、
多
輪
協
作
,
而
T
R
I
A
G
E
補
的
是
最
底
層
的
訓
練
訊
號
怎
麼
給
得
更
準
。
對
一
般
使
用
者
,
這
些
細
節
看
起
來
很
遠
,
但
它
們
決
定
了
你
明
年
用
到
的
A
I
a
g
e
n
t
會
不
會
更
少
犯
蠢
、
更
懂
得
哪
一
步
重
要
。
當
各
家
都
在
拚
a
g
e
n
t
誰
更
能
自
己
動
手
辦
事
,
能
不
能
把
『
功
過
算
得
準
』
這
件
苦
工
做
好
,
往
往
就
是
拉
開
差
距
的
地
方
。
歸剛點評|agent 要更會辦事,底層得先把『哪一步該記功、哪一步該記過』算準。TRIAGE 把 GRPO 那種整組一致的粗獎勵,改成按動作角色論功行賞。這類訓練訊號的細活,決定了明年你用到的 AI agent 會不會更少犯蠢——是拉開各家差距的關鍵苦工。