Vesta:一個通用的「具身推理」模型
在
機
器
人
與
實
體
A
I
這
條
線
上
,
今
天
一
篇
論
文
提
出
名
為
V
e
s
t
a
的
模
型
,
定
位
是
「
通
用
具
身
推
理
」
(
g
e
n
e
r
a
l
i
s
t
e
m
b
o
d
i
e
d
r
e
a
s
o
n
i
n
g
)
。
所
謂
具
身
推
理
,
講
的
是
模
型
不
只
在
文
字
世
界
裡
推
理
,
而
要
把
感
知
、
空
間
理
解
與
行
動
決
策
結
合
起
來
,
讓
一
個
A
I
能
在
真
實
或
模
擬
的
實
體
環
境
中
,
看
懂
場
景
、
規
劃
步
驟
、
做
出
操
作
。
V
e
s
t
a
主
打
「
通
用
」
(
g
e
n
e
r
a
l
i
s
t
)
,
意
思
是
不
為
單
一
任
務
量
身
訂
做
,
而
想
用
一
套
模
型
應
付
多
種
具
身
任
務
—
—
這
正
是
當
前
機
器
人
研
究
的
聖
杯
:
與
其
每
換
一
個
場
景
就
重
訓
一
個
專
用
模
型
,
不
如
養
出
一
個
能
舉
一
反
三
的
通
才
大
腦
。
把
V
e
s
t
a
放
進
今
天
的
脈
絡
看
格
外
有
意
思
:
南
韓
押
注
二
〇
二
八
商
用
人
形
機
器
人
、
P
r
o
c
e
p
t
i
o
n
在
攻
機
器
手
的
資
料
瓶
頸
,
而
V
e
s
t
a
這
類
研
究
補
的
正
是
中
間
那
層
「
大
腦
」
—
—
硬
體
和
資
料
都
到
位
後
,
還
需
要
一
個
能
統
合
感
知
與
行
動
的
推
理
核
心
。
論
文
細
節
與
實
測
強
度
仍
待
社
群
檢
驗
,
但
方
向
上
,
它
代
表
實
體
A
I
從
「
能
動
」
往
「
會
想
」
推
進
的
一
步
。
當
硬
體
越
做
越
靈
巧
、
訓
練
資
料
越
補
越
多
,
最
後
決
定
機
器
人
好
不
好
用
的
,
往
往
就
是
這
層
統
合
感
知
與
決
策
的
推
理
大
腦
。
歸剛點評|人形機器人三件套——能動的身體、靈巧的手、會想的腦,今天剛好一次到齊。Vesta 補的是最抽象也最關鍵的「腦」:一個不挑場景的通用推理核心。論文的實際成色還要等社群跑過才算數,但這個「通才大腦」的方向,正是實體 AI 從表演 demo 走向真能幹活的分水嶺。