OpenAI 推 GeneBench-Pro:用真實基因體資料考 AI 的科學底子
O
p
e
n
A
I
推
出
G
e
n
e
B
e
n
c
h
-
P
r
o
,
一
套
新
的
評
測
基
準
,
專
門
測
A
I
在
基
因
體
學
、
生
物
學
與
科
學
研
究
上
的
表
現
。
和
很
多
用
人
造
題
目
的
評
測
不
同
,
它
強
調
用
複
雜
的
真
實
世
界
資
料
集
來
考
模
型
,
還
另
外
放
了
一
份
案
例
研
究
,
把
模
型
實
際
解
題
的
過
程
攤
開
來
看
。
這
個
方
向
和
前
一
條
C
l
a
u
d
e
S
c
i
e
n
c
e
撞
在
同
一
個
風
口
上
,
不
是
巧
合
。
當
各
家
都
把
矛
頭
對
準
科
學
研
究
這
塊
市
場
時
,
第
一
個
要
解
決
的
問
題
就
是
『
怎
麼
證
明
A
I
在
硬
科
學
上
真
的
有
用
』
。
跑
分
平
台
這
時
就
變
成
兵
家
必
爭
之
地
—
—
誰
定
義
了
被
廣
泛
採
用
的
評
測
標
準
,
誰
就
握
有
話
語
權
,
能
用
對
自
己
有
利
的
題
型
去
框
定
『
什
麼
叫
強
』
。
O
p
e
n
A
I
自
己
出
題
、
自
己
附
案
例
,
背
後
有
這
層
卡
位
的
算
計
。
對
實
際
做
研
究
的
人
來
說
,
這
類
評
測
值
得
用
但
別
盡
信
。
真
實
基
因
體
資
料
確
實
比
玩
具
題
更
接
近
日
常
,
但
一
個
由
模
型
廠
商
自
己
設
計
、
自
己
公
布
成
績
的
基
準
,
天
生
就
有
選
擇
性
呈
現
的
空
間
。
比
較
務
實
的
看
法
是
把
G
e
n
e
B
e
n
c
h
-
P
r
o
當
成
一
個
參
考
座
標
,
搭
配
A
n
t
h
r
o
p
i
c
、
G
o
o
g
l
e
等
其
他
陣
營
的
評
測
交
叉
看
,
而
不
是
單
看
一
家
的
榜
單
就
下
結
論
。
A
I
進
科
學
的
競
賽
才
剛
開
打
,
評
測
標
準
本
身
就
是
這
場
仗
的
一
部
分
。
歸剛點評|當 Anthropic、OpenAI 同週都撲向科學研究市場,評測標準成了卡位戰場——誰定義『什麼叫強』,誰就握話語權。GeneBench-Pro 用真實基因體資料是進步,但廠商自己出題自己評分,台灣研究者該交叉看多家榜單,別被單一基準帶風向。
來源:OpenAI · OpenAI 案例研究