研究・2026-07-01

OpenAI 推 GeneBench-Pro：用真實基因體資料考 AI 的科學底子

推

出

，

一

套

新

的

評

測

基

準

，

專

門

測

在

基

因

體

學

、

生

物

學

與

科

學

研

究

上

的

表

現

。

和

很

多

用

人

造

題

目

的

評

測

不

同

，

它

強

調

用

複

雜

的

真

實

世

界

資

料

集

來

考

模

型

，

還

另

外

放

了

一

份

案

例

研

究

，

把

模

型

實

際

解

題

的

過

程

攤

開

來

看

。

這

個

方

向

和

前

一

條

撞

在

同

一

個

風

口

上

，

不

是

巧

合

。

當

各

家

都

把

矛

頭

對

準

科

學

研

究

這

塊

市

場

時

，

第

一

個

要

解

決

的

問

題

就

是

『

怎

麼

證

明

在

硬

科

學

上

真

的

有

用

』

。

跑

分

平

台

這

時

就

變

成

兵

家

必

爭

之

地

—

誰

定

義

了

被

廣

泛

採

用

的

評

測

標

準

，

誰

就

握

有

話

語

權

，

能

用

對

自

己

有

利

的

題

型

去

框

定

『

什

麼

叫

強

』

。

自

己

出

題

、

自

己

附

案

例

，

背

後

有

這

層

卡

位

的

算

計

。

對

實

際

做

研

究

的

人

來

說

，

這

類

評

測

值

得

用

但

別

盡

信

。

真

實

基

因

體

資

料

確

實

比

玩

具

題

更

接

近

日

常

，

但

一

個

由

模

型

廠

商

自

己

設

計

、

自

己

公

布

成

績

的

基

準

，

天

生

就

有

選

擇

性

呈

現

的

空

間

。

比

較

務

實

的

看

法

是

把

當

成

一

個

參

考

座

標

，

搭

配

、

等

其

他

陣

營

的

評

測

交

叉

看

，

而

不

是

單

看

一

家

的

榜

單

就

下

結

論

。

進

科

學

的

競

賽

才

剛

開

打

，

評

測

標

準

本

身

就

是

這

場

仗

的

一

部

分

。

歸剛點評｜當 Anthropic、OpenAI 同週都撲向科學研究市場，評測標準成了卡位戰場——誰定義『什麼叫強』，誰就握話語權。GeneBench-Pro 用真實基因體資料是進步，但廠商自己出題自己評分，台灣研究者該交叉看多家榜單，別被單一基準帶風向。

來源：OpenAI　·　OpenAI 案例研究

歸剛誒AI

OpenAI 推 GeneBench-Pro：用真實基因體資料考 AI 的科學底子

同期其他文章