研究・2026-06-18

OpenAI 推出 LifeSciBench：由專家撰寫審核的生命科學評測基準

OpenAI 推出名為 LifeSciBench 的新評測基準，專門用來衡量 AI 系統在真實生命科學研究任務上的表現。它的特色寫在介紹裡：題目由領域專家撰寫、再經由專家審核，目標是貼近研究人員實際會遇到的任務與決策，而不是那種容易刷分、卻跟真實工作脫節的標準化考題。

推出一個專業領域的評測基準，意義往往被低估。當大家都在喊模型有多強，能不能在一個嚴謹、可重現的尺規上比較，才是讓進展可被檢驗的關鍵。生命科學的決策牽涉到實驗設計、數據判讀、文獻整合等多層能力，過去缺乏一把能涵蓋這些真實情境的尺，LifeSciBench 想補的正是這個洞。有了共同基準，不同模型在這個領域到底誰強誰弱，才有得比。

把它跟同一天 OpenAI 的 AI 化學家放在一起看，意圖就很清楚：先用評測基準定義「生命科學的 AI 能力」該怎麼量，再用實際成果證明自家模型能打。建立評測標準的人，某種程度上也在定義整個賽道的規則，這對 OpenAI 鞏固在科學 AI 上的話語權是一步棋。

對台灣的研究機構與生技團隊，這類基準是很好的選型參考。要不要把某個模型放進自家的研究流程，與其聽廠商宣傳，不如看它在 LifeSciBench 這種專家把關的測試上實際得幾分。同時也提醒一件事：評測基準是誰出的、題目偏向誰的強項，本身就值得多看一眼，採用前最好搭配自己領域的實測來交叉驗證。

歸剛點評｜評測基準看似不性感，卻是讓 AI 進展可被檢驗的尺。OpenAI 同日推基準＋秀成果，等於在搶定義科學 AI 賽道規則。對台灣研究單位，這是比廠商話術更靠譜的選型依據——但也要留意尺是誰做的。

來源：OpenAI

歸剛誒AI

OpenAI 推出 LifeSciBench：由專家撰寫審核的生命科學評測基準

同期其他文章