歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 9 期(2026-06-18)
研究・2026-06-18

OpenAI 推出 LifeSciBench:由專家撰寫審核的生命科學評測基準

OpenAI 推出 LifeSciBench:由專家撰寫審核的生命科學評測基準

OpenAI 推出名為 LifeSciBench 的新評測基準,專門用來衡量 AI 系統在真實生命科學研究任務上的表現。它的特色寫在介紹裡:題目由領域專家撰寫、再經由專家審核,目標是貼近研究人員實際會遇到的任務與決策,而不是那種容易刷分、卻跟真實工作脫節的標準化考題。

推出一個專業領域的評測基準,意義往往被低估。當大家都在喊模型有多強,能不能在一個嚴謹、可重現的尺規上比較,才是讓進展可被檢驗的關鍵。生命科學的決策牽涉到實驗設計、數據判讀、文獻整合等多層能力,過去缺乏一把能涵蓋這些真實情境的尺,LifeSciBench 想補的正是這個洞。有了共同基準,不同模型在這個領域到底誰強誰弱,才有得比。

把它跟同一天 OpenAI 的 AI 化學家放在一起看,意圖就很清楚:先用評測基準定義「生命科學的 AI 能力」該怎麼量,再用實際成果證明自家模型能打。建立評測標準的人,某種程度上也在定義整個賽道的規則,這對 OpenAI 鞏固在科學 AI 上的話語權是一步棋。

對台灣的研究機構與生技團隊,這類基準是很好的選型參考。要不要把某個模型放進自家的研究流程,與其聽廠商宣傳,不如看它在 LifeSciBench 這種專家把關的測試上實際得幾分。同時也提醒一件事:評測基準是誰出的、題目偏向誰的強項,本身就值得多看一眼,採用前最好搭配自己領域的實測來交叉驗證。

歸剛點評|評測基準看似不性感,卻是讓 AI 進展可被檢驗的尺。OpenAI 同日推基準+秀成果,等於在搶定義科學 AI 賽道規則。對台灣研究單位,這是比廠商話術更靠譜的選型依據——但也要留意尺是誰做的。
來源:OpenAI

同期其他文章