歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 24 期(2026-07-03)
研究・2026-07-03

PerceptionRubrics:用評分準則把多模態評測校準回人的真實感受

PerceptionRubrics:用評分準則把多模態評測校準回人的真實感受

研究團隊提出一套叫 PerceptionRubrics 的評測框架,想解決一個常見的落差:多模態模型在 benchmark 上分數逼近滿分,一到真實世界卻很容易出包。問題在於,傳統評測往往給一個總分,這個分數飽和之後就分不出好壞,也對不上人類實際的觀看感受。

PerceptionRubrics 的做法,是把評測從一個籠統的分數拆成一組以人類感知為基準的評分準則。每一項準則對應一種人真的會在意的品質面向,模型在各項上分別被打分,最後拼出的評價,比單一數字更貼近人看到成品時的感覺。這種以 rubric 為骨架的設計,也讓評測結果更能解釋——它會直接說清楚模型哪一項強、哪一項弱,而非只丟一個籠統的總分讓你自己猜。

對多模態應用的開發者,這個方向很實際。當你的產品要生成圖片、看懂影像或跨模態理解,光靠傳統 benchmark 選型,很可能挑到考試很強、上線很脆的模型。用貼近人類感知的細項準則來評估,能提早抓出那些在真實情境會露餡的弱點,把選型與調校做得更準。

歸剛點評|評測方法決定你選到什麼模型。分數飽和的老 benchmark 會讓人挑到會考試、不耐操的模型。對要做圖像、影像類產品的台灣團隊,改用貼近人類感受的評分準則選型,能少踩上線才發現不好用的坑。

同期其他文章