研究・2026-07-03

PerceptionRubrics：用評分準則把多模態評測校準回人的真實感受

研究團隊提出一套叫 PerceptionRubrics 的評測框架，想解決一個常見的落差：多模態模型在 benchmark 上分數逼近滿分，一到真實世界卻很容易出包。問題在於，傳統評測往往給一個總分，這個分數飽和之後就分不出好壞，也對不上人類實際的觀看感受。

PerceptionRubrics 的做法，是把評測從一個籠統的分數拆成一組以人類感知為基準的評分準則。每一項準則對應一種人真的會在意的品質面向，模型在各項上分別被打分，最後拼出的評價，比單一數字更貼近人看到成品時的感覺。這種以 rubric 為骨架的設計，也讓評測結果更能解釋——它會直接說清楚模型哪一項強、哪一項弱，而非只丟一個籠統的總分讓你自己猜。

對多模態應用的開發者，這個方向很實際。當你的產品要生成圖片、看懂影像或跨模態理解，光靠傳統 benchmark 選型，很可能挑到考試很強、上線很脆的模型。用貼近人類感知的細項準則來評估，能提早抓出那些在真實情境會露餡的弱點，把選型與調校做得更準。

歸剛點評｜評測方法決定你選到什麼模型。分數飽和的老 benchmark 會讓人挑到會考試、不耐操的模型。對要做圖像、影像類產品的台灣團隊，改用貼近人類感受的評分準則選型，能少踩上線才發現不好用的坑。

來源：Hugging Face Papers

歸剛誒AI

PerceptionRubrics：用評分準則把多模態評測校準回人的真實感受

同期其他文章