研究・2026-06-16

不用藏指令也能玩弄 AI 同儕審查：只改排版、不動內容就行

一篇登上 HuggingFace 熱門榜的論文，研究了一種比大家熟悉的 prompt injection 更棘手、也更貼近政策現實的攻擊方式。當 AI 生成的審稿意見從實驗工具走進真正的同儕審查基礎設施，多數人擔心的是明顯的攻擊，例如藏在文件裡的隱藏指令。但這篇研究的失效模式更刁鑽：沒有隱藏文字、沒有 prompt injection、也沒有改動論文的實質內容，只靠調整「呈現方式」就能左右 AI 審稿的結果。

所謂的純呈現修改，指的是排版、格式、措辭呈現這類不碰核心論點與數據的調整。研究顯示，光是這些表層變化，就足以讓 AI 審稿系統給出不同的評價。這比隱藏指令危險的地方在於——隱藏指令還算是明確的作弊、可以被偵測與規範，但「只是把論文排得更漂亮」幾乎無法被定義為違規，審查系統與規範也很難擋。

這對學術界與任何用 AI 做評分、篩選的場景都是警鐘。一旦 AI 被放進有實際後果的把關位置，被評估的一方就會有強烈動機去研究「怎麼討好這個模型」。當討好的方法不涉及造假、只是調整呈現，現有的學術倫理框架幾乎無從規範，這會慢慢侵蝕同儕審查的公信力。

對台灣的研究者與機構，這提醒在引進 AI 輔助審查、招募或評分系統時要格外謹慎。AI 看起來客觀，但它對表層特徵的敏感，可能製造出新的、更難察覺的不公平。把 AI 當輔助、保留人類最終判斷，並持續測試系統會不會被表層操弄帶偏，是導入這類工具時必要的防線。

歸剛點評｜隱藏指令還算明確作弊、能被規範，但「只是把論文排得更漂亮」就左右審稿結果，現有倫理框架幾乎擋不住。台灣機構引進 AI 評分、招募系統前，務必先測它會不會被表層特徵帶偏。

來源：HuggingFace Papers

歸剛誒AI

不用藏指令也能玩弄 AI 同儕審查：只改排版、不動內容就行

同期其他文章