歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 7 期(2026-06-16)
研究・2026-06-16

不用藏指令也能玩弄 AI 同儕審查:只改排版、不動內容就行

不用藏指令也能玩弄 AI 同儕審查:只改排版、不動內容就行

一篇登上 HuggingFace 熱門榜的論文,研究了一種比大家熟悉的 prompt injection 更棘手、也更貼近政策現實的攻擊方式。當 AI 生成的審稿意見從實驗工具走進真正的同儕審查基礎設施,多數人擔心的是明顯的攻擊,例如藏在文件裡的隱藏指令。但這篇研究的失效模式更刁鑽:沒有隱藏文字、沒有 prompt injection、也沒有改動論文的實質內容,只靠調整「呈現方式」就能左右 AI 審稿的結果。

所謂的純呈現修改,指的是排版、格式、措辭呈現這類不碰核心論點與數據的調整。研究顯示,光是這些表層變化,就足以讓 AI 審稿系統給出不同的評價。這比隱藏指令危險的地方在於——隱藏指令還算是明確的作弊、可以被偵測與規範,但「只是把論文排得更漂亮」幾乎無法被定義為違規,審查系統與規範也很難擋。

這對學術界與任何用 AI 做評分、篩選的場景都是警鐘。一旦 AI 被放進有實際後果的把關位置,被評估的一方就會有強烈動機去研究「怎麼討好這個模型」。當討好的方法不涉及造假、只是調整呈現,現有的學術倫理框架幾乎無從規範,這會慢慢侵蝕同儕審查的公信力。

對台灣的研究者與機構,這提醒在引進 AI 輔助審查、招募或評分系統時要格外謹慎。AI 看起來客觀,但它對表層特徵的敏感,可能製造出新的、更難察覺的不公平。把 AI 當輔助、保留人類最終判斷,並持續測試系統會不會被表層操弄帶偏,是導入這類工具時必要的防線。

歸剛點評|隱藏指令還算明確作弊、能被規範,但「只是把論文排得更漂亮」就左右審稿結果,現有倫理框架幾乎擋不住。台灣機構引進 AI 評分、招募系統前,務必先測它會不會被表層特徵帶偏。

同期其他文章