研究・2026-06-20

LegalHalluLens 揭法律 AI 幻覺高達約五成：把錯誤分型審計，再用校準過的多代理辯論把關

一篇名為 LegalHalluLens 的研究，把法律 AI 的信任問題攤開來談。研究指出，部署在法律工作流裡的 AI，幻覺率以總體指標來看高達約 52%——也就是說，相當比例的輸出可能是模型編出來、查無實據的內容。對講求精確的法律場景，這個數字相當刺眼。

但研究真正的重點，是這個平均數其實會騙人。52% 是一個籠統的總和，它掩蓋了錯誤到底集中在哪一類問題、往哪個方向偏——是傾向捏造不存在的法條，還是傾向把有的講成沒有？合規人員光看一個總體幻覺率，拿不到任何可以採取行動的訊號。LegalHalluLens 因此主張把幻覺分型（typed）來審計，先弄清楚錯在哪、怎麼錯，才談得上對症。

在審計之外，研究還提出用經過校準的多代理辯論來提高可信度——讓多個模型針對同一個法律問題互相質詰、彼此挑錯，再把結果彙整校準，藉由互相牽制壓低單一模型胡謅的機率。整套設計的目標很明確：給高風險的法律部署一套可量化、能標出錯誤分布的把關機制，而非只丟出一個讓人安心或恐慌的單一數字。

對台灣想把 AI 導入法務、合規的團隊，這篇的態度值得學：先承認模型會說錯，再想辦法量出它錯在哪、用機制去攔。在法律這種錯一個字後果可能很重的領域，敢於審計自家模型的弱點，比宣稱模型多強更值得信任。

歸剛點評｜法律場景錯一個字後果很重，而籠統的幻覺率會騙人。把錯誤分型審計、用多代理辯論互相挑錯，是讓 AI 敢進合規與訴訟流程的務實把關。敢揭自家弱點，比宣稱模型多強更可信。

來源：LegalHalluLens 論文

歸剛誒AI

LegalHalluLens 揭法律 AI 幻覺高達約五成：把錯誤分型審計，再用校準過的多代理辯論把關

同期其他文章