歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 11 期(2026-06-20)
研究・2026-06-20

LegalHalluLens 揭法律 AI 幻覺高達約五成:把錯誤分型審計,再用校準過的多代理辯論把關

LegalHalluLens 揭法律 AI 幻覺高達約五成:把錯誤分型審計,再用校準過的多代理辯論把關

一篇名為 LegalHalluLens 的研究,把法律 AI 的信任問題攤開來談。研究指出,部署在法律工作流裡的 AI,幻覺率以總體指標來看高達約 52%——也就是說,相當比例的輸出可能是模型編出來、查無實據的內容。對講求精確的法律場景,這個數字相當刺眼。

但研究真正的重點,是這個平均數其實會騙人。52% 是一個籠統的總和,它掩蓋了錯誤到底集中在哪一類問題、往哪個方向偏——是傾向捏造不存在的法條,還是傾向把有的講成沒有?合規人員光看一個總體幻覺率,拿不到任何可以採取行動的訊號。LegalHalluLens 因此主張把幻覺分型(typed)來審計,先弄清楚錯在哪、怎麼錯,才談得上對症。

在審計之外,研究還提出用經過校準的多代理辯論來提高可信度——讓多個模型針對同一個法律問題互相質詰、彼此挑錯,再把結果彙整校準,藉由互相牽制壓低單一模型胡謅的機率。整套設計的目標很明確:給高風險的法律部署一套可量化、能標出錯誤分布的把關機制,而非只丟出一個讓人安心或恐慌的單一數字。

對台灣想把 AI 導入法務、合規的團隊,這篇的態度值得學:先承認模型會說錯,再想辦法量出它錯在哪、用機制去攔。在法律這種錯一個字後果可能很重的領域,敢於審計自家模型的弱點,比宣稱模型多強更值得信任。

歸剛點評|法律場景錯一個字後果很重,而籠統的幻覺率會騙人。把錯誤分型審計、用多代理辯論互相挑錯,是讓 AI 敢進合規與訴訟流程的務實把關。敢揭自家弱點,比宣稱模型多強更可信。

同期其他文章