臨床版代理式 RAG 上線醫院實測:7,326 次判讀中 96.5% 獲醫師採納
一篇登上 Hugging Face 熱門榜的論文,發表了名為 ACIE 的臨床資訊抽取系統,而且不是停在實驗室——它已在德國埃森大學醫院實地部署。病患的脈絡往往橫跨數百份格式各異的文件、數千個結構化資料點,而 AI 拿來檢索與分流所需的「文件層級中介資料」常常缺失或不完整。標準的檢索增強生成(RAG)在這種資料上會失靈,搞錯時間順序、跨文件依賴與缺漏的中介資料。
ACIE 的做法是上一套「代理式」RAG 管線,在院內本地運行,能對完整病患脈絡進行推理,並把每一個答案都錨定回原始段落,方便臨床醫師逐句查驗。研究團隊量化了中介資料的缺口、交代了它如何形塑系統的架構決策,並搭配一項獨立的回溯性淋巴瘤登記研究來評估——由核醫科醫師把每一個被抽取出來的數值,對照其引用來源逐一驗證。
結果是關鍵。在 7,326 次判讀中,臨床醫師接受了其中 96.5% 的抽取結果。這個數字之所以重要,在於它來自真實醫院、真實醫師的逐項把關,而非乾淨測試集上的跑分。它示範了一條讓 AI 進臨床的務實路徑:不求模型自己拍板,而是把每個結論都附上可查證的出處,讓專業人員保有最後的判斷權。對所有想把 AI 導入高風險領域的團隊,「答案可溯源」這一點,比準確率本身更值得抄作業。
歸剛點評|高風險領域導入 AI 的關鍵不是準確率數字,而是每個結論能不能溯源、讓專家把關。ACIE 在真實醫院拿到 96.5% 採納率,替「人機協作」立了一個可複製的範本。
來源:HF Papers