LingxiDiagBench:用多代理框架替中文精神科問診的 LLM 立基準
在心理健康領域用 AI,華語世界一直缺一把好尺。一篇新論文提出 LingxiDiagBench,一個多代理框架,專門用來評測大型語言模型在中文精神科諮詢情境下的表現。它要解決的是一個現實缺口:過往的醫療 AI 評測多以英文與生理疾病為主,中文的精神科問診場景幾乎沒有標準化的衡量方式。
用『多代理』來做評測有它的道理。精神科問診不是一問一答,而是要在多輪對話裡循序辨識症狀、追問病史、判斷風險、給出方向。框架用不同代理分別扮演病人、醫師、評審等角色,模擬出接近真實的對話流程,再從專業性、安全性、同理等多個面向打分,比單看一句回答準確與否要全面得多。
替中文精神科 AI 立基準,意義超出學術。心理健康諮詢牽涉脆弱的人與高風險的判斷,模型一旦答錯方向,代價可能很沉重;沒有嚴謹的評測,就無從判斷哪些模型真的能安全上場。這也呼應本站一貫的態度:愈是進到醫療、心理這類高風險場景,愈需要可量化的把關,而不是讓模型在沒有標尺的情況下直接面對求助的人。
歸剛點評|心理健康是高風險場景,中文精神科 AI 缺乏標準化評測等於沒有安全把關,LingxiDiagBench 補上這塊空白,對華語醫療 AI 的安全落地至關重要。