研究・2026-06-20

Multi-LCB 把熱門程式評測 LiveCodeBench 擴到多語言：別只用 Python 一種尺量模型寫程式

LiveCodeBench（LCB）近來成了業界評估大型語言模型程式能力的熱門基準。它的做法是蒐集競技程式題目、持續加入新題、並依題目發布日期過濾，藉此降低模型在訓練時就看過答案的污染問題，給出比較乾淨的評測。正因為被廣泛採用，它衡量的範圍是否夠全面，就直接影響大家怎麼判斷一個模型會不會寫程式。

新提出的 Multi-LCB 點出一個盲區：評測若集中在單一程式語言，量到的就只是模型在那一種語言上的本事。現實裡的開發是多語言的，前端、後端、資料處理、系統程式各有慣用語言，一個模型 Python 寫得漂亮，不代表換到別的語言一樣穩。Multi-LCB 把 LCB 擴展到多種程式語言，讓基準更貼近真實開發的樣貌。

把評測語言攤開，意義在於讓比較更誠實。當一個模型號稱程式能力很強，現在可以追問：是在哪些語言上強？是不是只在資料最多的幾種語言表現好、冷門語言就露餡？這種多語言視角能逼出模型能力分布的真相，避免單一數字造成的錯覺，也替選型的人提供更貼近自身技術棧的依據。

對台灣的開發團隊，這是一個實用提醒：挑寫程式的 AI 工具時，別只看它在熱門榜上的單一分數，回到自己團隊實際用的語言去測，才知道好不好用。基準越貼近現實，選型越不會踩雷。

歸剛點評｜大家用單一語言的分數判斷模型會不會寫程式，很容易被誤導。把評測攤成多語言，逼出能力分布的真相，選型的人才不會只看一個漂亮數字就下單。

來源：Multi-LCB 論文

歸剛誒AI

Multi-LCB 把熱門程式評測 LiveCodeBench 擴到多語言：別只用 Python 一種尺量模型寫程式

同期其他文章