Multi-LCB 把熱門程式評測 LiveCodeBench 擴到多語言:別只用 Python 一種尺量模型寫程式
LiveCodeBench(LCB)近來成了業界評估大型語言模型程式能力的熱門基準。它的做法是蒐集競技程式題目、持續加入新題、並依題目發布日期過濾,藉此降低模型在訓練時就看過答案的污染問題,給出比較乾淨的評測。正因為被廣泛採用,它衡量的範圍是否夠全面,就直接影響大家怎麼判斷一個模型會不會寫程式。
新提出的 Multi-LCB 點出一個盲區:評測若集中在單一程式語言,量到的就只是模型在那一種語言上的本事。現實裡的開發是多語言的,前端、後端、資料處理、系統程式各有慣用語言,一個模型 Python 寫得漂亮,不代表換到別的語言一樣穩。Multi-LCB 把 LCB 擴展到多種程式語言,讓基準更貼近真實開發的樣貌。
把評測語言攤開,意義在於讓比較更誠實。當一個模型號稱程式能力很強,現在可以追問:是在哪些語言上強?是不是只在資料最多的幾種語言表現好、冷門語言就露餡?這種多語言視角能逼出模型能力分布的真相,避免單一數字造成的錯覺,也替選型的人提供更貼近自身技術棧的依據。
對台灣的開發團隊,這是一個實用提醒:挑寫程式的 AI 工具時,別只看它在熱門榜上的單一分數,回到自己團隊實際用的語言去測,才知道好不好用。基準越貼近現實,選型越不會踩雷。
歸剛點評|大家用單一語言的分數判斷模型會不會寫程式,很容易被誤導。把評測攤成多語言,逼出能力分布的真相,選型的人才不會只看一個漂亮數字就下單。
來源:Multi-LCB 論文