研究・2026-06-10

論文精選：快手 Keye-VL-2.0 技術報告，HF 社群本日最熱

快手發布 Keye-VL-2.0 技術報告，登上 Hugging Face Daily Papers 本日榜首，拿下 165 個 upvote。模型全名 Keye-VL-2.0-30B-A3B，是開源的混合專家（MoE）多模態基礎模型，主攻長影片理解與 agent 能力，30B 總參數、推理時只啟用 3B，效率取向寫在型號裡。對照動輒數百 B 的旗艦模型，部署成本親民得多。

技術報告最有看頭的是工程細節：小時等級的長影片帶來超長上下文、資訊冗餘與運算成本三座大山，Keye-VL-2.0 的解法是首次把 DeepSeek 的稀疏注意力（DSA）移植到 GQA 架構的多模態模型上，做到 256K 上下文的無損處理，同時抓住關鍵影格。從資料配方到訓練排程，報告都攤開來寫。影片理解的痛點在於 token 量爆炸，一小時影片轉成視覺 token 動輒數十萬顆，稀疏注意力等於替模型裝上挑重點看的能力。

短影音巨頭公開影片 AI 的工程秘方，價值比一般學術論文實在：快手的模型直接服務自家數億用戶的影片業務，報告裡每個取捨都付過真金白銀的學費。想知道影片理解怎麼真正落地賺錢，看快手怎麼寫，照著抄都有價值。台灣的影音與電商團隊若在評估影片理解的技術選型，名單上該留一個位置給這份報告。

歸剛點評｜短影音巨頭公開影片 AI 的工程秘方，這種技術報告比學術論文實用：想知道影片理解怎麼真正落地賺錢，看快手怎麼寫，照著抄都有價值。

來源：HF Daily Papers

歸剛誒AI

論文精選：快手 Keye-VL-2.0 技術報告，HF 社群本日最熱

同期其他文章