論文精選:快手 Keye-VL-2.0 技術報告,HF 社群本日最熱
快手發布 Keye-VL-2.0 技術報告,登上 Hugging Face Daily Papers 本日榜首,拿下 165 個 upvote。模型全名 Keye-VL-2.0-30B-A3B,是開源的混合專家(MoE)多模態基礎模型,主攻長影片理解與 agent 能力,30B 總參數、推理時只啟用 3B,效率取向寫在型號裡。對照動輒數百 B 的旗艦模型,部署成本親民得多。
技術報告最有看頭的是工程細節:小時等級的長影片帶來超長上下文、資訊冗餘與運算成本三座大山,Keye-VL-2.0 的解法是首次把 DeepSeek 的稀疏注意力(DSA)移植到 GQA 架構的多模態模型上,做到 256K 上下文的無損處理,同時抓住關鍵影格。從資料配方到訓練排程,報告都攤開來寫。影片理解的痛點在於 token 量爆炸,一小時影片轉成視覺 token 動輒數十萬顆,稀疏注意力等於替模型裝上挑重點看的能力。
短影音巨頭公開影片 AI 的工程秘方,價值比一般學術論文實在:快手的模型直接服務自家數億用戶的影片業務,報告裡每個取捨都付過真金白銀的學費。想知道影片理解怎麼真正落地賺錢,看快手怎麼寫,照著抄都有價值。台灣的影音與電商團隊若在評估影片理解的技術選型,名單上該留一個位置給這份報告。
歸剛點評|短影音巨頭公開影片 AI 的工程秘方,這種技術報告比學術論文實用:想知道影片理解怎麼真正落地賺錢,看快手怎麼寫,照著抄都有價值。