歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁 · 回第 26 期(2026-07-05)
硬體・2026-07-05

一張 5090 跑進百萬 context:llama.cpp 補丁讓 DeepSeek V4 Flash 本機起飛

r/LocalLlama 本週最熱的技術帖(374 熱度)是一份 llama.cpp 補丁:作者把 DeepSeek V4 Flash 的 DSA 稀疏注意力與 lightning indexer 接進模型圖,加上一支 CUDA kernel,讓 DeepSeek-V4-Flash 的 GGUF 版本在單張 RTX 5090 上跑到一百萬 token 的上下文——原本同樣的事需要約 256GiB 的運算緩衝顯存,等級完全不同的硬體。

實測數字很有說服力:256K context 下,運算緩衝從約 67GiB(直接爆顯存)降到 3.2GiB,prefill 速度從每秒 56 token 升到約 263 token,解碼維持每秒約 14 token;256K、512K、1M 三檔驗證配置的峰值顯存約 29 到 31GiB,剛好塞進 5090 的 32GB。作者也跑了 10 萬、51 萬與 100 萬 token 的「大海撈針」正確性測試。社群反應熱情中帶謹慎:有人追問首 token 延遲與端到端時間,有人直言「好到不像真的」,希望作者把補丁提交上游接受正式審查,Metal 後端的移植也被點名。

把昨天的四萬美元本機攻略、今天的 Qwen 3.6 單卡優化實測與這份補丁排在一起,本機 LLM 的能力天花板正以週為單位上移。百萬 context 在本機意味著整個 codebase、整季的文件可以一次餵進去,而且資料不出門——搭配「本機跑 AI 的權利」倡議的走紅,這條戰線的政治與技術正在互相加溫。

歸剛點評|百萬 context 從雲端專屬變成一張消費級顯卡的事,本機派又下一城。不過社群的謹慎是對的:未經上游審查的補丁先別進生產環境,等合併、等復現,讓子彈飛一會兒。

同期其他文章