硬體・2026-07-05

一張 5090 跑進百萬 context：llama.cpp 補丁讓 DeepSeek V4 Flash 本機起飛

r/LocalLlama 本週最熱的技術帖（374 熱度）是一份 llama.cpp 補丁：作者把 DeepSeek V4 Flash 的 DSA 稀疏注意力與 lightning indexer 接進模型圖，加上一支 CUDA kernel，讓 DeepSeek-V4-Flash 的 GGUF 版本在單張 RTX 5090 上跑到一百萬 token 的上下文——原本同樣的事需要約 256GiB 的運算緩衝顯存，等級完全不同的硬體。

實測數字很有說服力：256K context 下，運算緩衝從約 67GiB（直接爆顯存）降到 3.2GiB，prefill 速度從每秒 56 token 升到約 263 token，解碼維持每秒約 14 token；256K、512K、1M 三檔驗證配置的峰值顯存約 29 到 31GiB，剛好塞進 5090 的 32GB。作者也跑了 10 萬、51 萬與 100 萬 token 的「大海撈針」正確性測試。社群反應熱情中帶謹慎：有人追問首 token 延遲與端到端時間，有人直言「好到不像真的」，希望作者把補丁提交上游接受正式審查，Metal 後端的移植也被點名。

把昨天的四萬美元本機攻略、今天的 Qwen 3.6 單卡優化實測與這份補丁排在一起，本機 LLM 的能力天花板正以週為單位上移。百萬 context 在本機意味著整個 codebase、整季的文件可以一次餵進去，而且資料不出門——搭配「本機跑 AI 的權利」倡議的走紅，這條戰線的政治與技術正在互相加溫。

歸剛點評｜百萬 context 從雲端專屬變成一張消費級顯卡的事，本機派又下一城。不過社群的謹慎是對的：未經上游審查的補丁先別進生產環境，等合併、等復現，讓子彈飛一會兒。

來源：smol.ai AINews　·　r/LocalLlama

歸剛誒AI

一張 5090 跑進百萬 context：llama.cpp 補丁讓 DeepSeek V4 Flash 本機起飛

同期其他文章