論文:替長推理壓縮 KV 快取的資訊感知法
大
型
語
言
模
型
的
推
理
能
力
進
步
飛
快
,
隨
之
而
來
的
副
作
用
是
k
e
y
-
v
a
l
u
e
快
取
越
長
越
大
。
模
型
在
生
成
時
要
把
先
前
每
個
t
o
k
e
n
的
k
e
y
和
v
a
l
u
e
都
存
著
好
回
頭
參
照
,
當
推
理
鏈
拉
得
很
長
,
這
份
快
取
會
在
預
填
與
解
碼
兩
個
階
段
同
時
膨
脹
,
吃
掉
大
量
記
憶
體
,
成
為
長
推
理
的
成
本
與
速
度
瓶
頸
。
一
篇
H
u
g
g
i
n
g
F
a
c
e
論
文
提
出
資
訊
感
知
的
壓
縮
法
來
對
付
它
。
關
鍵
字
是
「
資
訊
感
知
」
。
粗
暴
的
做
法
是
一
律
砍
掉
舊
的
快
取
,
但
這
會
誤
傷
真
正
重
要
的
內
容
;
論
文
的
思
路
是
評
估
每
一
段
快
取
攜
帶
多
少
資
訊
量
,
把
資
訊
密
度
低
、
可
有
可
無
的
部
分
優
先
壓
縮
,
保
留
對
後
續
推
理
真
正
關
鍵
的
那
些
。
等
於
不
是
無
差
別
瘦
身
,
而
是
挑
著
減
,
盡
量
在
省
記
憶
體
和
不
掉
品
質
之
間
取
平
衡
。
當
下
模
型
動
不
動
就
要
長
篇
思
考
、
跑
多
步
推
理
,
這
類
技
術
的
需
求
只
會
更
大
。
推
理
越
長
越
聰
明
,
但
也
越
貴
越
慢
,
K
V
快
取
就
是
那
條
最
先
繃
斷
的
繩
子
。
能
在
不
犧
牲
推
理
品
質
的
前
提
下
把
快
取
壓
下
來
,
直
接
決
定
一
個
長
推
理
服
務
跑
不
跑
得
起
、
划
不
划
得
來
。
對
部
署
端
,
這
是
實
打
實
的
工
程
紅
利
。
歸剛點評|模型越愛長篇思考,KV 快取就越肥,記憶體和速度全被它拖累。這篇的聰明處是挑著砍、不是一刀切,把沒用的快取壓掉、留住關鍵的。想跑長推理又不想燒爆預算的團隊,這就是解方。
來源:Hugging Face