論文:JetSpec 用平行樹草稿突破推測解碼天花板
推
測
解
碼
是
替
自
回
歸
大
型
語
言
模
型
加
速
的
常
用
手
法
:
先
讓
一
個
小
模
型
草
擬
好
幾
個
t
o
k
e
n
,
再
由
大
模
型
平
行
驗
證
,
正
確
的
就
一
次
採
納
,
省
下
逐
字
生
成
的
時
間
。
但
這
套
方
法
有
個
擴
展
上
的
天
花
板
,
草
稿
一
拉
長
、
命
中
率
就
掉
,
加
速
效
果
到
某
個
點
就
上
不
去
。
一
篇
H
u
g
g
i
n
g
F
a
c
e
論
文
J
e
t
S
p
e
c
想
處
理
的
正
是
這
個
瓶
頸
。
J
e
t
S
p
e
c
的
解
法
是
平
行
樹
草
稿
。
傳
統
做
法
多
半
草
擬
一
條
直
線
序
列
,
賭
它
整
條
都
對
;
J
e
t
S
p
e
c
改
成
同
時
鋪
開
一
棵
樹
,
一
次
涵
蓋
多
種
可
能
的
後
續
路
徑
,
讓
驗
證
階
段
有
更
高
機
率
撞
上
正
確
答
案
。
等
於
把
單
押
一
注
改
成
分
散
下
注
,
提
高
每
一
輪
驗
證
能
採
納
的
t
o
k
e
n
數
量
,
藉
此
把
推
測
解
碼
的
加
速
上
限
往
上
頂
。
對
在
意
推
論
成
本
與
延
遲
的
團
隊
,
這
類
研
究
很
實
際
。
模
型
再
強
,
使
用
者
體
驗
最
後
還
是
卡
在
它
吐
字
多
快
、
每
個
t
o
k
e
n
多
貴
上
;
任
何
能
在
不
傷
品
質
的
前
提
下
加
速
生
成
的
方
法
,
都
會
直
接
反
映
在
帳
單
和
回
應
速
度
上
。
J
e
t
S
p
e
c
把
推
測
解
碼
的
天
花
板
再
墊
高
一
層
,
對
跑
大
規
模
推
論
服
務
的
人
就
是
真
金
白
銀
的
省
。
歸剛點評|推論加速這種題目聽起來無聊,卻是省錢的硬功夫。模型多強,使用者只感覺得到它回多快、多貴。JetSpec 把推測解碼的上限再頂高,跑大規模服務的團隊看到的是帳單變小、延遲變短,很實在。
來源:Hugging Face