Cluster, Route, Escalate:替 LLM 服務省成本的層級框架
面
對
大
模
型
服
務
又
貴
又
燒
算
力
的
現
實
,
一
篇
論
文
提
出
名
為
C
l
u
s
t
e
r
,
R
o
u
t
e
,
E
s
c
a
l
a
t
e
(
分
群
、
路
由
、
升
級
)
的
層
級
框
架
,
主
打
「
成
本
感
知
」
的
L
L
M
服
務
。
核
心
想
法
很
務
實
:
不
是
每
個
請
求
都
值
得
動
用
最
貴
的
旗
艦
模
型
。
框
架
先
把
進
來
的
查
詢
分
群
(
c
l
u
s
t
e
r
)
,
辨
識
它
們
的
難
易
與
類
型
;
接
著
路
由
(
r
o
u
t
e
)
,
把
簡
單
、
常
見
的
請
求
交
給
便
宜
的
小
模
型
處
理
;
只
有
當
小
模
型
搞
不
定
、
信
心
不
足
時
,
才
升
級
(
e
s
c
a
l
a
t
e
)
到
更
強
也
更
貴
的
大
模
型
。
這
套
「
能
省
則
省
、
該
花
才
花
」
的
串
接
,
目
標
是
在
維
持
回
答
品
質
的
前
提
下
,
大
幅
壓
低
整
體
服
務
成
本
—
—
對
任
何
要
把
A
I
大
規
模
上
線
、
又
被
推
論
帳
單
壓
得
喘
不
過
氣
的
團
隊
,
都
是
直
接
命
中
痛
點
的
設
計
。
它
跟
今
天
O
m
e
n
A
I
顧
冷
卻
水
那
條
其
實
同
一
個
底
層
焦
慮
:
A
I
燒
錢
燒
到
極
致
時
,
省
成
本
本
身
就
是
一
門
生
意
與
一
條
研
究
線
。
對
自
架
A
I
服
務
的
人
,
這
種
分
級
路
由
的
思
路
相
當
實
用
,
剛
好
也
呼
應
我
們
站
內
一
貫
強
調
的
「
能
少
用
貴
模
型
就
少
用
」
。
隨
著
越
來
越
多
團
隊
把
A
I
推
上
正
式
生
產
環
境
,
這
種
把
成
本
當
成
一
級
設
計
目
標
的
研
究
,
會
比
單
純
追
求
跑
分
更
新
更
受
實
務
界
歡
迎
。
歸剛點評|這篇論文簡直是替每個被推論帳單嚇到的團隊寫的:簡單問題丟便宜小模型、難題才升級到貴的旗艦,能省則省。道理不複雜,但做得好就是真金白銀。它跟顧冷卻水的 Omen AI 同一個母題——當 AI 燒錢到極限,「怎麼少花」本身就成了最值錢的本事。自架服務的人值得照這思路設計。