Gemma 4 上 Cerebras 衝到每秒 1800 token,讓即時語音 AI 真的能用
G
o
o
g
l
e
D
e
e
p
M
i
n
d
的
開
源
多
模
態
模
型
G
e
m
m
a
4
這
次
跟
C
e
r
e
b
r
a
s
合
作
,
把
速
度
推
到
能
做
即
時
語
音
的
等
級
。
G
e
m
m
a
4
是
一
整
個
家
族
,
有
E
2
B
、
E
4
B
、
3
1
B
與
2
6
B
-
A
4
B
(
M
o
E
)
等
尺
寸
,
走
A
p
a
c
h
e
2
授
權
可
商
用
,
音
訊
能
力
落
在
E
2
B
、
E
4
B
與
1
2
B
上
,
能
做
語
音
辨
識
、
講
者
分
離
、
影
片
理
解
與
a
g
e
n
t
推
理
。
開
源
加
上
多
模
態
,
本
來
就
是
想
讓
開
發
者
把
語
音
助
理
這
類
應
用
自
己
長
出
來
。
真
正
的
關
鍵
是
速
度
。
G
e
m
m
a
4
3
1
B
跑
在
C
e
r
e
b
r
a
s
I
n
f
e
r
e
n
c
e
上
超
過
每
秒
1
8
0
0
t
o
k
e
n
,
官
方
稱
是
全
世
界
最
快
的
多
模
態
模
型
;
更
重
要
的
是
首
個
回
應
t
o
k
e
n
只
要
1
.
5
秒
就
吐
出
來
。
語
音
互
動
最
怕
延
遲
,
人
一
開
口
、
等
超
過
一
兩
秒
才
回
話
就
崩
了
,
C
e
r
e
b
r
a
s
說
自
己
是
唯
一
能
讓
G
e
m
m
a
4
用
在
即
時
場
景
的
供
應
商
,
賣
的
正
是
這
個
『
夠
快
到
不
尷
尬
』
的
體
感
。
6
月
2
9
日
起
,
G
e
m
m
a
4
3
1
B
已
在
C
e
r
e
b
r
a
s
I
n
f
e
r
e
n
c
e
C
l
o
u
d
公
開
預
覽
。
把
開
源
多
模
態
模
型
跟
專
用
推
理
硬
體
綁
在
一
起
,
等
於
給
想
做
即
時
語
音
A
I
的
團
隊
一
條
不
必
自
己
養
旗
艦
閉
源
模
型
的
路
。
對
台
灣
的
應
用
開
發
者
,
這
意
味
著
做
客
服
語
音
、
即
時
口
譯
、
語
音
a
g
e
n
t
的
技
術
門
檻
正
在
下
降
,
A
p
a
c
h
e
2
授
權
也
讓
商
用
少
了
法
務
顧
慮
。
真
正
要
盤
算
的
是
成
本
與
延
遲
的
甜
蜜
點
落
在
哪
裡
,
以
及
本
機
小
模
型
(
例
如
M
a
c
上
的
O
l
l
a
m
a
)
跟
這
種
高
速
雲
端
推
理
該
怎
麼
分
工
。
歸剛點評|即時語音 AI 卡了很久的『延遲』問題被硬體端解掉了一大半。開源多模態+每秒 1800 token 的組合,把語音助理、即時口譯這類應用的門檻拉低。想做語音產品的台灣團隊,現在有了不必自建旗艦模型的可行路徑。