歸剛誒AI

歸剛欸，AI 又進步了——每天幫你盯 AI 圈的台灣人日報

← 回首頁　·　回第 23 期（2026-07-02）

模型・2026-07-02

Gemma 4 上 Cerebras 衝到每秒 1800 token，讓即時語音 AI 真的能用

G

o

o

g

l

e

D

e

e

p

M

i

n

d

的

開

源

多

模

態

模

型

G

e

m

m

a

4

這

次

跟

C

e

r

e

b

r

a

s

合

作

，

把

速

度

推

到

能

做

即

時

語

音

的

等

級

。

G

e

m

m

a

4

是

一

整

個

家

族

，

有

E

2

B

、

E

4

B

、

3

1

B

與

2

6

B

-

A

4

B

（

M

o

E

）

等

尺

寸

，

走

A

p

a

c

h

e

2

授

權

可

商

用

，

音

訊

能

力

落

在

E

2

B

、

E

4

B

與

1

2

B

上

，

能

做

語

音

辨

識

、

講

者

分

離

、

影

片

理

解

與

a

g

e

n

t

推

理

。

開

源

加

上

多

模

態

，

本

來

就

是

想

讓

開

發

者

把

語

音

助

理

這

類

應

用

自

己

長

出

來

。

真

正

的

關

鍵

是

速

度

。

G

e

m

m

a

4

3

1

B

跑

在

C

e

r

e

b

r

a

s

I

n

f

e

r

e

n

c

e

上

超

過

每

秒

1

8

0

0

t

o

k

e

n

，

官

方

稱

是

全

世

界

最

快

的

多

模

態

模

型

；

更

重

要

的

是

首

個

回

應

t

o

k

e

n

只

要

1

.

5

秒

就

吐

出

來

。

語

音

互

動

最

怕

延

遲

，

人

一

開

口

、

等

超

過

一

兩

秒

才

回

話

就

崩

了

，

C

e

r

e

b

r

a

s

說

自

己

是

唯

一

能

讓

G

e

m

m

a

4

用

在

即

時

場

景

的

供

應

商

，

賣

的

正

是

這

個

『

夠

快

到

不

尷

尬

』

的

體

感

。

6

月

2

9

日

起

，

G

e

m

m

a

4

3

1

B

已

在

C

e

r

e

b

r

a

s

I

n

f

e

r

e

n

c

e

C

l

o

u

d

公

開

預

覽

。

把

開

源

多

模

態

模

型

跟

專

用

推

理

硬

體

綁

在

一

起

，

等

於

給

想

做

即

時

語

音

A

I

的

團

隊

一

條

不

必

自

己

養

旗

艦

閉

源

模

型

的

路

。

對

台

灣

的

應

用

開

發

者

，

這

意

味

著

做

客

服

語

音

、

即

時

口

譯

、

語

音

a

g

e

n

t

的

技

術

門

檻

正

在

下

降

，

A

p

a

c

h

e

2

授

權

也

讓

商

用

少

了

法

務

顧

慮

。

真

正

要

盤

算

的

是

成

本

與

延

遲

的

甜

蜜

點

落

在

哪

裡

，

以

及

本

機

小

模

型

（

例

如

M

a

c

上

的

O

l

l

a

m

a

）

跟

這

種

高

速

雲

端

推

理

該

怎

麼

分

工

。

歸剛點評｜即時語音 AI 卡了很久的『延遲』問題被硬體端解掉了一大半。開源多模態＋每秒 1800 token 的組合，把語音助理、即時口譯這類應用的門檻拉低。想做語音產品的台灣團隊，現在有了不必自建旗艦模型的可行路徑。

來源：Hugging Face　·　Cerebras　·　Hugging Face Blog

同期其他文章

Anthropic 正式推出 Claude Science：把大模型搬進藥廠實驗室，鎖定新藥研發美方鬆綁出口管制，Anthropic 讓 Fable 5 全球回歸，並提議跨廠越獄評分框架 Cloudflare 出招逼 AI 付費：9/15 起，混用型爬蟲預設被擋在有廣告的頁面外隱私優先的 Venice AI 成獨角獸：6500 萬美元 A 輪、估值 10 億，年化營收破 7000 萬 Meta 也想把過剩 AI 算力變現，傳籌建雲端業務叫板 AWS、Google Cloud Google 的 agent 助理 Gemini Spark 登陸 Mac，能整理 Downloads、操作 Workspace SpaceX 傳有 AI 裝置原型，外形『很像手機』，疑為進軍無線通訊鋪路自駕新星 Wayve 開 8500 萬美元員工老股收購，估值站上 85 億