工程・2026-07-01

OpenAI 靠大規模 core dump 分析，揪出潛藏 18 年的老 bug

的

工

程

團

隊

分

享

了

一

個

硬

派

的

除

錯

故

事

：

他

們

用

大

規

模

的

（

程

式

崩

潰

時

留

下

的

記

憶

體

快

照

）

分

析

，

去

追

查

基

礎

設

施

上

那

些

罕

見

、

難

以

重

現

的

崩

潰

，

最

後

一

口

氣

挖

出

兩

個

元

兇

—

一

個

是

硬

體

故

障

，

另

一

個

是

埋

藏

了

整

年

的

軟

體

。

這

件

事

的

工

程

意

義

，

遠

比

『

修

了

個

』

來

得

大

。

在

跑

的

超

大

規

模

叢

集

上

，

崩

潰

常

是

百

萬

分

之

一

的

機

率

才

出

現

一

次

，

你

根

本

沒

辦

法

照

著

步

驟

重

現

，

傳

統

那

套

『

跟

著

複

現

一

遍

』

完

全

失

效

。

的

做

法

是

把

這

當

成

流

行

病

學

來

做

—

不

去

追

單

一

個

案

，

而

是

蒐

集

海

量

崩

潰

快

照

，

統

計

分

析

找

出

共

通

模

式

，

像

疾

管

署

找

傳

染

源

一

樣

定

位

問

題

。

他

們

把

這

篇

文

章

取

名

為

『

流

行

病

學

』

，

正

是

這

個

意

思

。

對

工

程

人

來

說

，

這

裡

有

兩

個

值

得

帶

走

的

點

。

第

一

，

時

代

的

可

靠

度

工

程

，

越

來

越

仰

賴

在

巨

量

規

模

上

做

統

計

式

診

斷

，

而

不

是

靠

單

機

的

直

覺

。

第

二

，

一

個

埋

了

年

的

能

被

翻

出

來

，

說

明

這

類

大

規

模

分

析

方

法

的

威

力

—

它

能

照

亮

那

些

平

常

頻

率

太

低

、

根

本

沒

人

注

意

得

到

的

暗

角

。

當

你

的

系

統

大

到

一

定

程

度

，

連

最

罕

見

的

問

題

都

會

頻

繁

發

生

，

這

套

方

法

論

會

越

來

越

重

要

。

歸剛點評｜超大規模叢集上，崩潰是百萬分之一機率、無法複現，傳統 debug 失效。OpenAI 改用『流行病學』式統計診斷揪出 18 年老 bug，是 AI 時代可靠度工程的範式轉移。對台灣後端與 SRE 工程師，這套巨量規模統計除錯法值得學起來。

來源：OpenAI

歸剛誒AI

OpenAI 靠大規模 core dump 分析，揪出潛藏 18 年的老 bug

同期其他文章