OpenAI 靠大規模 core dump 分析,揪出潛藏 18 年的老 bug
O
p
e
n
A
I
的
工
程
團
隊
分
享
了
一
個
硬
派
的
除
錯
故
事
:
他
們
用
大
規
模
的
c
o
r
e
d
u
m
p
(
程
式
崩
潰
時
留
下
的
記
憶
體
快
照
)
分
析
,
去
追
查
基
礎
設
施
上
那
些
罕
見
、
難
以
重
現
的
崩
潰
,
最
後
一
口
氣
挖
出
兩
個
元
兇
—
—
一
個
是
硬
體
故
障
,
另
一
個
是
埋
藏
了
整
整
1
8
年
的
軟
體
b
u
g
。
這
件
事
的
工
程
意
義
,
遠
比
『
修
了
個
b
u
g
』
來
得
大
。
在
跑
A
I
的
超
大
規
模
叢
集
上
,
崩
潰
常
常
是
百
萬
分
之
一
的
機
率
才
出
現
一
次
,
你
根
本
沒
辦
法
照
著
步
驟
重
現
,
傳
統
d
e
b
u
g
那
套
『
跟
著
複
現
一
遍
』
完
全
失
效
。
O
p
e
n
A
I
的
做
法
是
把
這
當
成
流
行
病
學
來
做
—
—
不
去
追
單
一
個
案
,
而
是
蒐
集
海
量
崩
潰
快
照
,
統
計
分
析
找
出
共
通
模
式
,
像
疾
管
署
找
傳
染
源
一
樣
定
位
問
題
。
他
們
把
這
篇
文
章
取
名
為
『
c
o
r
e
d
u
m
p
流
行
病
學
』
,
正
是
這
個
意
思
。
對
工
程
人
來
說
,
這
裡
有
兩
個
值
得
帶
走
的
點
。
第
一
,
A
I
時
代
的
可
靠
度
工
程
,
越
來
越
仰
賴
在
巨
量
規
模
上
做
統
計
式
診
斷
,
而
不
是
靠
單
機
d
e
b
u
g
的
直
覺
。
第
二
,
一
個
埋
了
1
8
年
的
b
u
g
能
被
翻
出
來
,
說
明
這
類
大
規
模
分
析
方
法
的
威
力
—
—
它
能
照
亮
那
些
平
常
頻
率
太
低
、
根
本
沒
人
注
意
得
到
的
暗
角
。
當
你
的
系
統
大
到
一
定
程
度
,
連
最
罕
見
的
問
題
都
會
頻
繁
發
生
,
這
套
方
法
論
會
越
來
越
重
要
。
歸剛點評|超大規模叢集上,崩潰是百萬分之一機率、無法複現,傳統 debug 失效。OpenAI 改用『流行病學』式統計診斷揪出 18 年老 bug,是 AI 時代可靠度工程的範式轉移。對台灣後端與 SRE 工程師,這套巨量規模統計除錯法值得學起來。
來源:OpenAI