產品・2026-06-14

OpenAI 即時語音加上「文件脈絡」，Simon Willison 動手實測新玩法

開發者 Simon Willison 分享，他更新了自己在 2024 年底為試用 OpenAI WebRTC 即時語音 API 而做的小工具。OpenAI 上個月推出全新的即時音訊模型，他這次把工具接上去，並加進了「文件脈絡」——也就是讓你能一邊載入一份文件，一邊用語音即時跟它對話問答。

這類即時語音的關鍵體驗在「延遲」。傳統語音助理是錄完、上傳、辨識、生成、再播放，一來一回卡頓明顯；WebRTC 走的是低延遲串流，對話可以像打電話一樣自然插話、打斷。再加上文件脈絡，等於把「用講的查資料」從科幻變成了開發者週末就能拼出來的東西。

Simon Willison 的價值一向在於「親手做給你看」。他的小工具通常程式碼公開、原理講清楚，是觀察前沿 API 實際能力與限制的好窗口。對想評估 OpenAI 即時語音的團隊，看他的實作比看官方展示更接近真實體驗。

應用想像很多：語音版的文件助理、開車時用講的處理工作、無障礙場景的即時問答。門檻在於 API 成本與穩定度，但方向已經很清楚——人機介面正在從「打字」往「開口說」快速移動。

歸剛點評｜即時語音加上文件脈絡，是把 AI 從「打字框」拉進「日常對話」的關鍵一步。當跟 AI 講話像打電話一樣順、還能即時翻你給它的文件，互動方式會被重新定義——值得每個做產品的人提早體驗。

歸剛誒AI