OpenAI 即時語音加上「文件脈絡」,Simon Willison 動手實測新玩法
開發者 Simon Willison 分享,他更新了自己在 2024 年底為試用 OpenAI WebRTC 即時語音 API 而做的小工具。OpenAI 上個月推出全新的即時音訊模型,他這次把工具接上去,並加進了「文件脈絡」——也就是讓你能一邊載入一份文件,一邊用語音即時跟它對話問答。
這類即時語音的關鍵體驗在「延遲」。傳統語音助理是錄完、上傳、辨識、生成、再播放,一來一回卡頓明顯;WebRTC 走的是低延遲串流,對話可以像打電話一樣自然插話、打斷。再加上文件脈絡,等於把「用講的查資料」從科幻變成了開發者週末就能拼出來的東西。
Simon Willison 的價值一向在於「親手做給你看」。他的小工具通常程式碼公開、原理講清楚,是觀察前沿 API 實際能力與限制的好窗口。對想評估 OpenAI 即時語音的團隊,看他的實作比看官方展示更接近真實體驗。
應用想像很多:語音版的文件助理、開車時用講的處理工作、無障礙場景的即時問答。門檻在於 API 成本與穩定度,但方向已經很清楚——人機介面正在從「打字」往「開口說」快速移動。
歸剛點評|即時語音加上文件脈絡,是把 AI 從「打字框」拉進「日常對話」的關鍵一步。當跟 AI 講話像打電話一樣順、還能即時翻你給它的文件,互動方式會被重新定義——值得每個做產品的人提早體驗。