AI 代理該認得「你」:iOSWorld 與 MyPCBench 兩套新基準,逼模型在真實個人環境裡考試
iOSWorld 與 MyPCBench 這兩套新基準,盯的是同一個缺口。一個好用的手機或電腦代理,應該認得操作它的是「你」——你的身分、你的使用習慣、你存在裝置上的歷史與偏好,而不是把每個使用者都當成一張白紙。論文指出,現在多數評測都在沒有個人脈絡的環境裡進行,模型在測試裡表現好,搬到真實裝置上卻常常水土不服。
差別在哪?舉例來說,你叫代理「把昨天那封信轉給常合作的廠商」,它得知道「昨天那封信」是哪封、「常合作的廠商」是誰,這些都藏在你的裝置與過往紀錄裡。一個只會執行通用指令、卻讀不懂你個人脈絡的代理,做起真正貼身的任務就會頻頻出錯。
這兩套基準的價值,是把「個人化」從一句口號變成可以打分的標準。有了能衡量的指標,研究者才知道模型在理解個人脈絡上到底進步了多少,廠商也才有共同的尺去比較誰家的代理更貼心。手機與電腦代理要從展示走向天天能用,這類評測是必要的基礎工程。
對台灣的應用開發者,這提醒了下一階段的競爭點。當大家用的底層模型差距縮小,能不能安全又準確地讀懂使用者的個人脈絡、把貼身任務做對,會成為產品好不好用的關鍵差異。同時,個人脈絡牽涉大量隱私資料,怎麼在貼心與隱私之間拿捏,會是繞不過去的設計課題。
歸剛點評|AI 代理要從展示走到天天能用,關鍵是讀懂『你』的個人脈絡而不是把人當白紙。這兩套基準把個人化變成能打分的標準,也預告下一階段的競爭點:在貼心與隱私之間拿捏,台灣應用開發者該提早想。