歸剛誒AI

歸剛欸,AI 又進步了——每天幫你盯 AI 圈的台灣人日報

第 17 期2026-06-26(台北時間)

第十七期。今天 AI 圈的火藥味,集中在美中與監管這條線上。Anthropic 把一封信送進美國國會,指控阿里巴巴用近 2.5 萬個假帳號、累積將近 2,900 萬次對話去「蒸餾」Claude,等於把對手的本事偷學一輪;同一天白宮要 OpenAI 把 GPT-5.6 改成分批放行,逐個客戶審核才給用。硬體這邊也熱鬧:IBM 端出全球第一個跨進 1 奈米以下的電晶體技術,Cerebras 上市後第一份財報因毛利展望被投資人嚇跑,前 Databricks AI 主管的新公司則說要用類比晶片把推論耗電砍到千分之一。資金繼續狂噴,用電玩畫面訓練機器人的 General Intuition 一口氣募到 3.2 億美元、估值衝上 23 億。以下是今天的重點。

頭條

Anthropic 控訴阿里巴巴用 2.5 萬假帳號偷學 Claude,把戰火燒進國會

Anthropic 控訴阿里巴巴用 2.5 萬假帳號偷學 Claude,把戰火燒進國會

Anthropic 在週四送出一封信給美國參議員與白宮官員,指控阿里巴巴在 4 月 22 日到 6 月 5 日之間,動用將近 2 萬 5 千個假帳號對 Claude 發動接近 2,900 萬次對話,目的是把 Claude 最值錢的能力複製走。Anthropic 把這起事件稱為公司遇過規模最大的一次「蒸餾」攻擊,並表示操作這批帳號的人,和阿里旗下的 Qwen 模型團隊有關連。

蒸餾講白話,就是拿一個強模型的回答去訓練另一個比較弱的模型,省下從頭研發的力氣,等於沒付授權費就把對方的本事搬回家。Anthropic 說對方灌進來的問題很有針對性,集中在 Claude 的代理推理、軟體工程、長時間任務這幾項最難練的硬功夫上,想把這些招式一項一項萃取出來,而不是隨便閒聊。

這封信的收件人很關鍵,參議員加白宮,等於把一樁商業糾紛直接拉高到國安層級。消息一出,阿里巴巴的股價應聲下滑。Anthropic 還公開喊話,說要對付這種非法蒸餾,得靠政府跟業界一起出手,言下之意是希望華府祭出實質懲罰,而不只是打嘴砲。

對台灣的開發者,這件事點出一個正在成形的現實:模型公司之間的攻防,正從純技術競賽,延伸到法律與外交的角力場。你接的模型背後是哪一國的團隊、會不會被捲進制裁名單、API 條款怎麼防著被抓資料,這些欄位開始跟價格與效能一樣,要放進選型時的考量。

歸剛點評|把商業竊取一路告到國會,等於替美中 AI 對抗再添一把火;對所有靠 API 接模型的團隊,供應商的「國籍風險」正式變成要評估的項目。
來源:Ars Technica · Computerworld · InfoWorld
政策監管

白宮要 OpenAI 把 GPT-5.6 改成分批放行,一個客戶一個客戶審核才給用

據 The Information 報導,白宮以國安疑慮為由,要求 OpenAI 把新模型 GPT-5.6 改成限量預覽,先給少數合作夥伴,並由政府逐個客戶核准存取。執行長 Altman 已在內部 Q&A 向員工說明。

白宮要 OpenAI 把 GPT-5.6 改成分批放行,一個客戶一個客戶審核才給用

OpenAI 執行長 Altman 在週三的公司問答上告訴員工,下一代旗艦模型 GPT-5.6 不會照原訂計畫大張旗鼓地全面開放,而是改走限量預覽,先給一小群合作夥伴試用。據 The Information 報導,這個分批放行的安排,來自白宮基於潛在安全疑慮提出的要求。

更不尋常的是審核的細緻程度。Altman 說在這段預覽期間,政府會「一個客戶一個客戶」地核准誰能拿到存取權。提出這項要求的,是國家網路總監辦公室與科技政策辦公室這兩個單位;美國商務部長 Lutnick 也提醒過 Altman,發布前最好先徵詢其他政府機關的意見。

這套做法不是第一次上演。先前白宮就以國安為由,逼 Anthropic 收回了 Fable 與 Mythos 兩款產品。把這兩件事擺在一起看,華府對前沿模型的態度,正從事後監督,往發布前的閘門移動,等於在模型上市的流程裡插進一道政府關卡。

對非美國市場的使用者,這個訊號要留意:最強的模型未來可能先在美國國內小範圍流通,海外要等多久、能不能拿到完整版,會受政治節奏左右。對排程依賴最新模型的產品團隊,發布時間表多了一個你管不到的變數。

歸剛點評|前沿模型的發布權,正從公司手裡部分轉移到政府手裡;最強的版本何時輪到海外,開始要看華府臉色,這是排程與選型都得納入的新風險。
來源:The Verge · The Information · CNBC
研究突破

IBM 端出全球第一個跨進 1 奈米以下的電晶體:指甲大小塞近千億顆

IBM 於 6 月 25 日發表 nanostack 技術,把電晶體做到 0.7 奈米(7 埃米)節點,一片指甲大小的晶片塞進將近 1,000 億顆電晶體,密度約為 2021 年 2 奈米晶片的兩倍。

IBM 端出全球第一個跨進 1 奈米以下的電晶體:指甲大小塞近千億顆

IBM 在 6 月 25 日公布一項半導體突破,宣稱做出全球第一個跨進 1 奈米以下的電晶體技術,節點壓到 0.7 奈米、也就是 7 埃米。官方說一片指甲大小的晶片,能塞進將近 1,000 億顆電晶體,密度大約是 IBM 在 2021 年發表的 2 奈米晶片的兩倍。

這項技術的關鍵叫 nanostack,做法是把電晶體垂直堆疊、交錯排列,靠 3D 序列整合在同一塊面積上塞進更多電晶體。堆疊還帶來一個附加好處:每一層可以用不同的材料組合,讓每顆電晶體的效能與功耗各自最佳化,互不牽制。

效能數字方面,IBM 說和自家 2 奈米相比,新設計最多能帶來 50% 的效能提升,或者換成省電,最多省 70% 的耗電。研究團隊也展示 SRAM 縮放達到 40%,對需要高頻寬餵資料的先進 AI 運算來說,這一段特別重要。

要先潑一盆冷水:這是研究里程碑,不是貨架上的商品。IBM 自己估,若這套方法能順利放大量產,可能還要約五年才會落地。對台灣半導體上下游,真正該盯的是堆疊與先進封裝這條路線會不會成為主流,因為那牽動的是未來幾年產能與設備的押注方向。

歸剛點評|把電晶體往上疊、節點壓進 1 奈米以下,是摩爾定律放緩後的重要解法之一;雖然量產還要等五年,但它替先進封裝與堆疊路線再加一分,台廠供應鏈值得早一步留意。
來源:Ars Technica · IBM Newsroom · The Next Web
產業資金

用電玩畫面教機器人:General Intuition 募 3.2 億美元、估值衝上 23 億

General Intuition 完成 3.2 億美元募資、估值達 23 億美元,由 Khosla Ventures 領投,Bezos 與 Eric Schmidt 等加入。公司用 Medal 平台上數億小時的遊戲畫面,搭配按鍵動作標籤訓練 AI,目標是機器人與無人機等真實世界的代理。

把打電動的畫面餵給 AI,居然能訓練出操作真實機器的本事。General Intuition 靠這個賭注完成 3.2 億美元募資,估值一口氣衝到 23 億美元,由 Khosla Ventures 領投,連 Jeff Bezos 跟 Eric Schmidt 都進場押注。

他們的訓練素材,來自遊戲剪輯平台 Medal 上數億小時的玩家畫面。真正值錢的不只是影像,而是埋在這些片段裡的「動作標籤」——也就是玩家在哪個時間點按了哪顆鍵的完整紀錄。有了動作對應,模型就能學會在三維空間裡預測「接下來會發生什麼」,再把這套直覺搬到現實。

公司鎖定的下一塊市場,是會在倉庫裡穿梭的機器人、能巡檢基礎設施的無人機,以及各種需要即時判斷的自主系統。這條路繞開了真實世界資料蒐集又貴又慢的痛點,改用海量、現成又附帶精準標籤的遊戲資料來補。新募到的錢會拿去擴算力,並計畫在今年夏末推出 API。

對機器人與自動化的新創,這筆錢與這套方法給了一個提醒:訓練資料的來源正在被重新想像。誰能找到既便宜、量又大、還自帶標註的資料管道,誰就握有成本優勢。電玩之外,模擬器、行車紀錄、操作日誌,都可能是下一座沒被好好開採的礦。

歸剛點評|資料才是機器人時代的油田。用自帶按鍵標籤的遊戲畫面繞開昂貴的真實資料蒐集,是個聰明的成本解,也讓「拿什麼資料訓練」重新變成競爭關鍵。
來源:TechCrunch · GamesBeat
硬體

前 Databricks AI 主管要用類比晶片,把推論耗電砍到千分之一

Naveen Rao 創辦的 Unconventional AI 發表首個模型 Un-0(影像生成),證明其震盪器式類比運算架構能複製傳統 AI 系統。Rao 宣稱該技術最終可把推論耗電降到原本的千分之一,公司已募得 4.75 億美元種子輪、估值 45 億美元。

前 Databricks AI 主管要用類比晶片,把推論耗電砍到千分之一

前 Databricks AI 主管、MosaicML 創辦人 Naveen Rao 的新公司 Unconventional AI,在週四丟出第一個模型 Un-0,是一套影像生成工具。它的意義不在畫得多漂亮,而在於首次證明這家公司那套非主流的運算架構,真的能複製傳統 AI 系統做得到的事。

這套架構的核心,是一種以震盪器為基礎的計算方式,並偏向走類比而非純數位。Rao 的論點是:機器學習本來就帶有隨機性,未必需要一個樣樣精準的數位平台來跑。把容許誤差的類比運算和需要精確的數位邏輯混搭,就能用更省的方式加速不同階段的工作。

他喊出的目標很大膽——最終要把推論的耗電降到現在的千分之一。Rao 形容未來的樣子:機器擺在那裡跑 AI 模型,一條網路線進來是提問、出去是答案,全程只用千分之一的電。Databricks 自己也投了這家公司,Rao 與三位共同創辦人已募得 4.75 億美元種子輪,估值來到 45 億美元。

耗電正是當前 AI 擴張最現實的天花板,資料中心搶電、搶水、搶土地的新聞天天有。如果類比路線真能把推論的電費壓到零頭,整個成本結構會被改寫。要保持冷靜的是,從一個影像 demo 到能跑大型語言模型的量產晶片,中間還有很長的路,前人在類比運算上摔過不少跤。

歸剛點評|電費是 AI 規模化最硬的天花板。類比晶片若真能把推論耗電壓到千分之一,會直接改寫成本結構;但從一個 demo 到量產,類比路線歷史上摔過很多次,先別急著歡呼。
來源:TechCrunch · The Register
產業

Cerebras 上市後首份財報:營收暴衝 94%,卻因毛利展望被投資人甩賣近兩成

Cerebras 第一份上市財報營收年增 94%、達 1.934 億美元並超預期,但公司預估全年毛利率僅 38%–41%、低於首季的 47%,股價應聲下挫近 20%。執行長 Feldman 稱市場「誤讀」了毛利指引。

Cerebras 上市後首份財報:營收暴衝 94%,卻因毛利展望被投資人甩賣近兩成

AI 晶片商 Cerebras 交出上市以來第一份財報,數字本身其實亮眼:首季營收年增 94%、衝到 1.934 億美元的新高,超過分析師預期的 1.808 億美元,全年展望也喊出 69% 的年增。但股價沒有捧場,反而當天重挫近 20%,距離 5 月 14 日掛牌當天的高點已經腰斬。

嚇到投資人的,是毛利率。公司預估全年毛利率落在 38% 到 41%,比首季的 47% 明顯縮水,第二季更只剩 36% 到 38%。在一個大家盯著「AI 能不能賺錢」的時點,毛利往下走的指引,比營收成長更牽動神經。

Cerebras 給的理由是:為了應付眼前暴增的需求,公司得暫時向某個客戶「租回」自己原本的基礎設施來用,一邊撐住出貨、一邊趕工蓋新的資料中心產能,這段過渡期就壓低了毛利。執行長 Feldman 則喊話說,市場「誤讀」了這份毛利指引。

把這條和今天其他晶片新聞擺在一起看,訊號很一致:算力需求旺到供不應求,但供給端要把產能、毛利和現金流同時顧好並不容易。對投資人,這是一堂課——AI 硬體股的營收高成長,未必等於賺錢效率,毛利那一欄才是照妖鏡。

歸剛點評|營收暴衝擋不住毛利疑慮,說明市場開始要 AI 硬體商「證明會賺錢」,不只是「賣得動」。供需兩旺之下,產能與毛利的拉扯會是接下來這類股票的關鍵戰場。
來源:TechCrunch · CNBC · DCD
產業

在 ChatGPT 的地盤上,Claude 正悄悄把肯付錢的消費者搶過來

信用卡分析公司 Indagari 的資料顯示,付費的 AI 消費者愈來愈多選擇 Claude,付費族群自 1 月以來成長約 75%,Claude 2026 年付費訂閱翻倍以上。其 App 全球市占從 2 月的 5.1% 升到 4 月的 10%,但整體規模仍落後 ChatGPT。

在 ChatGPT 的地盤上,Claude 正悄悄把肯付錢的消費者搶過來

消費端的 AI 付費市場一直是 ChatGPT 的天下,但風向正在變。根據信用卡交易分析公司 Indagari 的資料,肯掏錢買 AI 的消費者,愈來愈多人選擇 Anthropic 的 Claude。這家公司分析了約 2,800 萬名美國消費者的匿名信用卡交易,趨勢相當清楚。

數字會說話。在付費這個族群裡,Claude 的營收與用戶自 1 月以來成長了大約 75%,2026 年的付費訂閱數更翻了不只一倍,這個里程碑公司在 3 月就已確認。App 的全球市占也從 2 月的 5.1%,兩個月內幾乎翻倍到 4 月的 10%。

教育端是另一個觀察點。學習平台 DataCamp 說,自學者對 Claude 課程的需求,比 ChatGPT 高出三比一。當大家想認真學一套工具,選哪一邊,往往透露了長期的黏著度與口碑走向。

話要說回來,規模上 Claude 還是追兵。OpenAI 在總付費用戶數仍大幅領先,Claude 只是把差距縮得比較快,特別是在消費支出與品牌聲量這兩塊。對台灣的個人與團隊,這代表選型不再只有一個預設答案——在寫程式、長文與代理任務上,多比一家、看實測,會比跟風更划算。

歸剛點評|模型能力逐漸拉平後,消費者開始用真金白銀投票。Claude 在付費端追近 ChatGPT,提醒大家選 AI 工具別只看誰名氣大,實際在你工作上的表現才算數。
來源:TechCrunch
產業資金

Amazon 再砸 130 億美元押印度 AI 基建,累計投資衝破 880 億

Amazon 宣布到 2030 年再投資 130 億美元,擴充印度孟買與海德拉巴的 AWS 資料中心與 AI 服務。此案疊加先前 350 億美元計畫,使其 2010 到 2030 年在印度的累計投資超過 880 億美元,並於執行長 Jassy 會見總理 Modi 時公布。

Amazon 再砸 130 億美元押印度 AI 基建,累計投資衝破 880 億

Amazon 在 6 月 25 日宣布,到 2030 年要再投入 130 億美元到印度,重點放在強化當地的 AI 與雲端基礎設施。這筆錢主要用來擴充孟買與海德拉巴的 AWS 資料中心容量,讓新創、企業與政府機關能就近用到客製 AI 晶片、託管 AI 服務與開發工具。

把帳算清楚才看得出份量。這 130 億疊加在先前已宣布的 350 億美元計畫之上,把 Amazon 從 2010 到 2030 年在印度的累計投資推高到超過 880 億美元。除了運算,公司也說今年要在印度新增 20 多座物流中心與 100 多個配送站。

宣布的場合也有戲。投資細節是在執行長 Andy Jassy 於新德里會見印度總理 Modi 時對外公布的,把商業布局與政府關係綁在同一個鏡頭裡,姿態明確。

這條新聞要放進今天的大背景看:當美中在晶片與模型上互相設限,大型科技公司正加速把運算產能往印度這類市場分散。對台灣供應鏈,印度資料中心的擴張意味著伺服器、散熱、網通設備的需求往新地理移動,是訂單版圖重畫的一個訊號。

歸剛點評|美中科技角力之下,雲端巨頭加速把算力產能分散到印度。對台廠供應鏈,這是伺服器與網通訂單版圖往新地理移動的訊號,值得提早卡位。
來源:TechCrunch · Bloomberg
政策監管

歐洲開始對華府的晶片戰說不:美方 MATCH 法案要禁的,連歐洲都不買單

TechCrunch 報導,面對華府升級對中科技管制,歐洲出現反彈。美方研擬中的 MATCH 法案,將把中國目前還能買到的舊世代 DUV 曝光設備列入禁售,但這正是 ASML 等歐洲廠商的生意,引發歐洲不滿。

歐洲開始對華府的晶片戰說不:美方 MATCH 法案要禁的,連歐洲都不買單

華府把對中國的晶片管制愈拉愈緊,但這回連盟友歐洲都開始踩煞車。TechCrunch 報導,美方正在研擬的 MATCH 法案,打算把中國目前還買得到的舊世代深紫外光(DUV)曝光設備也列入禁售名單,而這些機台正是歐洲設備廠的重要生意。

問題的核心,ASML 執行長 Christophe Fouquet 早在 5 月就點過:中國現在能合法買到的,是大約十年前就開始出貨的舊世代 DUV 工具,談不上什麼尖端技術。把這些早就普及的機台也禁掉,對中國先進製程的實際殺傷力有限,卻會直接砍掉歐洲廠商一塊穩定收入。

於是出現一個尷尬的局面:管制的成本要由歐洲企業吞,效果卻被質疑。歐洲開始公開表達不滿,等於在美國主導的這條科技封鎖線上,戳出一道盟友之間的裂縫。

對台灣,這場拉鋸值得緊盯,因為半導體設備、材料與製程的全球規則,正被地緣政治一條條改寫。哪些設備能賣、賣給誰、用什麼名目擋,會連動到整條供應鏈的訂單與庫存策略,台廠夾在中間,左右逢源與左右為難往往只是一線之隔。

歸剛點評|對中科技封鎖一旦傷到盟友自己的生意,聯盟就會出現裂縫。半導體設備的全球規則正被地緣政治重寫,夾在中間的台廠得同時讀懂華府、北京與布魯塞爾三邊的算盤。
來源:TechCrunch
產業資金

Patronus AI 募 5,000 萬美元,蓋「數位世界」來壓力測試 AI 代理

由前 Meta AI 研究員創辦的代理測試新創 Patronus AI 完成 5,000 萬美元募資。投資人形容需求「幾近無法滿足」。公司打造可模擬的「數位世界」,讓 AI 代理在上線前先在裡面被反覆壓力測試。

Patronus AI 募 5,000 萬美元,蓋「數位世界」來壓力測試 AI 代理

AI 代理愈做愈多事,怎麼確定它不會在真實任務裡闖禍,成了一門生意。由前 Meta AI 研究員創辦的 Patronus AI 完成 5,000 萬美元募資,投資人形容市場對它的需求「幾乎無法被滿足」,火熱程度可見一斑。

Patronus 的產品,是打造可模擬的「數位世界」,讓 AI 代理在正式上線前,先在這些虛擬環境裡被反覆操練與壓力測試。把可能出包的情境先在沙盒裡跑過一輪,企業才敢把代理放進客服、財務或工程流程裡真的動手做事。

這門生意的時機踩得很準。當大廠一邊把代理能力下放到便宜模型、一邊喊著要全面導入代理,企業最怕的就是「它自己亂跑、把錢燒掉或把事搞砸」。能在事前驗證代理行為、給出一份可信賴度報告的工具,自然水漲船高。

對導入 AI 的台灣團隊,這提醒一個常被略過的環節:代理不是接上 API 就能放生。上線前的測試、紅隊演練與行為監控,正在長成一個獨立的工具類別。與其等代理在正式流程裡犯錯才補救,不如把「先壓測再上線」當成標準作業。

歸剛點評|代理愈強,事前驗證的價值愈高。Patronus 的火熱說明「先壓測再上線」正成為導入 AI 的必修課,別把代理接上 API 就當完工。
來源:TechCrunch
產業

Adobe 收購影像與影片強化工具商 Topaz Labs,要塞進旗下 App

Adobe 宣布收購以影像與影片畫質強化聞名的 Topaz Labs,並表示會把 Topaz 的工具整合進自家各款應用程式中。

Adobe 收購影像與影片強化工具商 Topaz Labs,要塞進旗下 App

Adobe 宣布收購 Topaz Labs,一家以影像與影片畫質強化工具聞名的公司。Topaz 的產品在攝影與後製圈有不少擁護者,擅長把模糊、低解析或有雜訊的素材,用 AI 補強到更清晰可用的程度。

Adobe 的盤算寫在公告裡:要把 Topaz 的工具整合進旗下各款應用程式。對長期吃 Photoshop、Lightroom、Premiere 這套工具鏈的創作者,未來放大、去雜訊、修復這些功能,可能直接內建在熟悉的介面裡,不必再跨軟體來回搬檔。

從產業角度看,這是大廠用收購補齊 AI 影像版圖的又一例。與其每樣功能都自己從頭練,把市場上已經做得好、又有用戶基礎的小工具買下來整合,速度更快、風險更低,也順手把潛在對手收編。

對創作者,方便之外也有要留意的地方:工具一旦被併進大平台,定價、授權與訂閱綁定往往會跟著改變。短期享受整合的順手,長期則要看 Adobe 會把這些功能放進哪個訂閱層級、原本獨立版本還在不在。便利與被綁定,常是同一筆交易的兩面。

歸剛點評|大廠用收購補 AI 影像功能、順手收編對手,是這兩年的常態。創作者享受整合便利的同時,也要留意工具被併入平台後的定價與綁定變化。
來源:TechCrunch
產業資金

Netris 募 1,500 萬美元 A 輪,幫新興 AI 雲更快開機上線

Netris 完成 1,500 萬美元 A 輪募資,由 a16z 領投。公司提供在網路交換器上運行的軟體與平台,協助新興 AI 雲(neocloud)業者縮短從建置到上線營運的時間。

Netris 募 1,500 萬美元 A 輪,幫新興 AI 雲更快開機上線

AI 雲的賽道擠進一群被稱為 neocloud 的新玩家,專門租 GPU 算力給跑 AI 的公司。要把成排的 GPU 變成能對外賣的雲服務,網路設定是個又煩又慢的關卡。Netris 完成 1,500 萬美元的 A 輪募資,由知名創投 a16z 領投,瞄準的正是這個痛點。

Netris 的產品,是一套跑在網路交換器上的軟體,外加一個幫 neocloud 業者管理網路的平台。靠它,業者能大幅縮短從硬體裝好到真正開機營運、開始收錢的時間。在算力供不應求的當下,早一天上線就是早一天賺錢。

這筆投資反映了一個常被忽略的事實:AI 熱潮裡賺錢的不只賣晶片的。圍著 GPU 長出來的周邊——網路、散熱、機房管理、上線工具——同樣是剛性需求。a16z 押 Netris,等於押「賣鏟子的周邊配件」也有大市場。

對關注 AI 基建的人,這類公司值得放進雷達。當大家眼睛都盯著輝達與超大型雲,真正決定 neocloud 能不能活下來、跑多快的,往往是這些不起眼的軟體與營運工具。賣水、賣鏟子、賣鏟子的保養服務,淘金熱裡每一層都有人賺。

歸剛點評|AI 熱潮裡賺錢的不只賣晶片的。圍著 GPU 長出來的網路與上線工具是剛性需求,a16z 押 Netris 等於押「賣鏟子的配件」也有大市場。
來源:TechCrunch
官方發布

OpenAI 新研究:AI 代理正把工作往「更長、更複雜」推

OpenAI 發表一份研究,指出 AI 代理正在改變工作型態,讓使用者能交辦更長、更複雜的任務,並在不同職位上擴大生產力。

OpenAI 新研究:AI 代理正把工作往「更長、更複雜」推

OpenAI 發表一份新研究,主題是 AI 代理如何改變工作。報告的核心觀察是:代理正在把人能交辦給 AI 的任務,從零碎的小工作,往「更長、更複雜」的方向推,並在各種職位上擴大生產力的邊界。

這個轉變的重點在「任務的長度」。早期的 AI 多半擅長一問一答、一次一個小步驟;代理則能接下需要多步驟、跨工具、會持續一段時間的工作,像是查資料、整理、產出、再修正一整串連起來自己跑完。能扛多長的任務不出錯,正是衡量代理成熟度的關鍵指標。

由模型公司自己發布的這類研究,立場要先打個折扣看——它當然會把代理的價值講得正面。不過搭配近期業界的動作(大廠把代理能力下放便宜模型、企業搶著導入、壓測工具爆紅),方向上是一致的:代理正從「能不能做」走向「在哪些職位真的好用」。

對台灣的工作者,務實的讀法是別停在焦慮。與其問代理會不會取代某個職位,不如盤點自己每天有哪些「多步驟但規則明確」的流程,先挑一兩個交給代理試跑,量出省下的時間。把它當放大自己產能的工具,會比把它當威脅更划算。

歸剛點評|代理的成熟度,看它能扛多長、多複雜的任務而不出錯。比起擔心被取代,先把自己手上規則明確的多步驟流程挑出來試跑,更能吃到紅利。
來源:OpenAI
產業

Notion 收掉自家 email App,理由是「大家都改用代理收信了」

Notion 宣布終止那款受 Skiff 影響的電子郵件應用程式,理由是多數使用者改用 AI 代理處理收件匣。公司表示要「全押用代理來管你的信箱」。

Notion 收掉自家 email App,理由是「大家都改用代理收信了」

Notion 宣布要收掉自家那款電子郵件 App,這款產品的血統來自先前收購、以隱私為賣點的 Skiff。官方給的理由很直白:多數使用者已經改用 AI 代理來處理收件匣,獨立的郵件介面變得不再必要。

Notion 的說法是要「全押用代理來管你的信箱」。意思是與其讓你一封一封讀信、回信,不如交給一個代理去分類、摘要、起草回覆,甚至代你處理例行往來。郵件這個老介面,被重新想像成代理在背後跑、人只看結果的形態。

收掉一個剛買沒多久的產品,姿態其實很激進,但也透露了一個趨勢判斷:在代理時代,許多「給人手動操作的介面」價值正在下滑。當機器能直接讀寫資料、跑流程,精心設計的按鈕與分頁,反而可能變成多餘的中間層。

對做產品的人,這是一記提醒:別只想著把介面做得更漂亮,要想清楚在代理普及後,你的產品還剩下什麼非人不可的價值。對使用者,把信箱交給代理之前,隱私與誤判的風險也得先想——一封被代理自作主張回掉的信,可能比沒回更麻煩。

歸剛點評|在代理時代,「給人手動操作的介面」價值正在下滑。Notion 砍掉郵件 App 是個激進但清楚的判斷,做產品的人該想清楚代理普及後自己還剩什麼非人不可的價值。
來源:Ars Technica
產業

Meta 把 Facebook Creator Studio 復活成獨立 AI 夥伴 App

Meta 宣布重啟 Facebook Creator Studio,改頭換面成一款獨立的 AI 夥伴應用程式。新 App 主打幫創作者更容易連結受眾,並由「AI Creator Assistant」教他們如何在 Facebook 成長。

Meta 把 Facebook Creator Studio 復活成獨立 AI 夥伴 App

Meta 宣布把曾經的 Facebook 粉專管理工具 Creator Studio 復活,這次的身分換成一款獨立的 AI 夥伴 App。官方說新 App 的目標,是讓創作者更容易和受眾連結,並清楚地告訴他們「該怎麼做才能在 Facebook 成長」。

整個 App 的核心,是一個叫 AI Creator Assistant 的助手。它的角色像是隨身的成長顧問,分析數據、給出建議、協助規劃內容,把過去散落在後台各處、要創作者自己摸索的成長技巧,包裝成可以對話的助理。

Meta 這步棋,是把 AI 直接塞進創作者的日常工作流。平台的算盤很清楚:創作者長得越好、發得越勤,平台的內容與廣告生意就越旺。用一個 AI 助手把創作者黏在 Facebook 生態裡,對 Meta 是穩賺的投資。

對經營粉專的人,這類助手值得試,但要帶著腦袋用。AI 給的成長建議,往往是順著平台演算法的偏好走,照做能拿到流量,卻也可能讓你的內容越來越像平台想要的樣子。把它當參考、保留自己的判斷與風格,會比全盤照單全收更健康。

歸剛點評|平台把 AI 助手塞進創作者日常,創作者長得好平台廣告生意就旺,這是穩賺的投資。經營粉專的人可以試,但 AI 的成長建議多半順著演算法走,照做有流量、也容易把你磨成平台要的樣子。
來源:The Verge
產品

等了二十年,Google Finance 終於有 App,還塞滿 AI

Google Finance 結束 beta,推出全新 Android App,iOS 版預告今年稍晚登場。改版以 AI 為核心,重整了行情與資訊的呈現方式。

等了二十年,Google Finance 終於有 App,還塞滿 AI

Google Finance 結束 beta 階段,推出全新的 Android App,iOS 版本則預告會在 2026 年稍晚跟上。對一個存在了約二十年、卻一直沒有像樣行動 App 的服務來說,這一步姍姍來遲,但來得正是時候,因為整個改版以 AI 為核心。

新版的重點,是把 AI 融進行情查詢與資訊整理。使用者可以用更接近自然語言的方式問問題、看趨勢,讓原本要自己東拼西湊的財經資訊,由 AI 幫忙摘要與呈現。對一般投資人,門檻降低了不少。

Google 選在這個時點補上行動 App,背後是整個搜尋與資訊產品全面 AI 化的大方向。財經是個高頻、高黏著又容易變現的場景,把 AI 助理放進來,既能留住用戶,也替未來的商業模式鋪路。

提醒一句務實的:AI 整理過的財經資訊看起來乾淨好懂,但投資決策還是得自己負責。AI 會摘要、會呈現趨勢,卻不保證每個數字、每個推論都對。把它當查資料、省時間的工具很好,真要下單,數據與來源還是要自己再核一遍。

歸剛點評|Google 補上行動 App 是搜尋全面 AI 化的一環,財經這種高頻高黏著場景特別值得搶。對用戶是方便,但 AI 整理的財經資訊再漂亮,下單前數字與來源還是得自己核。
來源:Google · Ars Technica
研究突破

反直覺研究:給模型「想一想」的思考 token,未必讓它更安全

一篇新論文挑戰了普遍假設。研究者在 GPT-OSS、Qwen、Olmo、Phi 等多個前沿開源權重推理模型上發現,讓模型多用思考 token 來「深思熟慮」,並不總是能提升對齊與安全表現。

反直覺研究:給模型「想一想」的思考 token,未必讓它更安全

現在的推理模型靠「思考 token」在跑分上贏過一般指令模型,業界普遍相信,這種讓模型先想一想再回答的模式,順帶也能改善對齊與安全——等於給模型一個安靜的空間,先盤算自己的答案會不會違反安全原則。一篇新論文對這個直覺潑了冷水。

研究團隊在多個前沿開源權重推理模型上做測試,涵蓋 GPT-OSS、Qwen、Olmo、Phi 等系列。結果發現,多想幾步並不總是換來更安全的行為;在某些情況下,那段思考過程甚至沒能擋住模型給出有問題的回應。

這個發現之所以重要,是因為它戳破一個方便的假設。如果「讓模型多想」就能自動變安全,安全工程會輕鬆很多;但研究顯示,思考過程與安全表現之間,並沒有那麼乾淨的因果。安全得靠專門的訓練與測試去顧,不能寄望推理能力順手帶過。

對導入模型的團隊,務實的啟示是:別把「這是推理模型、會深思熟慮」當成安全保證。模型會不會在你的場景裡說出不該說的話,仍要靠針對性的測試、紅隊演練與防護機制來驗,不能因為它標榜會思考就鬆手。

歸剛點評|「讓模型多想就會更安全」是個方便但未必成立的假設。安全得靠專門訓練與測試去顧,別把模型標榜的「會思考」當成可以鬆手的保證。
研究突破

從中間層的「熵」看穿越獄:模型內部其實早就露了餡

一篇論文用 logit lens 分析凍結大型語言模型各層的 token 預測熵軌跡,探討有害意圖如何編碼在模型內部表徵中,提出在中間層偵測越獄攻擊的新思路,補足現有多停留在輸入或輸出層級的防禦。

從中間層的「熵」看穿越獄:模型內部其實早就露了餡

越獄攻擊一直是對齊模型的老問題:精心設計的提示,能誘使本來受過安全訓練的模型,吐出違反政策的內容。多數防禦做在提示端或輸出端,但有害意圖到底是怎麼被編碼進模型內部,一直是個黑盒子。一篇新論文試著把這個盒子打開。

研究者用一種叫 logit lens 的工具,去分析一個凍結模型在各層之間、對 token 的預測「熵」如何變化。熵可以粗略理解成模型在每一步有多「猶豫」。他們發現,靜態的整體統計量看不出名堂,但逐層追蹤這條熵的軌跡,就能讀到藏在中間層的線索。

這個角度的價值,在於它把偵測點從模型的「嘴巴」移到「腦中」。如果有害意圖在中間層就留下了可辨識的痕跡,防禦就有機會在模型把壞話說出口之前先攔下來,而不是等輸出了再事後過濾。對抓越獄這件事,這是更早、更內部的一道關卡。

對在意 AI 安全的人,這類研究的方向比單一數字更值得記:模型的內部表徵,正逐漸從不可解釋的黑盒,變成可以拿來監控與防禦的訊號源。雖然離實用的線上防護還有距離,但「往模型內部看」會是接下來安全工具的一條重要路線。

歸剛點評|把越獄偵測從模型的「嘴巴」移到「腦中」,是更早、更內部的一道關卡。模型內部表徵正從黑盒變成可監控的訊號源,這是接下來安全工具的重要方向。
資安

代理替你做事時,怎麼判斷什麼能說、對誰說?PrivacyAlign 想教它分寸

PrivacyAlign 處理 LLM 代理的脈絡式隱私對齊問題。代理替使用者發出的每則訊息、貼文或工具呼叫,都是一次「什麼適合分享、對誰、在什麼條件下」的判斷,研究主張這類判斷得靠社會規範與人類判斷來校準。

代理替你做事時,怎麼判斷什麼能說、對誰說?PrivacyAlign 想教它分寸

AI 代理替你做事時,每發一則訊息、每貼一篇文、每呼叫一次工具,背後其實都藏著一個判斷:這件事適不適合分享、該對誰說、在什麼條件下說。PrivacyAlign 這篇研究,鎖定的正是代理的「脈絡式隱私對齊」——讓代理懂得拿捏分寸。

問題的難處在於,隱私從來不是非黑即白。同一句話,對家人說沒事、貼到公開動態就出事;同一份資料,給醫生看合理、給陌生人看就越界。這些判斷高度依賴社會期待與情境規範,光靠規則清單很難窮盡。

研究者的主張是:人類的判斷該拿來校準代理在不同情境下的分寸感,而不只是事後標記「這違反隱私」。理想的代理要像個懂人情世故的助理,知道什麼場合該閉嘴、什麼資訊不能順口帶出去,而不是有問必答、有料就分享。

對要把代理放進真實工作的團隊,這是個容易被忽略卻很現實的風險。一個會自動發訊息、跨系統取資料的代理,若沒有隱私分寸,可能在你沒注意時,把不該外流的客戶資料、內部細節順手送了出去。導入代理時,隱私邊界該和功能一起設計,不能事後再補。

歸剛點評|會自動發訊、跨系統取資料的代理,若沒有隱私分寸,可能在你沒注意時把不該外流的資料順手送出去。導入代理時,隱私邊界要和功能一起設計,別事後補。
研究突破

「講短一點、省 token」真的有省嗎?CAVEWOMAN 給了兩面答案

CAVEWOMAN 檢驗常被推崇的「穴居人式」壓縮——講短、省略文法以省推論成本。研究提出雙通道評測協定,在八個模型、五個資料集上同時衡量任務正確率、實際成本與和未壓縮參考輸出的一致性,發現省不省要看壓縮的是提問還是回答。

「講短一點、省 token」真的有省嗎?CAVEWOMAN 給了兩面答案

「講短一點、把文法丟掉、省下 token」——這種被戲稱為「穴居人風格」的省錢寫法,常被推薦用來壓低推論成本。但它到底有沒有省到,一篇叫 CAVEWOMAN 的研究說:得看你壓縮的是哪一邊,使用者的提問,還是模型的回答。

研究者設計了一套雙通道的評測協定,在八個模型、五個資料集、五種壓縮強度下,對每次生成同時打三個分數:任務正確率、實際每題花的成本,以及和模型未受限制時的參考輸出有多一致。把這三件事一起量,才看得出壓縮到底是省錢還是省了個寂寞。

結論的關鍵,在於壓縮發生在哪個通道。壓縮使用者的提問,和壓縮模型的回答,對成本與正確率的影響並不一樣;有些省法看似縮短了字數,實際成本或答案品質卻沒照預期走,甚至偷偷變差。直覺上的「越短越省」,在數據面前並不總是成立。

對在意 API 帳單的開發者,這篇研究很實用:與其盲目把提示詞砍短,不如先搞清楚成本到底花在輸入還是輸出那一段,再對症下藥。省 token 是門需要量測的功夫,憑感覺亂砍,可能省了字數卻賠上正確率,得不償失。

歸剛點評|「越短越省」在數據面前不總成立。省 token 要先搞清楚成本花在輸入還是輸出,再對症下藥;憑感覺亂砍提示詞,可能省了字數卻賠上正確率。

今日快訊