OpenAI 正大幅調整組織架構,全面聚焦「音訊優先」技術,同時也暗示明年可能推出全新 AI 硬體產品。
雖然OpenAI的ChatGPT已經能說會道,但這家AI業者並不滿足於此,根據The Information網站取得消息指出,OpenAI正計畫將戰場延伸至實體裝置,同時核心技術將全面鎖定在「聲音」 (Audio)互動上。為了達成這個目標,OpenAI據傳在過去兩個月內對內部團隊進行大規模重組,將更多資源投入到音訊模型的開發,而這一切的佈局,都是為了那款傳聞已久、預計在一年後 (約2027年初) 正式推出的神秘AI硬體。
告別「轉譯」延遲,打造原生聽覺AI
目前的AI語音助手 (包含ChatGPT Voice),運作邏輯大多是「語音轉文字 (STT) -> 文字模型處理 -> 文字轉語音 (TTS)」的處理流程。雖然能用,但中間的轉換過程不可避免地會產生延遲 (Latency),而依照業內人士透露,目前的多數音訊模型在邏輯推理能力上,仍不如純文字模型強大。
報導指出,OpenAI的新團隊正致力於開發一款「音訊優先」 (Audio-First)的新模型,試圖讓AI能直接理解並生成聲音,省去中間轉譯成文字的步驟,不僅能大幅提升對話的即時性,還能讓AI更敏銳地捕捉語氣中的情緒變化。
不只是眼鏡,更要「Always On」
至於這款神秘硬體到底長什麼樣子?
目前矽谷的AI發展趨勢似乎正從螢幕裝置轉向穿戴式裝置,例如Google正在推動Audio Overviews語音搜尋發展,Meta則靠著Ray-Ban智慧眼鏡取得初步成功,近期更傳出收購了主打穿戴式AI錄音的新創Limitless。
而OpenAI方面則聲稱自家的硬體裝置將「不僅僅是一副眼鏡」。雖然具體細節仍是機密,但該裝置將強調「Always on」 (全天候待機)的使用特性。
這意味著這款硬體裝置可能不會像手機一樣需要喚醒或解鎖,而是像一個隨身的隱形秘書,持續聆聽、感知環境狀態,並且隨時準備提供協助。這也符合矽谷目前對於「無螢幕運算」 (Screenless Computing)的想像——讓AI融入背景,只在需要時候出現。
三款裝置、由富士康代工?
相關消息更進一步指稱,OpenAI的硬體裝置不只一款,而是會有至少三款設計,其中一款代號「Gumdrop」的硬體裝置,更將以「AI筆」形式呈現。而先前傳聞則指稱OpenAI的硬體裝置將像是可別在身上使用設計,類似先前由HP收購的Humane所打造AI Pin。
至於代號「Gumdrop」的硬體裝置,傳OpenAI原本有意讓立訊精密代工生產,但考量目前中美貿易戰導致「中國製造」產品將被收取高額關稅,因此有可能轉由富士康在越南等地區代工產線生產,甚至有可能交由富士康美國境內產線組裝。
分析觀點:硬體只是載體,靈魂在於「反應速度」
筆者認為,OpenAI將重心轉向音訊是非常精準的判斷。
回顧2024年至2025年間,Humane AI Pin或Rabbit r1等裝置之所以滑鐵盧,很大一部分原因在於「反應太慢」與「不夠聰明」。如果OpenAI真的能透過原生的音訊模型,讓機器與人的對話達到「零延遲」且「帶有情感」的水準,那麼硬體是做成眼鏡、項鍊還是耳機,其實都只是形式問題。
如果一年後,我們能看到一款不用拿出手機、不用喊”Hey Siri”,只要開口就能像跟真人一樣對話的裝置,那或許才是AI硬體真正的「iPhone時刻」 (iPhone Moment)。


