OpenAI 推出 GPT-4o!多模態AI新里程碑,語音、影像處理全面升級!

GPT-4o:全面升級的 AI 語言模型

OpenAI 發布了 GPT-4o,這是最新的旗艦生成式 AI 模型,將在接下來的幾週內逐漸應用於 OpenAI 的開發者和面向消費者的產品中。GPT-4o 中的「o」代表「omni」,指的是 GPT-4o 的多模態特性。

GPT-4o 不僅提供「GPT-4 級」的智能,更在文字、影像和音訊方面全面提升了 GPT-4 的能力。OpenAI CTO 穆裏·穆拉提 (Muri Murati) 表示:「GPT-4o 可以在語音、文字和影像間進行推理。」「這非常重要,因為我們正展望人機互動的未來。」

GPT-4o 是 OpenAI 之前領先的模型 GPT-4 Turbo 的強化版本,經由影像和文字的綜合訓練,能夠分析影像和文字以完成任務,例如從影像中擷取文字,甚至描述影像內容。而 GPT-4o 更進一步納入了語音功能。

GPT-4o 具體帶來了哪些進展?首先,它大幅提升了 ChatGPT 的體驗。ChatGPT 是 OpenAI 廣受歡迎的 AI 驅動聊天機器人。ChatGPT 長期提供語音模式,使用文字轉語音模型將 ChatGPT 的文字轉換為語音。GPT-4o 對此進行了強化,使用戶能夠更像助理一樣與 ChatGPT 互動。例如,使用戶可以向由 GPT-4o 驅動的 ChatGPT 提出問題,並在 ChatGPT 回答時打斷它。OpenAI 表示,該模型提供「即時」的回應,甚至可以偵測用戶語氣中的情緒,並以「一系列不同的情緒風格」生成語音。

GPT-4o 也提升了 ChatGPT 的影像處理能力。現在,ChatGPT 可以針對照片或桌面畫面快速回答相關問題,從「這個軟體程式碼在執行什麼?」到「這個人穿的是什麼品牌的襯衫?」GPT-4o 從今天起可在 ChatGPT 的免費層級使用,而 OpenAI 的付費用戶 ChatGPT Plus 和 Team 的訊息限制將「提高 5 倍」,而企業選項將「即將推出」。(OpenAI 指出,當用戶達到使用臨界值時,ChatGPT 將自動切換到 GPT-3.5。)

OpenAI 表示將在未來一個月左右以 alpha 版本向 Plus 用戶推出由 GPT-4o 支援的進階語音體驗。穆拉提表示:「我們知道這些模型越來越複雜,但我們希望互動體驗實際上變得更自然、更輕鬆,讓你不必專注於使用者介面,而是專注於與 [GPT] 協作。」

此外,OpenAI 宣稱 GPT-4o 具備更強的語言能力,在 50 種不同的語言中表現更佳。在 OpenAI 的 API 中,GPT-4o 的速度是 GPT-4(特別是 GPT-4 Turbo)的兩倍,價格減半,且有更高的費率限制。目前,語音功能並非所有客戶的 GPT-4o API 的一部分。OpenAI 援引誤用風險,表示計畫在未來幾週內率先推出支援 GPT-4o 新音訊功能的服務,對象為「一小群信賴的合作夥伴」。

在其他新聞中,OpenAI 在 Web 上發布了更新的 ChatGPT 使用者介面,採用新的「更具對話性」的首頁和訊息配置,以及適用於 Mac 的 ChatGPT 桌面版本,使用戶能透過鍵盤快速鍵詢問 ChatGPT 問題,並輸入或說出文字來截取和討論螢幕截圖。(Plus 用戶將率先獲得使用權,自今日起即可取得,而 Windows 版本的應用程式將於今年稍後推出。)此外,ChatGPT 的免費層級使用者現在可以使用 GPT Store,這是由 OpenAI 的 AI 模型建置的第三方聊天機器人庫。

GPT-4o 是一個令人興奮的發展,展示了 AI 技術的快速進步。它承諾提供更自然、更有用的互動體驗,並應能為各種應用帶來新的可能性。隨著 GPT-4o 廣泛應用,我們可以期待看到更多創新和進步。