OpenAI 推出 GPT-4o！多模態AI新里程碑，語音、影像處理全面升級！

GPT-4o：全面升級的 AI 語言模型

OpenAI 發布了 GPT-4o，這是最新的旗艦生成式 AI 模型，將在接下來的幾週內逐漸應用於 OpenAI 的開發者和面向消費者的產品中。GPT-4o 中的「o」代表「omni」，指的是 GPT-4o 的多模態特性。

GPT-4o 不僅提供「GPT-4 級」的智能，更在文字、影像和音訊方面全面提升了 GPT-4 的能力。OpenAI CTO 穆裏·穆拉提 (Muri Murati) 表示：「GPT-4o 可以在語音、文字和影像間進行推理。」「這非常重要，因為我們正展望人機互動的未來。」

GPT-4o 是 OpenAI 之前領先的模型 GPT-4 Turbo 的強化版本，經由影像和文字的綜合訓練，能夠分析影像和文字以完成任務，例如從影像中擷取文字，甚至描述影像內容。而 GPT-4o 更進一步納入了語音功能。

GPT-4o 具體帶來了哪些進展？首先，它大幅提升了 ChatGPT 的體驗。ChatGPT 是 OpenAI 廣受歡迎的 AI 驅動聊天機器人。ChatGPT 長期提供語音模式，使用文字轉語音模型將 ChatGPT 的文字轉換為語音。GPT-4o 對此進行了強化，使用戶能夠更像助理一樣與 ChatGPT 互動。例如，使用戶可以向由 GPT-4o 驅動的 ChatGPT 提出問題，並在 ChatGPT 回答時打斷它。OpenAI 表示，該模型提供「即時」的回應，甚至可以偵測用戶語氣中的情緒，並以「一系列不同的情緒風格」生成語音。

GPT-4o 也提升了 ChatGPT 的影像處理能力。現在，ChatGPT 可以針對照片或桌面畫面快速回答相關問題，從「這個軟體程式碼在執行什麼？」到「這個人穿的是什麼品牌的襯衫？」GPT-4o 從今天起可在 ChatGPT 的免費層級使用，而 OpenAI 的付費用戶 ChatGPT Plus 和 Team 的訊息限制將「提高 5 倍」，而企業選項將「即將推出」。（OpenAI 指出，當用戶達到使用臨界值時，ChatGPT 將自動切換到 GPT-3.5。）

OpenAI 表示將在未來一個月左右以 alpha 版本向 Plus 用戶推出由 GPT-4o 支援的進階語音體驗。穆拉提表示：「我們知道這些模型越來越複雜，但我們希望互動體驗實際上變得更自然、更輕鬆，讓你不必專注於使用者介面，而是專注於與 [GPT] 協作。」

此外，OpenAI 宣稱 GPT-4o 具備更強的語言能力，在 50 種不同的語言中表現更佳。在 OpenAI 的 API 中，GPT-4o 的速度是 GPT-4（特別是 GPT-4 Turbo）的兩倍，價格減半，且有更高的費率限制。目前，語音功能並非所有客戶的 GPT-4o API 的一部分。OpenAI 援引誤用風險，表示計畫在未來幾週內率先推出支援 GPT-4o 新音訊功能的服務，對象為「一小群信賴的合作夥伴」。

在其他新聞中，OpenAI 在 Web 上發布了更新的 ChatGPT 使用者介面，採用新的「更具對話性」的首頁和訊息配置，以及適用於 Mac 的 ChatGPT 桌面版本，使用戶能透過鍵盤快速鍵詢問 ChatGPT 問題，並輸入或說出文字來截取和討論螢幕截圖。（Plus 用戶將率先獲得使用權，自今日起即可取得，而 Windows 版本的應用程式將於今年稍後推出。）此外，ChatGPT 的免費層級使用者現在可以使用 GPT Store，這是由 OpenAI 的 AI 模型建置的第三方聊天機器人庫。

GPT-4o 是一個令人興奮的發展，展示了 AI 技術的快速進步。它承諾提供更自然、更有用的互動體驗，並應能為各種應用帶來新的可能性。隨著 GPT-4o 廣泛應用，我們可以期待看到更多創新和進步。

OpenAI 推出 GPT-4o！多模態AI新里程碑，語音、影像處理全面升級！

GPT-4o：全面升級的 AI 語言模型

相關文章

OpenAI 推出 GPT-4o！多模態AI新里程碑，語音、影像處理全面升級！

Stack Overflow x OpenAI！重塑開發者知識體驗，AI與社群智慧的強強聯手

OpenAI顛覆搜尋！全新引擎即將撼動Google霸主地位？

VideoGigaGAN！革命性影片超解析技術