AI新紀元!GPT-4o一登場,文本、音頻、視覺無縫融合,創造全新互動體驗!

📌 目錄

OpenAI推出了其新旗艦模型GPT-4o,無縫集成了文本、音頻和視覺輸入與輸出,承諾提升機器交互的自然度。

GPT-4o中的“o”代表“全方位”,旨在滿足更廣泛的輸入和輸出模式。OpenAI宣布:“它接受任何文本、音頻和圖像的組合作為輸入,並生成任何文本、音頻和圖像的組合。”

用戶可以期待與人類對話速度相匹配的响应时间,平均响应时间為320毫秒,最快响应時間為232毫秒。

開創性能力

GPT-4o的推出標誌著它跳出了以往版本的限制,通過單一神經網絡處理所有輸入和輸出。這種方法使得模型能夠保留以前版本中分開的模型管道中丟失的重要信息和上下文。

在GPT-4o之前,“語音模式”對於GPT-3.5的音頻交互的延遲為2.8秒,而對於GPT-4為5.4秒。之前的設置涉及三個不同的模型:一個用於將音頻轉錄為文本,另一個用於文本回复,第三個用於將文本轉換回音頻。這種分割導致了細微之處的丟失,如語氣、多個說話者和背景噪音。

作為一個集成解決方案,GPT-4o在視覺和音頻理解方面有顯著的改進。它可以執行更複雜的任務,如和聲歌曲、提供實時翻譯,甚至生成帶有表達元素的輸出,如笑聲和歌唱。其廣泛的能力示例包括為面試做準備、實時翻譯語言以及生成客戶服務響應。


在OpenAI的展示中,GPT-4o展現了它在人機交互方面的卓越能力。它能夠即時口譯,讓不同語言的人們流暢地交談,也能以生動的聲音說故事或解答問題,仿佛是一位擁有情感的夥伴。

據OpenAI表示,GPT-4o不僅能夠感知用戶的表情和語氣,並在不同的情境下做出適切的回應,還可以迅速轉換語氣,自如地切換冷冰冰的機械聲和生動的歌聲。OpenAI技術長米拉.穆拉蒂(Mira Murati)指出,GPT-4o的設計靈感源自於人類的交談模式,“當你停止說話時,就輪到我開口了。我可以讀懂你的語氣並回應。它就是這麼自然、豐富且具互動性。”

穆拉蒂透露,透過omnimodel的力量,未來GPT技術還會進一步提昇。例如,它將能夠在觀看體育賽事轉播後向用戶解釋競賽規則,不僅僅是完成翻譯圖片文字等簡單任務。

OpenAI表示,目前用戶可以免費使用GPT-4o,而付費訂閱者則可以享有免費版5倍的訊息限制。預計以GPT-4o為基礎的語音服務,將在下個月提供給訂閱用戶測試版。OpenAI提供GPT-4o免費給用戶使用,這也反映了OpenAI在降低成本方面的努力取得了成果。

然而,OpenAI提到,由於對濫用的擔憂,語音功能暫時不會對所有API用戶開放。在未來幾週內,這一功能將首先提供給一些值得信賴的合作夥伴使用。

AI新聞

Share ——
Share ——