OpenAI發(fā)布語音模型GPT-realtime

2025年09月01日 18:02:38 來源：科技日報(bào) 作者：張佳欣

圖片來源：美國OpenAI官網(wǎng)

　　科技日報(bào)訊(記者張佳欣)8月28日，美國人工智能公司OpenAI發(fā)布了其所謂“最先進(jìn)的語音到語音模型”GPT-realtime，以及配套的Realtime API(實(shí)時(shí)應(yīng)用程序接口)。

　　據(jù)OpenAI公司介紹，該模型在理解復(fù)雜指令、精準(zhǔn)調(diào)用工具以及生成自然、富有表現(xiàn)力的語音方面表現(xiàn)突出，并在客戶服務(wù)、教育、個(gè)人助理等多種場景中具備廣泛應(yīng)用潛力。

　　與傳統(tǒng)語音模型不同，GPT-realtime新增了Marin與Cedar兩種極具特色的語音，同時(shí)對原有8種語音進(jìn)行了全面升級(jí)。模型不僅能生成自然流暢的語音，還能夠敏銳捕捉笑聲等非語言信號(hào)，在句子中間自如切換語言，并可根據(jù)場景需求靈活調(diào)整語氣，使語音交互更貼近真實(shí)人類溝通。

　　通過Realtime API，開發(fā)者可實(shí)現(xiàn)實(shí)時(shí)語音輸入輸出，不必再經(jīng)過繁瑣的多模型轉(zhuǎn)換流程。在實(shí)際應(yīng)用中，這套技術(shù)可用于客戶服務(wù)系統(tǒng)，讓虛擬助手即時(shí)解答問題，提高效率和體驗(yàn)。它還可應(yīng)用于教育領(lǐng)域，實(shí)現(xiàn)語音對話和口語練習(xí)。而在個(gè)人助理、辦公或智能家居場景中，用戶能通過語音快速完成安排或查詢信息。結(jié)合圖像或文本輸入，開發(fā)者還能打造更智能的虛擬助手或機(jī)器人系統(tǒng)。

　　OpenAI表示，GPT-realtime和Realtime API已于8月28日起面向所有付費(fèi)開發(fā)者開放。

[編輯: 王姝]

(本文來源：科技日報(bào))

久草在线视频观看免费,999免费网站,国产一级区,人人干日日操,欧美在线观看黄色,高清国产一区二区,欧美亚洲日本国产

OpenAI發(fā)布語音模型GPT-realtime