圖/示意圖
Inworld AI
2 hours ago

#Inworld AI
#Realtime TTS-2
#人工智慧
#語音模型
#情緒感知
圖/示意圖
圖/示意圖
商傳媒|責任編輯/綜合外電報導
摘要

AI新創公司Inworld AI發表最新語音模型Realtime TTS-2,這款模型能即時感知用戶語氣和情緒,並以更人性化的方式回應,讓機器對話擺脫過去語音助理的生硬感,超越現有語音互動限制。

AI 新創公司 Inworld AI 近日推出一款全新的 AI 語音模型 Realtime TTS-2,旨在讓機器對話更具人性化。這款模型不僅能理解用戶說出的內容,還能透過語氣、語調等線索,即時感知說話者的情緒狀態,並調整自身的回應方式與語音表達。

這款由山景城新創公司開發的 Realtime TTS-2 系統,能夠分析音高、語速、音調等聲音線索,即時推斷說話者的情感。隨後,AI 會動態調整自己的語音和表達方式,創造出更自然、更具情感的互動。文字轉語音(TTS)是一種基於語音的 AI 模型,能將文字內容轉換為語音輸出。

Realtime TTS-2 整合了多種現有 AI 語音系統難以同時具備的能力。它能理解對話的完整歷史和上下文,這意味著它能辨識出在開玩笑後說出的同一句話,與在聽到壞消息後說出的效果截然不同。該模型還能即時偵測人類語音中的情緒訊號,並持續更新 Inworld AI 所稱的「用戶狀態」和「代理人狀態」,以引導 AI 如何做出回應。據《Aol.com》報導,Inworld AI 先前的模型在語音品質的產業基準測試中已名列前茅,優於 Google 和 ElevenLabs 等競爭對手。

Inworld AI 執行長 Kylan Gibbs 指出,即時對話是人們最自然的互動模式,越接近這種模式,用戶的參與度就越高。Gibbs 也表示,雖然當今的 AI 語音聽起來像真人,但卻像是在照稿宣讀,總有些不自然之處。他比喻:「聽起來可能不錯,但感覺卻很糟糕,就像你只是在聽有聲書。」

Inworld AI 將這款模型定位為供開發者使用的基礎設施,而非直接的消費性產品。該公司透過應用程式介面(API)提供服務,讓開發者能將其整合到現有的 AI 系統中。API 是一種常見的應用程式共享資料和溝通方式。