Speak 宣布與 Open AI 深度合作結合 Realtime API 推出全新即時角色扮演功能

記者張辰卿/台北報導

人工智慧語言學習平台 Speak 今（２）日宣布與 OpenAI 進行合作，使用其全新 Realtime API 並與 Speak 的學習引擎結合，推出「即時角色扮演」新功能，提供多種場景中的沉浸式、逼真的語言練習體驗。透過 GPT-4o 的 Realtime API， Speak 的 AI 家教的反應速度不僅與真人匹敵，甚至更快，並能理解和回通過饋超越純文本轉錄的語音特徵，例如語調、發音、語速等。語言學習和即時對話練習是語音轉語音技術（speech-to-speech ）的絕佳應用場景，Speak 亦將持續與 OpenAI 深度合作，將這項技術嵌入其核心體驗中。

Speak 團隊表示，「Speak 的創立源自我們對未來的願景，透過 AI 賦能每個人，無論他們身處何處，都能接觸到最好的口語家教和對話夥伴，而我們對 Speak 所打造的對話式學習方法，在這次技術支援下變得更加沉浸，而感到無比驚艷。我們對這次全新的體驗、其背後的技術以及它對語言學習未來的意義充滿期待。」

「把話說出口」成流利外語關鍵 Speak 用 AI 打造最佳的學習夥伴

大多數語言學習者無法流利地使用外語，原因是他們嘗試了各種方法，卻忽略了大聲地將該語言說出來，並且極少有機會練習對話或找母語者進行交流。將近兩年前，Speak 推出了全球首個 AI 驅動的角色扮演對話練習體驗，這成為語言學習行業的標竿，亦已成為其最受歡迎的功能之一，也是 Speak 從輔助口語練習工具轉變為真正的輔導體驗的第一步。

▲Speak 推出全新「即時角色扮演」功能，透過 GPT-4o 的 Realtime API， Speak 的 AI 家教的反應速度不僅與真人匹敵，甚至更快。(圖/Speak 提供)

然而，這其中仍存在許多限制，例如語音轉文字的處理、基於文本的大型語言模型（LLM）工作流程、再到合成到 AI 角色的語音，這一過程仍然笨拙且緩慢，導致對話感覺不夠流暢和自然，也讓每一步都有著延遲和錯誤。而透過 GPT-4o 的 Realtime API 的直接語音轉語音能力，這些問題得到了根本的解決了。

Speak 打造更加沉浸式的即時角色扮演持續與OpenAI 合作打造下一代的學習體驗

除了這項全新的語音轉語音模型，Speak 亦專注於將該模型產品化，並運用既有的學習引擎，結合最佳技術、產品設計和教學方法，打造合適的用戶語言學習的體驗。在即時角色扮演功能中的重要重特色包含：

當用戶在 App 上進行對話時，Speak 將運用其熟練度圖表（proficiency graph）系統來追蹤他們的語言知識狀態，確保對話符合用戶的口說水準，並使用最合適的句型和詞彙。
為用戶提供具體的學習目標，協助他們在角色扮演中有效練習並達成任務。
當用戶卡住時，我們會提供適當的提示，以幫助他們繼續對話。

透過獨有的學習引擎支持，並隨著即時對話動態更新，角色扮演的對話將能變得更加沉浸、自然且有助於提升流利度。

Speak 也分享，「儘管如此，目前仍有一些限制——這些全新的語音轉語音模型在指令跟隨上不如文本模型，而且在一些語言學習特定的任務上（如發音指導和回饋）表現仍有不足。Speak 也預期這些問題將在不久的將來顯著改善，我且將期待著繼續與 OpenAI 合作，一同實現這些目標。」

即時角色扮演功能將在接下來幾週內對限量的用戶推出，並預計於今年底全面開放。Speak 也將在整個學習體驗中持續使用 OpenAI 的 Realtime API，並推出其他更新的功能。

閱讀部落格文章全文：https://www.speak.com/blog/live-roleplays

Speak官方網站：https://www.speak.com/tw/try

下載並開始使用Speak：https://speak.onelink.me/ER2a/PRMedia