字節跳動于近日正式發布其最新研發的原生全雙工語音大模型Seeduplex,標志著全雙工語音交互技術從實驗室走向大規模應用階段。該模型突破了傳統半雙工語音交互的局限性,通過"邊聽邊說"的架構設計,實現了更接近人類對話的自然流暢體驗。
相較于前代豆包端到端語音模型采用的半雙工模式,Seeduplex的創新之處在于能夠同時進行語音接收與輸出。這種技術突破使得系統響應延遲大幅降低,對話連貫性顯著增強,尤其在多輪復雜對話場景中表現出色。據技術團隊介紹,模型通過動態注意力分配機制,可精準識別用戶語音中的關鍵信息,實現更智能的上下文理解。
目前該技術已全面集成至豆包App,成為國內首個實現全雙工語音交互規模化落地的消費級產品。這意味著超過一億用戶將能體驗到實時連續的語音對話服務,無需等待系統完整回應即可插入新指令。測試數據顯示,在車載導航、智能客服等高頻交互場景中,用戶滿意度較傳統模式提升40%以上。
行業專家指出,全雙工技術的商業化落地標志著語音交互進入新階段。傳統語音系統受限于半雙工架構,難以處理復雜對話場景中的打斷、修正等需求。Seeduplex的推出不僅解決了這些痛點,其輕量化設計更使得模型可適配多種終端設備,為智能家居、移動出行等領域帶來新的應用可能。目前團隊正持續優化模型在嘈雜環境下的識別準確率,并探索多語言支持方案。






















