百度端到端语音语言大模型发布，成本宣称最高降 90%

2025-04-01 13:00:05

462次

　　3 月(yuè) 31 日消息，在百度 AI DAY 上，百度发布首个基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型，宣布实现超低时延与超低成本，在电话语音频道的语音问答场景中，调用成本较行业均值下降约 50%-90%。

百度端到端语音语言大模型发布，成本宣称最高降 90%

　　当日，文小言宣布品牌焕新，率先接入该模型，还带来多模型融合调度、图片问答等功能升级。接入该模型后，文小言不仅能支持更拟真的语聊效果，而且支持重庆、广西、河南、广东、山东等特色方言。据介绍，语音大模型具备极低的训练和使用成本，极快的推理响应速度，语音交互时，可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

　　更新后的文小言还支持“多模型融合调度”，整合了百度自研的文心 X1、文心 4.5 等模型，并接入 DeepSeek-R1 等第三方优质模型，实现了多模型间的智能协同。用户可以选择“自动模式”，一键调用最优模型(xíng)组(zǔ)合(hé)，也(yě)可(kě)根(gēn)据(jù)需求选择单一模型完成特定任务，提升响应速度与任务处理能力。

　　从活动中获悉，文小言还加强了图片问答功能，用户拍摄或上传图片，以文字或语音提问即可直接获取深度解析。例如，拍(pāi)摄(shè)一(yī)道(dào)数(shù)学(xué)题(tí)可实时生成解题思(sī)路与(yǔ)视(shì)频(pín)解(jiě)析(xī)；上传多款商品图可对比参数、价格，辅助购物决策。

　　此外，文小言新增(zēng)“图(tú)个(gè)冷(lěng)知(zhī)识”功能，用户可预设“历史学者”“科技达人”等人设视角，为同一图片赋予多维解读。例如，当用户询问“猫窗探秘，为何猫爱窗边的科学真相？”，文小言能从狩猎本能、能量获取、领地意识等(děng)角(jiǎo)度(dù)给(gěi)出(chū)独(dú)特(tè)解(jiě)读(dú)。

　　百(bǎi)度(dù)语(yǔ)音(yīn)首(shǒu)席(xí)架构师贾磊(lěi)透(tòu)露(lù)，该(gāi)模(mó)型(xíng)是(shì)百(bǎi)度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下，大模型调用成本比行业平均降低 50%-90%，推理响应速度极快，将语音交互等待时间压缩至 1 秒左右，极大提升了交互流畅性。同时，在大模型加持下，实现了流式逐字的 LLM 驱动的多情感语音合成，情感饱满、逼真、拟人，交互听感也得到极大提升。”

上一篇： Arm 押注 AI 浪潮，放话称今年拿下数据中心 CPU 市场一半份额

下一篇：【重大活动，诚邀赞助】深圳市物联网产业协会第二届第二次会员大会暨深圳市智联网产业高质量发展大会

官方网站-首页