官方网站-首页官方网站-首页

新闻资讯
百度端到端语音语言大模型发布,成本宣称最高降 90%
2025-04-01 13:00:05
462次

  3 月(yuè) 31 日消息,在百度 AI DAY 上,百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。

百度端到端语音语言大模型发布,成本宣称最高降 90%

  当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

  更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型(xíng)组(zǔ)合(hé),也(yě)可(kě)根(gēn)据(jù)需求选择单一模型完成特定任务,提升响应速度与任务处理能力。

  从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍(pāi)摄(shè)一(yī)道(dào)数(shù)学(xué)题(tí)可实时生成解题思(sī)路与(yǔ)视(shì)频(pín)解(jiě)析(xī);上传多款商品图可对比参数、价格,辅助购物决策。

  此外,文小言新增(zēng)“图(tú)个(gè)冷(lěng)知(zhī)识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等(děng)角(jiǎo)度(dù)给(gěi)出(chū)独(dú)特(tè)解(jiě)读(dú)。

  百(bǎi)度(dù)语(yǔ)音(yīn)首(shǒu)席(xí)架构师贾磊(lěi)透(tòu)露(lù),该(gāi)模(mó)型(xíng)是(shì)百(bǎi)度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”


物联云科技是一家科技创新型企业,致力于物联网智能化技术及产品的推广应用,是国内领先的物联网产品与解决方案提供商。

公司官网:🐉com 平台官方网站
公司地址:深圳市南山区粤海街道高新区社区科技南三路007号

企业公众号
扫码关注企业公众号
掌握最新资讯
本站部分图文来源网络,如有侵权问题请通知我们处理!