您的位置: 重庆新闻网 > 正文

​一句话即可自由生成,阿里通义语音双模型 Fun-CosyVoice3.5

2026-03-12 14:42:52来源:阅读:

  阿里通义实验室语音团队发布了两款支持FreeStyle指令生成的模型Fun-CosyVoice3.5与Fun-AudioGen-VD。这两款模型均能通过自然语言指令控制语音生成,但应用方向不同。

  Fun-CosyVoice3.5支持FreeStyle指令控制,用户可以用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”。该模型新增了对泰语、印尼语、葡萄牙语和越南语的支持,并在13种语言的WER和SpkSim客观指标上保持领先。针对生僻字和复杂语句等容易读错的场景进行了专项优化,生僻字读错率从15.2%降至5.3%,长文本朗读更加稳定流畅。此外,Fun-CosyVoice3.5通过强化学习技术专项调优,使整体听感更加自然,表达更有层次。性能方面,Tokenizer帧率减半,首包延迟降低35%,在实时交互场景下响应更快,体验更流畅。

  Fun-AudioGen-VD则可以根据自然语言描述生成目标音色、情绪表达和完整听觉场景,实现“人物+场景”的一体化声音生成。它支持性别、年龄、口音、音高、语速等基础属性,以及沙哑、清亮、低沉、磁性等音质特征。情绪表达包括愤怒、悲伤、兴奋、坚定等。角色模拟涵盖客服、老兵、孩童、AI、播音员等多种角色。此外,Fun-AudioGen-VD还能生成细腻的心理状态表达。这款模型不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。背景环境音可以叠加城市喧嚣、咖啡馆背景、战场轰鸣等;空间混响效果可以模拟大教堂、金属牢房、水下等空间回声;设备听感滤镜可以还原老式广播、对讲机、呼吸面罩等特殊音质;动态环境互动支持风噪断续、回声变化、嘶哑效果等实时互动。

滚动推荐
2026-03-12比亚迪发布9分钟“充饱”的二代刀片电池,首搭10款车
比亚迪发布9分钟“充饱”的二代刀片电池,首搭10款车...[详细]
2026-03-12抢占Jeep牧马人市场 福特Bronco硬派越野车曝光
抢占Jeep牧马人市场 福特Bronco硬派越野车曝光...[详细]
2026-03-122025北京微电子国际研讨会暨IC WORLD大会在京开幕
2025北京微电子国际研讨会暨IC WORLD大会在京开幕...[详细]
2026-03-12湖南省汝城县妇保院:手工制作传温情 科普护好孕
湖南省汝城县妇保院:手工制作传温情 科普护好孕...[详细]
2026-03-12“晋韵斐扬” 2026斐济欢乐春节系列活动暨中国山西旅游
“晋韵斐扬” 2026斐济欢乐春节系列活动暨中国山西旅游...[详细]
2026-03-12险企发力探索“车电分离”模式车险,从试点走向全面
险企发力探索“车电分离”模式车险,从试点走向全面...[详细]
2026-03-12比亚迪发布9分钟“充饱”的二代刀片电池,首搭10款车
比亚迪发布9分钟“充饱”的二代刀片电池,首搭10款车...[详细]
2026-03-12OpenClaw爆火,六位"养虾人"自述与AI共生
OpenClaw爆火,六位"养虾人"自述与AI共生...[详细]