科大讯飞语音库(“AI语音之王”科大讯飞声音复刻技术大升级，成品人机难辨！)_智能家居_科技_资讯

科大讯飞语音库(“AI语音之王”科大讯飞声音复刻技术大升级，成品人机难辨！)

头条快讯编辑关注加好友

2026-01-31 09:470评论

作者 | 程茜

让《长安的荔枝》男主角李善德亲自推荐自己的电视剧是什么体验？

这段让人难辨真假的音频并非真正出自李善德之口，其应用的正是科大讯飞近期升级的声音复刻技术，李善德痛斥右相的段落中，声调拔高，语速加快，声音复刻技术呈现的李善德推荐《长安的荔枝》音频中，不仅将声线高度契合，而且把语音中包含的情绪也复刻得非常到位。值得注意的是，这段AI“李善德”的学习素材仅需不到10s。

在App中创建声音，用户只需要选择性别，朗读一句话，就可以快速生成自定义声音，并与之进行对话。

在这一背景下，科大讯飞声音复刻技术的背后到底有哪些黑科技？语音技术将带给科技行业什么样的想象空间？智东西将从讯飞星火App的相关功能体验出发，找到这些问题的答案。

如今更贴近人类日常交流的语音交互模式，几乎已经成为聊天机器人的必备功能。

可以看到，App中已经预设了14个发音人，包含普通话、英文、方言、日语、俄语等多种语音包。

下面有几个案例来感受一下一句话声音复刻技术的惊艳效果，用这项技术对用户熟知的影视剧角色、动漫人物声音进行了复刻，通过对比，我们可以更为直观地感受到其声音合成的相似度与准确度。

原音频：

声音复刻效果：

其合成音频中，不仅复刻了甄嬛的声线，语气也十分平缓，诉说过程衔接自然流畅。

通过不到7s的音频素材进行学习，就可以复刻蜡笔小新的声音，并让其准确说出哪吒的经典打油诗。

https://oss.zhidx.com/4e420acf25a253e2fa5d5baf98a3a839/685d6e80/uploads/2025/06/685bf913b79f0_685bf913b3f0e_685bf913b3ee3_%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0.m4a

https://oss.zhidx.com/5ed7acf96cf5d9fac89cb65c313566e5/685d6e80/uploads/2025/06/685bf91e990fc_685bf91e957c1_685bf91e95797_%E5%B0%8F%E6%96%B0%E5%A4%8D%E5%88%BB.wav

同时，哪吒也可以开口说蜡笔小新的经典台词，与其宠物小白隔空交流，复刻的音频中，既保留了哪吒的独特声线，还有其特殊的尾音上扬特征。

https://oss.zhidx.com/280c170f8e4fc16b7f620f6cd545495a/685d6e80/uploads/2025/06/685bf93837499_685bf93831c09_685bf93831bdf_%E5%93%AA%E5%90%92.m4a

https://oss.zhidx.com/387695fdb5eec7bbccf07ec4534e8599/685d6e80/uploads/2025/06/685bf91b1a1bb_685bf91b1411b_685bf91b140ce_%E5%93%AA%E5%90%92%E5%A4%8D%E5%88%BB.wav

这些音频的实现效果，有的仅需要原角色不到5s的音频就能实现，且可以看出上面几段音频都没有出现明显的卡顿，还复刻了声调上扬、语速、说话节奏等细微的特征。

对于这些深入人心的影视角色，用户在一些更为细节的发音特征上或许感知并不是很强烈，但在讯飞星火App自定义创建声音的场景中，用户对发音人复刻效果的要求更高，这对声音复刻功能提出了更大挑战。

在此基础上，科大讯飞为个性化的语音合成打造了“三阶段层次化语音建模框架”，试图将用户输入一句话音频的各种声音信息都捕捉到位。

传统声音复刻技术往往需要数小时甚至数十小时语音样本进行训练，而基于星火语音大模型底座能力，其可以快速从短时间音频中提取语音中的基础元素。

第三个阶段中的高保真波形恢复，能够尽可能还原原始音频的时域细节、频谱特征和动态范围。

同时，让合成声音更为自然还有一大关键是，发音需流畅且音色一致，因此在音色解耦表征的基础上，科大讯飞进一步通过音色增强以及强化学习，来实现声音复刻的人机难辨。

在这些综合作用下，科大讯飞的语音合成技术已经可以做到，只需一句话录音就能完整捕捉用户喉腔共鸣、口音特点、气息流转等发音特征，并精准还原用户的停顿习惯、情感起伏和呼吸节奏。

三、多次拿下业界国家级大奖，横纵布局加速语音技术落地

作为国内AI领域国家队，科大讯飞早在2011年就肩负起语音及语言处理国家工程实验室（后升级为工程研究中心）的重任，并成为全球语音技术领域的头部玩家。

此外，去年其“多语种智能语音关键技术及产业化”项目还斩获国家科学技术进步奖一等奖。

去年9月，科大讯飞在语音识别领域的赛事CHiME-8夺冠，并实现五连冠。语音识别首次实现全国地级市方言全覆盖，包括288个地市202种方言。

同时其能在强干扰场景下实现精准语音识别，在两人叠混场景、三人叠混场景中和-5dB高噪音场景中的语音转写效果远超Whisper和Gemini。

可见语音技术的攻关非一日之功，在技术深耕与场景应用上的双重发力，使得科大讯飞的语音技术正在全球扮演着愈发重要的角色。

语音交互使人们可以通过说话来操作设备和获取信息，无需手动输入或操作复杂的界面。如今随着技术的发展，语音识别和合成技术为聊天机器人等AI工具赋予了自然交互能力，使其与用户的交流更加流畅。

与此同时，企业也在不断探索新的算法和模型，在突破语音识别、合成准确率的同时，拓宽其应用场景，使得语音与自然语言处理、计算机视觉等技术相互融合，以推动AI的发展，而科大讯飞在技术融合与场景落地方面的积累，已展现出显著的竞争力。

顶一下() 踩一下()

打赏

三、多次拿下业界国家级大奖，横纵布局加速语音技术落地

热门推荐

鲁能历届外援(值得收藏！山东鲁能泰山队历年外援名单一览（1998-2021赛季）)

马来西亚疫情(今天起马来西亚全国封锁！中国驻马大使馆发布重要提醒：这些场所不要去)

北美洲世界杯预选赛积分榜(世预赛中北美区最新积分榜：加拿大22分第一，美国墨西哥分列二三)

qq大家来找茬作弊器(这次我真要验牌了！一句电影台词火遍全网成了老百姓维权的口头禅)

中国第一任主席是哪位(1976年：把华国锋定为接班人，是主席人生一件大事)

青岛海牛官方微博(九年饮冰，热血未冷！中超，海牛回来了！青岛市足球协会发来贺电)

历届主席出生日期(中华民国国民政府时期新疆省历任主席一览（1928年-1949年）)

玛贝拉(2026好用的脱毛膏品牌实测推荐：全能脱毛天花板，全肤质闭眼冲)

乒乓球世界杯几年举办一次(收藏！2026乒乓赛历出炉：全年63站以上，运动员体能迎来严峻考验)

圆梦宝(纽扣抗拉强力不达标部分圆梦宝童装被召回)

三、多次拿下业界国家级大奖，横纵布局加速语音技术落地

热门推荐

鲁能历届外援(值得收藏！山东鲁能泰山队历年外援名单一览（1998-2021赛季）)

马来西亚疫情(今天起马来西亚全国封锁！中国驻马大使馆发布重要提醒：这些场所不要去)

北美洲世界杯预选赛积分榜(世预赛中北美区最新积分榜：加拿大22分第一，美国墨西哥分列二三)

qq大家来找茬作弊器(这次我真要验牌了！一句电影台词火遍全网成了老百姓维权的口头禅)

中国第一任主席是哪位(1976年：把华国锋定为接班人，是主席人生一件大事)

青岛海牛官方微博(九年饮冰，热血未冷！中超，海牛回来了！青岛市足球协会发来贺电)

历届主席出生日期(中华民国国民政府时期新疆省历任主席一览（1928年-1949年）)

玛贝拉(2026好用的脱毛膏品牌实测推荐：全能脱毛天花板，全肤质闭眼冲)

乒乓球世界杯几年举办一次(收藏！2026乒乓赛历出炉：全年63站以上，运动员体能迎来严峻考验)

圆梦宝(纽扣抗拉强力不达标 部分圆梦宝童装被召回)

圆梦宝(纽扣抗拉强力不达标部分圆梦宝童装被召回)