a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

阿里公布新语音合成技术录音10分钟即可定制专属“AI声音”

以往,我们了解到一些世界领先的语音合成技术,它们研发出来的“语音合成助手”软件可以完美的完成语音合成工作。而最近阿里也推出了一项新语音合成技术,录音10分钟即可定制专属“AI声音”。
资讯频道文章B

  以往,我们了解到一些世界领先的语音合成技术,它们研发出来的“语音合成助手”软件可以完美的完成语音合成工作。而最近阿里也推出了一项新语音合成技术,录音10分钟即可定制专属“AI声音”。

  7月10日,阿里巴巴发布新一代语音合成技术KAN-TTS,称可大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低10倍以上。该技术由达摩院机器智能实验室自主研发。

  阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%-90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

  KAN-TTS深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成,有望通过图灵测试。阿里利用Multi-SpeakerModel与Speaker-awareAdvancedTransferLearning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准TTS定制。

  此外,这使得普通用户定制“AI声音”的门槛更低。只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

  基于KAN-TTS的语音合成技术现在已经向B端客户开放商用,它能基于5大场景(通用、客服、童声、英文和方言)、提供34种不同声音,而且能够让企业与个人定制其专属“AI声音”,该技术目前已经用在了高德地图、天猫精灵、夸克浏览器等应用中。

  语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

  和语音合成一样,语音识别技术也是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术,越来越多的公司和行业都在向这方面靠拢。2017年,全球的语音识别软件市场规模就已经达到11亿美元,随着AI等各种技术的成熟,对语音识别的市场需求也在逐年提升。预计到2025年,全球语音识别市场的整体规模将达到69亿美元。

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s传媒是全球知名展览公司法兰克福展览集团旗下的专业媒体平台,自1994年品牌成立以来,一直专注于安全&自动化产业前沿产品、技术及市场趋势的专业媒体传播和品牌服务。从安全管理到产业数字化,a&s传媒拥有首屈一指的国际行业展览会资源以及丰富的媒体经验,提供媒体、活动、展会等整合营销服务。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈