当前位置:首页 > 科技博览 > 科技热点 > 正文

可定制的私人主播

发布时间: 2019-05-30 15:04:25   作者:本站编辑   来源: 本站原创   浏览次数:        字号:[ 常规 ]

2019年中国“两会”刚刚落幕,一位声音动听的“AI女主播”因为参与是次两会新闻播报,走红网络。这位虚拟主播不仅颜值好,且具备汉、英、日、韩等多种语言的播报能力。这位主播是一款通过语音合成技术实现人工智能应用的新产品。它通过采集录制真人的声音素材,再通过声音标注以及机器的深度学习算法,构建出发音声学模型。在此基础上,输入任意文本即可实现语音合成。此外,由于应用了图像处理等技术,使得主播形象更加逼真,播报过程中自然的表情和精准的口型,达到了以假乱真的效果。有了“AI女主播”,自然少不了“AI记者小白”。

为了满足会议报道需求,研发团队还开发了一款助理记者机器人。通过声音采集,复刻出了中国央视主持人白岩松的合成音库。除了在音色上要模仿得惟妙惟肖,在说话节奏和情感上也要尽量还原。“AI记者小白”一经出现,就被媒体同行们所围观,还现场采访了许多2019年全国两会上的代表委员。

4.jpg

 

知识链接:

全双工语音交互

全双工语音交互指的是一个系统性的语音交互模式,首先是交互过程中的同步双向数据传递,即边听边想,这主要源于预测模型,在收听语音的同时,人工智能会预测用户的完整意思,并且在过程中不断调整以达到更为精确的预期结果。其次是节奏控制器,人工智能可以自已产生协调的预判,同时根据人类在交互中的节奏,进而把握在交流中的时机以达到最佳的内容捕捉。其中人工智能可否主动引发新话题,产出新内容,主动打破对话中的沉默时刻是重要特质;不远的将来,基于全双工语音交互技术的人工智能,将拥有和人类一样的非对称对话模式。声音场景的理解。全双工语音交互声音场景包含分类器和环境处理。分类器,目前微软小冰可以完成语音身份识别,比如对男人、女人或儿童的声音进行准确识别,从而提供对应的对话内容,以及语音情绪识别、音乐/歌声识别等;环境处理。