微软发布了VALL-E,这是一款可以模仿声音的令人毛骨悚然的人工智能

微软的一个研究小组发表了一篇关于VALL-E的论文,他们的新人工智能可以根据3秒钟的样本生成逼真的人类语音模拟。

对于配音演员来说,这是一个令人担忧的发展,对于任何可能被欺骗的人来说,他们都认为自己正在与一个迫切需要他们卡片细节的亲戚通电话。在我考虑新的人工智能技巧的负面影响之前,我通常会被它们的令人印象深刻所震惊,但我发现这从一开始就令人不安。

研究人员将VALL-E描述为一种“神经编解码器语言模型”,接受“从现成的神经音频编解码器模型中衍生出的离散代码”的训练。他们还说,它是在6万小时的语音上训练的,“比现有系统大几百倍”。旨在逼真模仿人类语言的人工智能已经存在了一段时间,但这些样本令人信服,而其他尝试显然是机器人。

正如研究人员指出的,VALL-E可以“保存说话者的情绪和声音环境”的提示。这令人印象深刻,但不同于在表演中找到正确的语气和情感,所以离取代配音演员还有很长的路要走。我甚至看不到一个高级版本的VALL-E比那些有才华的专业人士表现得更出色,但公司往往追求成本效益,而不是最好的。

微软发布了VALL-E,这是一款可以模仿声音的令人毛骨悚然的人工智能

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注