谷歌为ai生成的音频和视频质量引入了新的度量标准
很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于谷歌为ai生成的音频和视频质量引入了新的度量标准的资讯也不例外 , 希翼可以在一定的程度上开阔你们的视野!y有对谷歌为ai生成的音频和视频质量引入了新的度量标准这篇文章感兴趣的小伙伴可以一起来看看
谷歌AI研究人员发表了两项新的衡量深度学习网络产生的音频和视频质量的指标,即Frechet音频距离(FAD)和Frechet视频距离(FVD) 。这些指标已被证明与人类对质量的评价有很高的相关性 。

文章插图
在最近的一篇博客文章中,软件工程师凯文·基尔古尔(Kevin Kilgour)和托马斯·尤特西纳(Thomas Unterthiner)描述了他们团队所做的工作,这项工作建立在先前测量神经网络生成的图像质量的研究的基础上 。这些团队分别展示了他们的新度量如何检测添加到声音或视频中的噪声,以及他们的度量如何通过人类对声音或视频质量的评估来跟踪 。通过对失真音频样本的排序来评估FAD,其选择与人类评委的相关性为0.39 。通过对由深度学习模型生成的视频对进行排名,对FVD进行了类似的评估;它与60%到80%之间的人类排名一致,这取决于所使用的生成标准 。
深度学习模型的成功在一定程度上是由Image Net等大型高质量数据集的可用性驱动的 。这些数据集还提供了一个“基本真相”,可以据此对模型进行评估 。最近流行的深度学习生成新图像的应用提出了一个新的问题:如何测量输出的质量?不能采纳信噪比或均方误差等通用指标,因为这些网络生成的图像或其他数据没有“地面真相”答案 。
【谷歌为ai生成的音频和视频质量引入了新的度量标准】

文章插图
由于目标是创建对人类来说看起来或听起来真实的输出,数据可以由人类评委打分,但这既不可伸缩,也不一定客观 。Gans的发明者提出的最初度量标准是Inception评分(IS) 。该度量是通过将预先训练的Inception图像分类器应用于图像和计算结果统计来计算的 。这一度量指标“与用于训练生成模型的目标紧密相关”,并被证明与人类对质量的推断紧密相关 。
然而,Inception评分标准确实有一些缺点;特殊是,它对所使用的底层Inception模型的变化很敏感 。奥地利约翰内斯·开普勒大学LIT人工智能实验室的Unterthier和其他人开辟了Frechet初始距离(FID) 。而不是使用Inception模型的分类输出,FID使用Inception模型的隐藏层来计算输入图像的嵌入 。为一组生成的图像和一组真实世界(或基线)图像计算嵌入 。所得到的数据集被视为由多元高斯分布生成的数据,并使用Frechet距离对两个分布进行比较 。与IS相比 , FID的一个优点是随着噪声被添加到图像中,FID会增加 , 而IS可以保持平整,甚至减少 。

文章插图
?
谷歌的新指标扩展了计算生成数据的嵌入,并将统计数据与基线数据进行比较的想法 。对于FAD,团队使用VGGish来计算嵌入,对于FVD,一个充气的3D Convnet 。为了验证其度量的实用性,研究人员计算了通过在基线中添加噪声而创建的数据集的度量值;期望是随着噪声的增加,分数会增加 , 这确实发生了 。该小组还将他们的度量结果与人类评价进行了比较,发现他们的度量与人类推断之间的相关性,并且他们的新度量与人类法官的一致性比其他常用的度量更强 。
推荐阅读
- ABB与微软合作,将生成式 AI 集成到工业数字系统中
- 淘宝活动后降价能要求退差价吗卖家会拒绝吗为什么
- 淘宝超级推荐是什么流量
- 淘宝上天猫新品
- 淘宝推广关键词怎么出价
- 淘宝没有货源怎么发货
- 天天农场官网
- 淘宝店铺权重规则
- 淘宝店铺淡季该怎么运营
- 小车改成天窗需要备案吗?