Meta AI驱动的音频编解码器比MP3压缩率高10倍

来源：cnBeta | 2022-11-03 08:49:56

上周，Meta公司宣布了一种名为"EnCodec"的人工智能驱动的音频压缩方法，据说可以将音频压缩到比MP3格式小10倍的64kbps而且具有同等的质量。Meta公司表示，这种技术可以极大地改善低带宽连接上的语音质量，例如在服务不完善的地区进行电话通话。该技术也适用于音乐。

Meta公司于10月25日在一篇题为"高保真神经音频压缩"的论文中首次介绍了这项技术，论文作者是Meta公司的人工智能研究员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta公司还在其专门介绍EnCodec的博客上总结了这项研究。

Meta公司将其方法描述为一个由三部分组成的系统，经过训练可将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧率的"潜空间"表示。然后，"量化器"将该表示法压缩到目标大小，同时跟踪最重要的信息，这些信息随后将被用于重建原始信号。(这个压缩信号将通过网络发送或保存在磁盘上)。最后，解码器使用一个神经网络在单个CPU上将压缩的数据实时地转变成音频。

Meta对鉴别器的使用被证明是创造一种尽可能多地压缩音频的方法的关键，同时又不失去信号的关键元素，使其与众不同并可被识别。

"有损压缩的关键是识别人类无法察觉的变化，因为在低比特率下不可能实现完美的重建。为了做到这一点，我们使用鉴别器来提高生成的样本的感知质量。这就形成了一个猫捉老鼠的游戏，鉴别器的工作就是区分真实的样本和重建的样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器"。

值得注意的是，使用神经网络进行音频压缩和解压远非新鲜事，特别是用于语音压缩时，但Meta公司的研究人员声称他们是第一个将该技术应用于48kHz立体声音频(比CD的44.1kHz采样率略好)的工作小组，这是在互联网上传播的最典型的音乐文件。

至于应用方面，Meta公司表示，这种由人工智能驱动的"超压缩音频"可以在恶劣的网络条件下支持"更快、更优质的通话"。当然，作为Meta公司，研究人员还提到了EnCodec的元数据影响，说该技术最终可以提供"丰富的元数据体验，而不需要大幅提高带宽"。

除此之外，也许有一天我们还能从它那里得到更小的音乐音频文件。目前，Meta公司的新技术仍处于研究阶段，但它指向一个高质量音频可以使用更少带宽的未来，这对流媒体造成网络负担过重的移动宽带供应商来说是个好消息。

标签：音频编解码器人工智能音频压缩语音质量