发布人:世界超高清视频产业联盟
发布时间:2024-12-31
简介 本文件规定了三维声音频的编码、分发与呈现方法,同时支持单声道、双声道立体声、多声道、三维声、 HOA 、元数据编解码。 本文件适用于广播电视、广播流媒体、网络电视、数字电影、实时通信、虚拟现实和增强现实、视频监控、数字存储媒体等领域。 AUDIO VIVID 是全球首个基于 AI 技术的音频编解码标准;基于开放、共创原则,采用友好的知识产权政策;支持主流三维声编码,包括声道、对象、HOA 声场 (Ambisonic) ;先进的元数据系统兼容 ADM 国际标准且可灵活扩展,确保还原创作者创作意图;兼容单声道、立体声、环绕声、三维声,提供 Hi-Res 编码。 对比业界现有的三维声技术,Audio Vivid 技术标准的目标是面向全球,技术先进,是一个更加开放的、具备产业安全要求的技术标准和方案,同时产业生态政策友好,更加适合超高清产业生态各方进行端到端的产业部署。在各方的联合支持下,现阶段 Audio Vivid 技术标准已经完成了端到端的体系建设,将进入市场规模使用。 联盟在ITU-R SG6推进Audio Vivid标准取得了重要进展,在刚刚结束的ITU-R SG6组11月份全会上,Audio Vivid纳入BS.2493技术报告获得通过,将在12月初正式发布,成为与Dolby AC-4、MPEG-H、DTS-UHD并列发布的3D音频标准。 亮点 Audio Vivid 编码介绍: Audio Vivid 编码系统由有损音频编码工具、无损音频编码工具和元数据编码工具组成,支持声道信号编码、对象信号编码、HOA 信号编码及元数据编码。特别的,有损音频编码工具由 HOA 空间编码工具和核心编码工具组成。核心编码工具由预处理、下混和基于神经网络的特征变换、量化和区间编码等处理模块组成,可将声道信号和对象信号编码为位流。 HOA 空间编码工具和核心编码工具的组合可将 HOA 信号编码为位流。Audio Vivid 元数据由基础元数据和扩展元数据两部分组成。其中基础元数据引用 ITU-R BS.2076-2(ADM)标准定义的音频模型,扩展元数据为新增的定义,服务于增强的双耳渲染体验。Audio Vivid元数据既能前向兼容, 又能后向扩展,在满足元数据全球互联互通的同时, 又提供了足够的灵活性和可扩展性。 Audio Vivid 解码和渲染介绍: Audio Vivid 解码系统与编码系统相对应,解码流程为编码流程的逆过程。Audio Vivid包含扬声器渲染和双耳渲染两个默认的渲染器,也支持第三方渲染器接口。默认渲染器均支持制作端音频内容制作和终端渲染回放,可处理通道音频、对象音频和 HOA 音频以及它们的组合,以提供增强的体验,创造更多的创意,并允许互动和个性化。默认的双耳渲染器还支持 3DoF 的沉浸式体验。 Audio Vivid 采用基于神经网络的变换和熵编码、HOA 空间编码等压缩编码技术,可以有效去除三维声信号间的冗余,在保证编码质量的前提下节省传输带宽。此外,通过编码传输特定的对象元数据,在终端进行扬声器渲染或双耳渲染,就可以对单个对象的控制和交互,如语言选择、音量大小调整等,从而实现声音的交互化和个性化,极大提升用户听音体验。随着 Audio Vivid 技术标准和生态的进一步完善,用户将在更多的音频场景中感受到三维声带来的声临其境体验。 |