Skip to main content

利用OZO AUDIO实现沉浸式声音体验

woman listening to music

多年来,诺基亚已经引入了数个变革我们使用移动设备方式的音频技术。我们的研发工作一直按消费者的需求进行,强调易用性、可靠性与品质。

在消费者应用中,高品质的音频捕捉录制依靠的是自动功能 - 否则就太难用了也太复杂了 - 从而创建出完美的对用户友好的界面。例如,在典型的移动视频应用程序中,很多功能是自动化的,这样用户无需关注技术,可以专心进行录制视频的创意方面。用户完全无需考虑音频,因为一切都是自动进行的。

解决自动化高品质音频捕捉中的挑战

经过多年的研究以及与麦克风制造商的密切技术合作,诺基亚使用MEMS麦克风元件实现了高动态范围(HDR)音频录制,能够在高声压级下进行无失真的录制。我们的目标是引入能够在140dB声压级录制音频的麦克风,这对于麦克风制造商来说仍然是个非常高的目标。

HDR录音让一项高挑战性声音环境(例如非常响的摇滚音乐会或爆竹)的无失真高品质录音技术(Nokia Rich Recording)的引入成为可能。有了Nokia Rich Recording,自动录音系统变得更加可靠和稳定,在困难的声学环境中不再对内容创作造成限制。

虽然现代录音棚麦克风比智能手机的麦克风有更好的信噪比,MEMS麦克风填补了大规模制造的消费类电子元件与高性能录音棚麦克风之间的空白,其麦克风的声能转换区域比消费类元件大1000倍。

在录音棚环境之外自动进行高品质音频录制的另一个难点在于如何界定噪声。理论上,噪声是不必要的信号或干扰。然而在实践中,并不总是能轻易判断出哪一部分信号是不必要的。例如,两个不同的视频录像 - 比如第一个是在尼亚加拉大瀑布,另一个是在工业区或者是都市环境 - 可能会有相似的声学特征,然而对于背景环境中哪些属于不必要的,主观解读可能会迥然不同。根据录音场景的不同,某一个背景声既可能是沉浸式音频体验的关键要素,也可能是一种干扰。因此,为记录全景音全部细节而设计的音频录制系统仍然需要用户针对所录制内容的目标提供一些信息。

采用诺基亚的OZO Audio技术,用户可以选择是捕捉整个3D声音场景,还是强调来自某个特定方向的音源,同时削弱来自其他方向的声音。Audio Focus功能让用户可以选择要强调的方向,在具有三个或更多麦克风且支持OZO Audio的设备上可使用该功能。

在消费类设备上实施OZO Audio

在将这个技术添加到设备上时,涉及多个与全景音捕捉相关的因素。我们对架构千差万别的消费类产品与专业产品制造都有经验,实践证明我们业界领先的全景音技术能够灵活集成到广泛的设备中。

智能手机产品的全景音通常涉及成本优化,因而以最少数量的麦克风实现出色音频性能的先进算法解决方案会更受欢迎。OZO Audio最少只需两个麦克风即可支持全景音录制,在具有至少三个麦克风的设备上支持360°录制,在具有4个或更多麦克风的设备上可实现全3D音频录制。

产品实施通常需要与客户密切合作,诺基亚音频专家会提供录制最佳效果全景音的支持与指导。OZO Audio算法会根据客户设备的设计、目标用例以及麦克风数量与位置进行优化。我们的客户还可以利用我们世界级经过认证的声学实验室设施以及性能评估系统。

因为OZO Audio技术的灵活性,制造商可以在其整个产品线中使用同样的技术实施方案。这就让用户的可交互内容创作、分享与消费体验成为可能。

将全景音带到移动设备

OZO Audio开发期间,我们意识到没有任何一种现有的音频格式是可以作为在移动设备上进行全景音录制的好选择。

传统的环绕声系统使用基于声道的音频格式(例如5.1),以便支持家庭影院环境的音频回放。基于声道格式的空间解析度可以通过增加扬声器声道数量来提升,但这种增加空间解析度的方法相当浪费,尤其是在大部分内容现在都通过耳机来消费的情况下。此外,采用不对称扬声器配置的基于声道的传统音频格式与虚拟现实(VR)内容的搭配并不理想,VR内容需要音频格式能支持头部追踪。

360°视频与VR内容的流行让基于Ambisonics的内容格式得到了更多的关注,因为Ambisonics很容易支持3D音频的平移,这是VR头盔需要的功能。Ambisonics系统的空间解析度可通过增加Ambisonics格式的阶数来提升,即从一阶Ambisonics(FOA, First-Order Ambisonics)提升到高阶Ambisonics(HOA,Higher-Order Ambisonics),这需要专用的压缩技术(例如MPEG-H)来实现高数据效率的内容交付。不幸的是,高品质的Ambisonics麦克风方案通常需要按球谐函数集成数十个麦克风。而智能手机的设计要求截然不同 - 它们需要的是越薄越好,一侧有大屏幕,只能配备几个麦克风。

因此我们开始寻求替代方法,在移动设备上保留空间解析度,同时避免不必要的复杂度和实施开销,因为在移动设备上主要的内容消费都是在耳机(有或没有头部追踪)上进行的。同时,移动3D音频也需要支持3D音频回放,我们希望解决这个问题。

为了提供对移动设备友好的全景音解决方案,OZO Audio使用了得到最广泛支持的数字音频格式:采用AAC编码并存储在MP4容器文件中。此外,我们引入了兼容标准的OZO Audio元数据扩展,以支持VR音频内容回放(头部追踪)以及高品质全景音内容对其他多声道或Ambisonics音频格式的替代编码。

得益于移动技术的迅速发展,很多人的智能手机都已经具备了4K视频拍摄能力。4K视频录制的完美搭档就是先进的全景音捕捉技术,可以让高品质媒体内容的沉浸式效果更上一层楼。用户可以创建新的媒体体验,实现通常在通过社交媒体等渠道分享内容时缺失的空间存在感。

作为音频技术开发的领导者,诺基亚将沉浸式音频带给全球的消费者,让人们通过准确且自然的全景音体验联系在一起。

Matti  Hamalainen

About Matti Hamalainen

Matti Hämäläinen is Head of Audio R&D leading OZO audio technology development at Nokia Technologies. OZO technologies are developed in collaboration with leading smartphone and camera manufacturers to drive customer product differentiation, and improvement of mobile audio experience and product audio quality.

Matti has experience in audio and multimedia technology development, standardization and different R&D leadership roles at Nokia over the last 25 years. His professional career demonstrates affection to work on audio signal processing, spatial audio, virtual prototyping, numerical acoustics, and audio system optimization related topics. His personal interests include endurance sports, woodworking and building different things for home and hobby.

Tweet us at @Nokiaozo

Article tags