电声行

微信扫一扫

微信小程序
天下好货一手掌握

扫一扫关注

扫一扫微信关注
天下好货一手掌握

从8kHz到48kHz:音频带宽扩展算法的演进

   2025-04-08 510
核心提示:许多智能设备现在支持超宽带的高质量语音通信服务。然而,有时为了节省带宽或者当它们与不支持超宽带的网络或设备配合使用时,语音质量往往会受到失真影响。此时,可以使用音频带宽扩展(Audio Bandwidth Extension,

许多智能设备现在支持超宽带的高质量语音通信服务。然而,有时为了节省带宽或者当它们与不支持超宽带的网络或设备配合使用时,语音质量往往会受到失真影响。此时,可以使用音频带宽扩展(Audio Bandwidth Extension, ABE)来改善语音质量。带宽扩展旨在估计缺失的高频内容,换句话说,即提高语音信号的分辨率,通常是从 4-8kHz 扩展到 16kHz。早期的研究主要通过窄带信号的频谱参数(如频谱包络和增益)来估计宽带信号的频谱参数。这些方法采用了非负矩阵分解、线性预测编码、隐马尔可夫模型以及高斯混合模型等技术。

随着深度学习的应用极大地提升了带宽扩展的性能,相较于传统方法,其建模能力更为强大。深度学习的引入极大地提升了带宽扩展的效果,特别是自回归模型、生成对抗网络(GANs)、变分自编码器(VAEs)以及基于变换器(Transformer)的架构,使得高频信息的估计更加精确且自然。此外,近年来,扩散模型(Diffusion Models)也开始应用于带宽扩展任务,以生成更真实的高频成分。

音频的高频成分在语音质量、感知体验和下游任务中起着重要作用,主要体现在以下几个方面:高频成分包含丰富的谐波信息,对辅音(如 /s/、/f/、/t/)的感知尤为重要。例如,电话语音通常限制在 300Hz-3.4kHz,导致部分辅音听起来模糊,而带宽扩展到 16kHz 后,语音更接近真实人声,清晰度和自然度明显提高。某些语言的音素主要依赖高频成分进行区分,例如英语中的 /s/ 和 /ʃ/(“see” vs. “she”),如果高频信息缺失,听众可能难以分辨类似的发音,影响语音的可懂度。高频成分携带重要的空间感知信息,例如房间混响、方向感和立体声特性。因此,在音乐和沉浸式音频应用(如 VR、3D 音频)中,高频成分能够增强空间感,使音频听起来更自然和生动。在音乐压缩(如 MP3、AAC)中,高频成分决定了音色的细腻程度。高频缺失可能导致音乐变得暗淡、失去层次感。因此,许多高质量音频编解码器(如 Hi-Res Audio、LDAC)都强调高频部分的保留。

下面的视频是48kHz的全带音频和8kHz窄带音频(对48kHz音频使用截止频率为8kHz低通滤波得到)的对比,很容易听出全带音频声音较为透亮,而窄带音频声音较为低沉且不清晰。

在传统带宽扩展算法中,线性预测系数是比较常用的重构音频参数,基于线性预测分析的带宽扩展算法流程框图如下所示,大致可以分为4个步骤:对音频进行分帧其中高频成分通过线性预测分析来估计其中低频成分直接原始宽带信号中提取高频成分通过IFFT得到对应的时域信号,由于低频(LF)和高频(HF)估计过程中可能引入不同的延迟,因此需要同步对齐。最后将对齐后的高频信号和低频信号进行相加,然后使用OLA进行拼接得到最终的32kHz信号。


通过对比基于线性预测分析(LPC)算法的带宽扩展技术处理前后的音频样本,在输入信号为8kHz窄带音频的条件下,算法成功重构了8-16kHz高频频谱成分,并且频谱没有明显的缺失跳变等现象,语音听感流畅且没有杂音。


 
举报收藏 0打赏 0评论 0
免责声明
• 
本文为小编互联网转载作品,作者: 小编。欢迎转载,转载请注明原文出处:https://www.91sdsh.com/news/show.php?itemid=16855 。本网站部分内容来源于合作媒体、企业机构、网友提供和互联网的公开资料等,仅供参考。本网站对站内所有资讯的内容、观点保持中立,不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如果有侵权等问题,请及时联系我们,我们将在收到通知后第一时间妥善处理该部分内容。。
 
更多>同类产品评测
推荐图文
推荐产品评测
点击排行
信息二维码

手机扫一扫

快速投稿

你可能不是行业专家,但你一定有独特的观点和视角,赶紧和业内人士分享吧!

我要投稿

投稿须知

版权所有:东莞市群睿塑料制品有限公司

粤ICP备16035029号-1