学院网站规划方案,swipe类网站,网站建设教程搭建汽岁湖南岚鸿专注,如何用asp做网站的登录界面一、音频基础
1.1 声音的物理性质 ——振动
声音是一种由物体振动引发的物理现象#xff0c;如小提琴的弦声等。物体的振动使其四周空气的压强产生变化#xff0c;这种忽强忽弱变化以波的形式向四周传播#xff0c;当被人耳所接收时#xff0c;我们就听见了声音。 1.2 声…一、音频基础
1.1 声音的物理性质 ——振动
声音是一种由物体振动引发的物理现象如小提琴的弦声等。物体的振动使其四周空气的压强产生变化这种忽强忽弱变化以波的形式向四周传播当被人耳所接收时我们就听见了声音。 1.2 声音的物理性质 ——波形
声音是由物体振动产生的这种振动引起了周围空气压强的振荡我们称这种振荡的函数表现形式为波形。 1.3 声音的物理性质 ——频率
声音的频率是周期的倒数它表示的是声音在1秒钟内的周期数单位是赫兹Hz。前赫兹kHz即1000Hz表示每秒振动1000次。声音按照频率可以作如下划分
次声 0~20Hz人耳能听见的声音20Hz~20kHz超时 20kHz - 1GHz特超声 1GHz~10THz
1.4 声音的物理特性 ——振幅
声音有振幅振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值也称平衡态的最大偏移量。
2.数字音频
计算机并不直接使用连续平滑的波形来表示声音它是每隔固定的时间对波形的幅值进行采样用得到的一系列数字量来表示声音。下图是采样后的数音频的波形 PCM脉冲编码调制PCMPulse Code Modulation脉冲编码调制。人耳听到的是模拟信号PCM是把声音从模拟信号转化为数字信号的技术。
为了将模拟信号数字化主要分为三个步骤采样、量化、编码。
2.2 数字音频 ——采样频率
根据Nyguist采用定律要从采样中完全恢复初始信号波形采样率必须至少是信号中最高频率的两倍。
前面提到人耳能听到的频率范围是[20Hz - 20kHz]因此采样频率一般是44.1kHz这样就能保证声音到达20kHz也能被数字化从而使得数字化处理之后人耳能听到的声音质量也不会被降低。
采样频率每秒采样的点的个数常用的采用频率有22kHz、44.1kHz、48kHz、96kHz、192kHz等等
2.2 数字音频 ——采样量化
采样实在离散的时间点上进行的而采样值本身在计算机也是离散的。 采样值的精度取决于它用多少位来表示这就是量化。例如8为量化可以表示256个不同的值而CD质量的16为量化可以表示65536个值范围是[-32768,32767]。
下图是一个3位量化的示意图可以看出3位量化只能表示8个值还原后的声音非常差。 2.3 音频常见名词
采样频率每秒采样的点的个数常用的采用频率有22kHz、44.1kHz、48kHz、96kHz、192kHz等等采样精度采样深度每个样本点的大小常用的大小为8bit、16bit、24bit通道数单声道、双声道、四声道、5.1声道比特率每秒传输的bit数单位是bpsbit per second是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 采样频率 * 采样精度深度*通道数。码率压缩后的音频数据的比特率。常见的码率有96kbps、128-160kbps192kbps256-320kbps。码率越大压缩效率越低音质越好压缩后的数据越大。码率 音频文件大小 / 时长
比如采样频率44100采样精度16bit、2通道声道采集4分钟的数据为44100 * 16 * 2 *4*60 338688000bit 40M 字节。比特率采样频率*采样精度*通道数 44100 * 16 * 2 1411200bit/s
帧每次编码的采样单元数比如MP3通常是1152个采样点作为一个编码单元AAC通常是1-24采样点作为一个编码单元帧长可以指每帧播放持续的时间每帧持续时间秒 每帧采样点数/采样频率HZ。比如MP3 48k1152个采样点每帧则为24毫秒也可以指压缩后每帧的数据长度因此需要根据场景来确定所表示的含义。交错模式数字信号存储的方式。数据以连续帧的方式存放即首先记录帧1的左声道样本和右声道样本再开始帧2的记录… 非交错模式首先记录的是一个周期内所有帧的左声道样本再记录所有右声道的也样本。
2.4 音频编码原理简介
数字音频信号如果不加压缩地直接传输将会占用极大的带宽。例如一套双声道数字音频若取采样率为44.1kHz每样值按照16bit进行量化那么码率为244.1kHz16bit 1.411Mbit/s。如此大的带宽对于传输和处理都带来许多的成本因此必须采取音频压缩技术对音频进行处理才能有效地传输音频数据。
数字音频压缩编码在保证信号在听觉方面不产生失真的前提下对音频数据信号尽可能大的压缩降低数据量。数字音频压缩编码采取去除声音中的冗余成分的方法进行实现。所谓冗余成分指的是音频中不能被人耳感知到的信号他们对确定声音的音色、音调等信息没有任何的帮助。
冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如人耳所能察觉的声音信号的频率范围为20Hz~20kHz除此之外的其他频率人耳无法察觉都可视为冗余信号。
此外根据人耳听觉的生理和心理学现象当一个强音信号与一个弱音信号同时存在时弱音信号会被强音信号所掩蔽而听不见这样弱音信号就可以被视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应主要表现在频谱掩蔽效应和时域掩蔽效应。
2.4.1 频谱掩蔽效应
一个频率的声音能量小于某个阈值之后人耳就会听不到当有另外能量较大的声音出现的时候该声音频率附近的阈值会提高很多即所谓的掩蔽效应如下图所示
因此当有强音存在的时候在强音附近低于一定频率的弱音就可以被视为冗余信号不必传输
2.4.2 时域掩蔽效应
当强音信号和弱音信号同时出现时还存在时域掩蔽效应。即两者发生时间很接近的时候也会发生掩蔽效应。时域掩蔽过程曲线如下图所示分为前掩蔽同时掩蔽和后掩蔽三种
前掩蔽指的是人耳仔听到强信号之前的短暂时间内已经存在的若信号会被掩蔽而听不到。同时掩蔽指的是当强信号与弱信号同时存在的时候弱信号会被强信号所掩蔽而听不到。后掩蔽指的是当强信号消失后需要经过较长的一段时间才能重新听到弱信号称为后掩蔽。
这些被掩蔽的弱信号被称为冗余信号
2.5 压缩编码方法
当前数字音频编码领域存在不同的编码方案和实现方式。但基本的编码思路大同小异如下图所示
对每一个音频声道中的音频采样信号
将它们映射到频域中这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理学模型来计算掩蔽门限值由计算出的掩蔽门限决定从公共比特池中分配给该声道的不同频率域中多少比特数接着进行量化已经编码工作。将控制参数及辅助数据加入数据之中产生编码后的数据流。
3.1 常见的音频编解码器选型
OPUS、MP3、AAC、AC3和EAC3杜比公司的方案