iOS音视频一-音频理论

如题所述

第1个回答  2022-06-27

关于声音的物理定义:

任何我们可以听见的声音经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号(二进制的1和0)来记录声音,而不是用物理手段来保存信号(用普通磁带录音就是一种物理方式)。
我们实际上听不到数字信号。而声音的存储通常存储的是音频的数字信号.模拟信号通过采样--量化--编码可以转化为数字信号.

相关概念:
采样:
在音频处理时要先把音频的模拟信号变成数字信号,这叫A/D转换。要把音频的模拟信号变成数字信号,就需要采样。

采样率:
一秒钟内采样的次数称为采样频率,采样率越高,失真越小.

采样位数/位宽:
每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:

数字信号是用0和1来表示的。采样位数就是采样值用多少位0和1来表示,也叫采样精度,用的位数越多就越接近真实声音。如用8位表示,采样值取值范围就是-128 ~ 127,如用16位表示,采样值取值范围就是-32768 ~ 32767。采样位数越高,精度越高,声音变化的梯度越小,声音更加细腻,失真越低。当然音频文件的体积也会成倍的放大.

声道:
通常语音只用一个声道。而对于音乐来说,既可以是单声道(mono),也可以是双声道(即左声道右声道),还可以是多声道,叫环绕立体声。

编解码 :
编码过程:模拟信号->采样->量化->编码->数字信号.

压缩:
对于自然界中的音频信号,如果转换成数字信号,进行音频编码,那么只能无限接近,不可能百分百还原。所以说实际上任何信号转换成数字信号都会“有损”。但是在计算机应用中,能够达到最高保真水平的就是PCM编码。因此,PCM约定俗成了无损编码
。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损

码率:
码率 = 采样频率 * 采样位数 * 声道个数; 例:采样频率44.1KHz,量化位数16bit,立体声(双声道),未压缩时的码率 = 44.1KHz * 16 * 2 = 1411.2Kbps = 176.4KBps,即每秒要录制的资源大小,理论上码率和质量成正比

常用音频格式

WAV 格式:音质高 无损格式 体积较大

AAC(Advanced Audio Coding) 格式:相对于 mp3,AAC 格式的音质更佳,文件更小,有损压缩,一般苹果或者Android SDK4.1.2(API 16)及以上版本支持播放,性价比高

AMR 格式:压缩比比较大,但相对其他的压缩格式质量比较差,多用于人声,通话录音

AMR分类:
AMR(AMR-NB): 语音带宽范围:300-3400Hz,8KHz抽样

mp3 格式:特点 使用广泛, 有损压缩,牺牲了12KHz到16KHz高音频的音质

有一定电子基础的都知道传感器采集音频信号是模拟量,而我们实际传输过程中使用的是数字量。而这就涉及到模拟转数字的过程。而模拟信号数字化必须经过三个过程,即抽样、量化和编码,以实现话音数字化的 脉冲编码调制 (PCM,Pulse Coding Modulation)技术。

抽样是把模拟信号以其信号带宽2倍以上的频率提取样值,变为在时间轴上离散的抽样信号的过程。

抽样信号虽然是时间轴上离散的信号,但仍然是模拟信号,其样值在一定的取值范围内,可有无限多个值。显然,对无限个样值一一给出数字码组来对应是不可能的。为了实现以数字码表示样值,必须将连续信号进行离散,既将声音信号振幅的值域,以采样位宽所表示的范围进行量化。这一过程称为量化。

量化后的抽样信号与量化前的抽样信号相比较,当然有所失真,且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声,并称为量化噪声。量化噪声的大小取决于把样值分级“取整”的方式,分的级数越多,即量化级差或间隔越小,量化噪声也越小。

相似回答