多媒体音频信息处理

2023-05-10 14:56:27

5.1数字音频的相关概念

数字音频是一种利用数字化手段对声音进行采样、量化、编码与压缩、存储、编辑和播放的技术，它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。本章将主要介绍音频数字化所涉及到的音频处理技术。

声音的波形

在物理上，声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂，都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。因声波是在时间和幅度上都连续变化的量，所以称之为模拟量。

模拟音频信号的物理特征

模拟音频信号有三个重要参数：频率、周期和幅度。声音的频率体现音调的高低，声波幅度的大小体现声音的强弱。

（1） 声音的频率

一个声源每秒钟可产生成百上千个波，每秒钟波峰所发生的数目称之为信号的频率，单位用赫兹(Hz)或千赫兹(kHz)表示。

频率分类：

次声	0 —20 Hz
人耳能听见的声音	20 Hz —20 kHz
超声	20 kHz— 1 GHz
特超声	1 GHz— 10THz

（2） 周期

信号在两个峰点或谷底之间的相对时间。周期和频率是互为倒数。有周期的悦耳。

（3） 幅度

从信号的基线到当前波峰的距离。幅度大声音强声音质量分级与带宽

5.2模拟音频的数字化过程

不同信号类型的采样率和量化精度

声音信号能进行压缩编码的基本依据

1.语音信号中存在着多种冗余度: 语音信号采样点幅度分布的非均匀性和样本间的相关性等原因引起

2. 听觉的“掩蔽”特性:人的听觉器官(包括视觉器器官)都具有某种不敏感性，舍去人的感官所不敏感的信息对声音质量的影响很小，在有些情况下，甚至可以忽略不计。听觉系统中存在一个听觉阈值，低于这个阈值的声音信号就听不到，因此就可以把这部分信号去掉

声音文件大小的计算方法

声卡对声音的处理质量可以用三个基本参数来衡量，即采样频率、采样位数和声道数。

采样频率是指单位时间内的采样次数。采样频率越大，采样点之间的间隔就越小，数字化后得到的声音就越逼真，但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采样频率。

采样位数是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。

采样的声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流，而立体声则需要左、右声道的两个数据流。显然，立体声的效果要好，但相应的数据量要比单声道的数据量加倍。

不经过压缩声音数据量的计算公式为：

数据量（字节/秒）= (采样频率（Hz）*采样位数（bit）*声道数)/ 8

其中，单声道的声道数为1，立体声的声道数为2；/8是把二进制数转为字节（每个字节为8个二进制位）

 应用举例

【例1】请计算对于5分钟双声道、16位采样位数、44.1kHz采样频率声音的不压缩数据量是多少？

解：

根据公式：

数据量=（采样频率×采样位数×声道数×时间）/8

得，数据量=[44.1×1000×16×2×（5×60）] /（8×1024×1024）

=50.47MB

因此，声音的不压缩数据量约为50.47MB。

计算时要注意几个单位的换算细节：

时间单位换算：1分=60秒

采样频率单位换算：1kHz=1000Hz

数据量单位换算：1MB=1024×1024=1048576B

【例2】请计算对于双声道立体声、采样频率为44.1kHz、采样位数为16位的激光唱盘（CD-A），用一个650MB的CD-ROM可存放多长时间的音乐。

解：

已知音频文件大小的计算公式如下：

文件的字节数/每秒=采样频率（Hz）采样位数（位）声道数/8

根据上面的公式计算一秒钟时间内，采样频率为44.1kHz、采样位数为16位，双声道立体声激光唱盘（CD-A）的不压缩数据量。

(44.1×1000×16×2)/8=0.168MB/s

那么，一个650MB的CD-ROM可存放的时间为（650/0.168）/（60×60）=1.07小时，答约1个小时即可。

5.3音频文件的格式与处理软件Adobe Audition的应用

常用音频文件的格式

（1） CD格式（天籁之音）。当今世界上音质最好的音频格式。采样频率44.1kHz,16位，无损压缩，扩展名.cda

（2） WAV格式（无损的音乐）。微软公司开发的一种PC机上广为流行的声音文件格式, 采样频率44.1kHz,16位，无损压缩，扩展名.wav

（3） VOC格式：DOS系统下面的音频文件格式标准，由文件头块和音频数据块组成，扩展名.voc

（4） MP3格式（流行的风尚）：诞生于八十年代的德国，文件尺寸较小。是MPEG压缩标准的有损压缩文件

（5） MP4格式：音频MP4文件（有别于MP4视频），后缀名为AAC或者M4A，是MPEG-2 AAC压缩技术的有损压缩文件。

（6） RealAudio格式（流动的旋律）。主要适用于在网络上的在线音乐欣赏。-- 扩展名：.RA/.RM/.RAM

（7） AIFF格式。苹果公司开发的音频格式。——.AIF/.AIFF

（8） APE格式（无损压缩）。APE是目前流行的数字音乐文件格式之一。压缩率约为55%，是原CD的一半

（9） AAC格式（有损压缩）：压缩技术高于mp3，保持更好的音质。

（10） WMA格式（最具实力）。微软高压缩率适合网络在线播放的音频格式。

（11） MIDI格式（作曲家的最爱）。MIDI文件是一段录制好的记录声音信息的文件。

用Adobe Audition自制作卡啦ok（关键：Mp3声音分离背景和人声）

（1）导入声音

（2）在另一轨道录制声音（用耳机听原唱，以免录进原声）

（3）去原带中的人声：开启效果，菜单栏“效果”→“立体声声向”→“中置声道提取”

（4）移除人声：在“预设”中将“默认”改为“人声移除”或“卡劳OK”。按下空格键可随时播放试听。试听可以接受后，点击效果组下方“确认”按钮保存修改。

（5）导出音乐

菜单栏“文件”→“导出”→“文件”弹出对话框，选择自己想要的音质以及导出位置，单击确定。进度条结束后，整个过程结束，伴奏制作完成~