一种快速的特定音频指纹提取方法概要

发布时间:

211
一种快速的特定音频指纹提取方法 1,2,欧阳建权 1,2,李泽洲 1,2, 1,2
(1. 湘潭大学智能计算与信息处理教育部重点实验室 ,湘潭 411105; 2. 湘潭大学
息工程学院 ,湘潭 411105
:针对当前音频哈希指纹方法不足以满足特定音频 ( 如广告 的实时监测问 ,提出一种快速的特定音频指纹提取方法 ,通过提取每 帧感知最相关的频域信息 , 其分为 33个频带,并提取相邻 2帧相邻频带的差异作为指纹值 ,每帧提 32 0/1 值。实验表明 ,与现有方 法相比 ,该方法在保证音频检测准确性的同时 ,能实现指纹的 快速提取。 关键词:音频;指纹提取 ;音频哈希指纹法
Fast Fingerprint Extraction Method for Specific Audio
ZHANG Min1,2, OUYANG Jian-quan1,2, LI Ze-zhou 1,2, LIU Wei1,2 (1. Key Laboratory of Intelligent Computing & Information Processing, Xiangtan University, Ministry of Education, Xiangtan 411105;
2. College of Information Engineering, Xiangtan University, Xiangtan 411105 Abstract
In view of the current audio hash fingerprinting method is not sufficient to meet the real-time monitoring for specific audio(e.g. advertising, this paper presents a fast fingerprint extraction method for specific audio. It extracts the information with the most relevant perception of each frame in frequency domain and divides the information into 33 bands. It extracts the differences between the equivalent bands from adjacent frames as the fingerprint. For each frame, 32 0/1 values are computed. Compared with existing method, this method ensures the accuracy of detection and extracts fingerprint rapidly at the same time. Key words
audio; fingerprint extraction; audio hash fingerprinting method
Computer Engineering 36 2
Vol.36 No.2 2010 1
January 2010 ·多媒体技术及应用 ·文章编号 :1000 3428(201002 0211 03 文献标识码 :A 中图分类号 :TP37
1 概述
随着互联网与数字媒体技术的发展 ,每年都将新增海量 的音频数据 ,人们能够更 加方便、快捷、经济地接触到数字 媒体 ,多媒体数据也已成为互联网信息高速公路 传送数据 的主要部分。声音媒体是除视觉媒体外最重要的媒体 ,占总 信息量的 20% [1] 。同时 ,大容量高速存储系统为声音的 海量存储提供了基本保障 ,各行业 对声音媒体的使用越来越 广泛。因此 ,如何从海量的声音信息中快速检索所需要的 息已经成了亟需解决的问题。
许多国家的广播电台必须为播放的音乐支付版税 , 因此, 版权所有者希望监测电 台播放 ,以确认所播放的音乐是否支 付版税。即使在电台可以免费播放音乐的国家 , 版权所有者 也有兴趣监测电台播放的统计数据。广告客户也希望监测电 台及电视 的广告播出 ,以验证商业广告是否按商定的时段 和按量播出。同时 ,国家监管部门 希望监测电台和电视台 是否播放违禁广告。其他应用还包括电台和电视台的节 目材 料统计分析和国家的法律实施强制播放监测等。然而 ,当今 媒体数据更新如此 之快 ,要实现实时监测 ,必须有快速的搜 索策略。由于音频信号本身的复杂性 ,传统的 检索技术并不 适用于音频领域 ,人的感知特性使得音频的相似性度量变得 更为复杂 多变。研究表明 ,对于一首歌曲即使改换相似的音 ,甚至拉长音符、改变间隔也还 能保持原有声音的幅度轮 廓等属性 [2] 。以往的音频研究工作 ,尤其是音乐的信号分 和检索技术主要是基于符号表示 ( MIDI , 但大多数现有的 数字音频数据多以
无结构的声
音文件存储 ,因此,符号表示 的应用很有限 [3]
目前 ,对音频检索的研究主要基于指纹展开 ,音频指纹
的研究分为 2个方向 :(1基于水印嵌入的指纹方法。文献 [4]提出一种基于混沌 系数均值统计特性的音频指纹方案 , 过用户信息生成的混沌映射初值应用混沌 方法生成用户指 ,再根据小波系数统计恒定特性将指纹嵌入到每帧中 , 种方法具 有一定的鲁棒性 ,但需要嵌入多余的数据。 (2 基于 内容的指纹方法。文献 [5]提出 一种鲁棒的音频哈希指纹方 ,对相邻 2 帧提取频域能量的差异作为哈希指纹 ,但是 种方法速度比较慢 ,不能满足特定音频 (如广告 的实时监测。 鉴于此 ,本文通过改 进文献
[5]的哈希指纹方法 ,针对 MP3 格式的广告音频 ,提出一种快速的特定音频指
纹提取方法。
2 音频指纹提取与匹配 2.1 音频指纹
音频指纹是音频对象简短的摘要。对指纹 F 和音频对象 X 建立映射关系后 , 频指纹识别时 ,只须在 2 个相似的 音频对象之间建立一种知觉平等的有效的机制 , 通过比较 相对较大的音频对象本身 , 而是通过比较相关的指纹。 因此, 音频指纹 应具备以下性质 :
(1 感知相关性。指纹中应尽可能多地包含感知相关的数 ,而感知不相关的数
据应尽可能从指纹中清除。
(2高效性。指纹应相对较小 ,以实现高效的检索。 (3 鲁棒性。相似音频的指纹
该尽可能的一致 ,应该尽
基金项目 :湖南省教育厅优秀青年基金资助项目 (06B095;湖南省 研究生科研创 基金资助项目
(X2008yjscx19
作者简介:张敏 (1985- ,,硕士研究生 ,主研方向 :多媒体分 析与检索;欧阳建权, 副教授;李泽洲、刘 ,硕士研究生 收稿日期
:2009-06-20 Email :kissingman1@gmail.com
212 可能地抗各种攻击
2.2 音频指纹提取
本文通过对每帧 MP3数据提取一个 32位的 0/1值作为 指纹,共提取 (32 ×音频 帧数个指纹值。每帧的 32 0/1 可以用一个 32位的数保存, 这样提取出的指纹 比原始音频小 ,符合指纹的高效性特征。指纹提取过程如图 1 所示。

F (n , 0F (n , 1 F (n , 31 1 音频指纹提取过程
很多重要的音频特征都是从频域信息中获得的 ,因此, 本文对每帧数据进行快速 傅里叶变换 (FFT以获得其频域中 的信息。傅里叶变换的时间复杂度为 O (n log n , 选取的帧长 越长 ,所需时间也越多 ,考虑到算法实时的要求 ,本文对 解码出来的 MP3数据按 MP3数据的帧结构进行处理 , 1帧为 1 152 PCM 数据,这样可以实 现在解码的同时计算 出指纹值 ,不需要额外的数据处理。实验表明其能达到实时 要求。
为了提取 32位的音频指纹 , 需要从快速傅里叶变换之后 的频域值中选取 33 不重叠的频带。 这些频带的频率范围为 与人的听觉感知最相关的 300 Hz~2 200 Hz, 符合音频指纹 感知相关性特征。 把这些频带均分成 33等份, 计算每等份各 个频 域值的绝对值的和
S 。如用 S (n , m 表示第 n 帧第 m 个等份的和值, F (n , m 示第 n 帧第 m 个等份的指纹 ,:
1
if (, (, 1 (1, (1, 1 0(, 0 if (, (, 1 (1, (1, 1 0 S n m S n m S n m S n m F n m S n m S n m S n m S n m-+ --+-+> ? =? -+--+-+ ?
这样,每个音频片段共提取 n 个指纹值 , n 为音频片段 的总帧数。
2.3 音频指纹匹配
音频指纹匹配要采用一定的计量方法来测度人类听觉的 相似感觉。目前得到 广泛应用的相似性度量是在空间中定义 某种距离。设 s 1, s 2, s 3 D 维空间中 3 个目标 ,则目标之 的距离函数 d 应满足以下要求 [3]:
(1自相似性:d (s 1, s 1=d (s 2, s 2=0; (2最小性:d (s 1, s 2 d (s 1, s 1 0; (3
:s (s 1, s 2=d (s 2, s 1 ; (4三角不等性
:d (s 1, s 2+d (s 2, s 3
d (s 1, s 3 常用的距离函数主要是欧氏距离和城市距离 ,本文的匹 配中只需要比较指纹中
0/1 个数的不同 ,因此,对每帧指纹 数据的匹配选用计算较简单的城市距离 ,其计算公 式为
121(, D
C k k k d s s x y ==- 其中, x k y k 分别是目标 s 1 s 2 提取的内容索引 ; D 表示索引总数目。当 对象
s 1
s 2的距离 d C (s 1, s 2 , Ts 1 s 2是相似的。
3 实验与分析
实验数据采用电视台节目录音 (立体声、 44.1 kHz 16位采样 , 包括湖南卫 视、广东卫视、四川卫视、 CCTV8 CCTV10 等十多个电视频道的录音。计算 机配置:Pentium D 3.0 GHz CPU, 1 GB RAM,编程工具为 Visual C++ 6.0+Matlab 7.0。对 2种方法提取的指纹采用的检索算法均为直接逐帧计算城市 距离, d C
12,认为 2帧是相似的 ,然后再计算总相似度,即相似的帧数 /总的帧数 , 2个音频
对象的相似度大于 0.65,即认为是相同的音频。
关于测试音频的选择 ,从实际角度出发 ,应满足以下 3个条件:
(1由于测试音频都是从某一个音频片段中截取出来的 , 如果只选取出现一次的
音频作为测试音频 ,由于其波形数据与待检音频片段完全一致 ,不能说明实验效果 , 此本文选取现有音频片段中重复次数较多的广告作为测试音频。
(2尽量选取在不同音频片段中都有出现的广告作为测 试广告,因为不同的音频
片段录音的时间、环境等不同 ,可以更好地验证实验的效果。
(3选取不同长度的广告以测试实验效果 , 包括长度为 4 s, 5 s, 10 s, 15 s, 29 s的广告。
笔者在标记现有音频片段时发现 , 除了一些电视购物广告很长外 ,其他广告长度 一般为以上长度。
本文方法与哈希指纹法的检索结果比较如表 1所示。 1 2种方法检索结果比较 本文方法哈希指纹法
音频片段总时长
4 h 35 min 7 s 4 h 35 min 7 s
测试广告数目 31 31 音频片段数目 57 57 广告实际个数 131 131 检测到的个数 131 131 错检个数 0 0 漏检个数 0 0 查全率 /(% 100 100 查准率
/(%
100 100 可以看出 ,在无任何攻击的情况下 , 2种方法的查全率 和查准率均为 100%。哈 希指纹 [5]对每个音频只提取前 3 s的信息作为指纹 ,这样,不管是几秒长的广告 , 只对前 3 s数据提取指纹 ,对时间长的音频提取指纹虽然可以达到实 时甚至非常 快的效果 ,但是,一旦前
3 s的数据发生篡改或 受到噪声的干扰 , 那么, 提取的指纹将 发生面目全非的改变 , 对检索结果的影响是巨大的。
如果提取音频整个长度的信息作为指纹 ,使用本文的方 法和哈希指纹法 [5] 提取 不同长度音频指纹的时间花费 (只包
括从 wav 数据中计算指纹的时间 , 并不包括解码所需的时间 如图 2 所示。
5 10 152025 30 10203040506070 /s
音频时长 /s
哈希指纹法 本文的方法
2 2 种方法提取指纹的速度比较
实验数据采用电视台节目录音 (立体声、 44.1 kHz 16

采样 , 包括湖南卫视、 广东卫视、 四川卫视、 CCTV8 CCTV10 213
等十多个电视频道的录音。计算机配置 :Pentium D 3.0 GHz CPU, 1 GB RAM, 程工具 Matlab 7.0。从图 2可以看出
, 本文的方法比哈希指纹法 [5] 在速度上有显著提高。哈希指纹 方法每帧数据约为 0.37 s, 且重叠比例为 31/32 为方便计算 , 本文对 44.1 kHz的数据每帧长度取 16 384,每帧移动长度为
16 384 ×1/32=512, 长度 N 的音 频的帧数 (N - 16 384+512/512。提取
指纹的时间主要为傅里叶变换所花费 的时间 t f , 其时间复杂度为 O (n log n , 则哈 希指纹法 [5] 所需 间为
t h = 16 384 lb ×16 384 (N×
-16 384+512/512 在本文方法中 ,每帧数据长度为 1 152,无重叠。长度为
N 的音频的帧数为 N /1 152, 提取指纹的时间为 t n =1 152 lb× 1 152 N× /1 152 16384lb16 384(16384512 /5121152 lb1152/1152f n t N t N × × - += × ×
由此可知哈 ,希指纹法 [5] 所需时间为本文方法的 30

在实验中,本文对其中一半以上的测试音频 (包括长度为 4 s, 5 s, 15 s, 29 s的广 在检测过程中进行了实时播放 ,即边检 边播放 , 播放过程中并无中断 ,表明可以达 到实时要求。
4 结束语
本文提出一种快速的特定音频指纹提取方法 ,通过对整 个音频依次提取相邻 2 帧的差异作为指纹值 ,无须嵌入其他 数据就能实现指纹的快速提取 ,满足特定音频检 索的实时要 ,音频局部发生篡改或噪声干扰时 ,仍能保证检索的准 确性。 后继 工作将在提高指纹相似度和提高检索效率上展开。
参考文献 [1] 李恒峰 , 李国辉 . 音频信息检索 [J]. 计算机工程
, 1999, 25(8: 78-80. [2] Foster S, Schloss W, Rockmore A J. Towards an Intelligent Editor of Digital Audio: Signal Processing Methods[J]. Computer Music Jounal, 1982, 6(1: 42-51. [3] Uitdenbogerd L, Zobel J. An Architecture for Effective Music Information Retrieval[J]. Journal of the American Society for Information Science and Technology, 2000, 2(5: 34-37. [4] 周鸿飞 , 杨晓元 . 基于混沌和系数均值统计特性的音频指纹方
[J]. 计算机工程
, 2008, 34(13: 142-144. [5] Haitsma J, Kalker T, Oostveen J. Robust Audio Hashing for Content Identification[C]//Proc. of CBMI ' 01. Brescia, Italy: [s. n.], 2001. 编辑
顾姣健
上接第 193
FC 噪声的小波分解 , 利用小波实现 FC 的消噪变异 , 并进 行了实验。本文的 工作表 ,这种方法是可靠和可行的 , 于拓展浮点数编码遗传算法的应用空间具有 积极的意义。
参考文献
[1] Eshelman L, Schaffer J. Real-coded Genetic Algorithms and Interval Schemata[M]. San Francisco, USA: Morgan Kaufmann Publishers, 1993: 187-202. [2] 雷得明 . 多维实数编码遗传算法 [J]. 控制与决策 , 2000, 15(2: 239-241. [3] , 林土胜 , . 基于变异的紧凑遗传算法 [J]. 计算机
工程
, 2008, 34(4: 207-208. [4] Ondelettes M Y. Filtrers Miroirs en Quadrature et Traitement Numerique de L ' image[M]. Hermann, Paris: [s. n.], 1992. [5] ?ksendal B, Proske F. White Noise of Poisson Random Measures[J]. Potential Analysis, 2004, 21(4: 375-403. [6] Cui Mingyi. An Improved on Float-coded Genetic Algorithm Based on Wavelet Denoising Mutation[C]//Proc. of the 7th World Congress on Intelligent Control and Automation. [S. l.]: IEEE Press, 2008: 2053-2058. 编辑 顾逸斐

上接第 210
比较图 5、图 6可以看出,改进算法的恢复效果较好。 从图 7也可以看出,改进 算法支持嵌入式码流特性。表 1为改进算法与原 EZW 算法编解码性能对比结果。
1 改进算法与原 EZW 算法编解码性能对比 算法 编码 时间 /s 解码 时间 /s 均方 误差 峰值信噪比 /dB 编码符号流 /KB
原始 EZW 算法 22.21 12.52 0.4951.23 85 EZW 算法
17.60 11.21 0.49 51.23 21 从表 1 可以看出 ,改进算法比原始算法无论是编码时间 还是解码时间都有减少 且其编码符号流只有原始算法的 1/4。由于 EZW 算法本身是无损压缩 ,因此未对 2 种算法的 均方误差或峰值信噪比进行比较。此外 ,改进算法由于移除 了副扫描编码 处理过程 ,因此省去了存储重要系数位置信息 的比特数。而且从硬件的实现上来看 2 次主扫描可以同时 进行 ,这样可以进一步提高编 / 解码的速度。
5 结束语
由于小波系数 (尤其是低频部分 较大 ,因此扫描次数较 ,从而影响整个算法的 编解码速度。本文提出的改进的

EZW 算法通过将小波系数进行预处理分解成 2 组较小的小波 系数,并移除 EZW 算法中的副扫描过程 ,从而减少了整个 算法的扫描次数 ,而且省去了存储重要 系数的位置信息的比 特数。在 PC 机上用 Matlab 软件对该算法进行了仿真。结果 表明,与原始的 EZW 算法相比 ,该算法的编 /解码速度有了 一定程度上的提高 ,其需 要编码的符号流也大大缩减 ,而且 在解码时保留了其嵌入式的码流特性 ,解码图像的 质量也较 为令人满意。
参考文献
[1] Shapiro J M. Embedded Image Coding Using Zerotrees of Wavelet Coefficients[J]. IEEE Transactions on Signal Processing, 1993, 41(12: 3445-3462. [2] 刘文耀 . 小波图像编码与专用 VLSI 设计 [M]. 北京 : 电子工业出
版社
, 2006. [3] 张春田 , 苏育挺 , . 数字图像压缩编码 [M]. 北京 : 清华大
学出版社 , 2006. 编辑

一种快速的特定音频指纹提取方法概要

相关推荐