一种快速的特定音频指纹提取方法概要

发布时间：

— 211—
一种快速的特定音频指纹提取方法张敏 1,2,欧阳建权 1,2,李泽洲 1,2,刘炜 1,2
(1. 湘潭大学智能计算与信息处理教育部重点实验室 ,湘潭 411105; 2. 湘潭大学
信息工程学院 ,湘潭 411105
摘要 :针对当前音频哈希指纹方法不足以满足特定音频 ( 如广告的实时监测问题 ,提出一种快速的特定音频指纹提取方法 ,通过提取每帧感知最相关的频域信息 ,将其分为 33个频带,并提取相邻 2帧相邻频带的差异作为指纹值 ,每帧提 32个 0/1 值。实验表明 ,与现有方法相比 ,该方法在保证音频检测准确性的同时 ,能实现指纹的快速提取。关键词:音频;指纹提取 ;音频哈希指纹法
Fast Fingerprint Extraction Method for Specific Audio ZHANG Min1,2, OUYANG Jian-quan1,2, LI Ze-zhou 1,2, LIU Wei1,2 (1. Key Laboratory of Intelligent Computing & Information Processing, Xiangtan University, Ministry of Education, Xiangtan 411105; 2. College of Information Engineering, Xiangtan University, Xiangtan 411105 【 Abstract 】
In view of the current audio hash fingerprinting method is not sufficient to meet the real-time monitoring for specific audio(e.g. advertising, this paper presents a fast fingerprint extraction method for specific audio. It extracts the information with the most relevant perception of each frame in frequency domain and divides the information into 33 bands. It extracts the differences between the equivalent bands from adjacent frames as the fingerprint. For each frame, 32 0/1 values are computed. Compared with existing method, this method ensures the accuracy of detection and extracts fingerprint rapidly at the same time. Key words】
audio; fingerprint extraction; audio hash fingerprinting method
计算机工程 Computer Engineering第 36卷第 2期
Vol.36 No.2 2010年 1月
January 2010 ·多媒体技术及应用 ·文章编号 :1000— 3428(201002— 0211— 03 文献标识码 :A 中图分类号 :TP37
1 概述
随着互联网与数字媒体技术的发展 ,每年都将新增海量的音频数据 ,人们能够更加方便、快捷、经济地接触到数字媒体 ,多媒体数据也已成为互联网信息高速公路上传送数据的主要部分。声音媒体是除视觉媒体外最重要的媒体 ,占总信息量的 20%左右 [1] 。同时 ,大容量高速存储系统为声音的海量存储提供了基本保障 ,各行业对声音媒体的使用越来越广泛。因此 ,如何从海量的声音信息中快速检索所需要的信息已经成了亟需解决的问题。
许多国家的广播电台必须为播放的音乐支付版税 , 因此, 版权所有者希望监测电台播放 ,以确认所播放的音乐是否支付版税。即使在电台可以免费播放音乐的国家 , 版权所有者也有兴趣监测电台播放的统计数据。广告客户也希望监测电台及电视台的广告播出 ,以验证商业广告是否按商定的时段和按量播出。同时 ,国家监管部门也希望监测电台和电视台是否播放违禁广告。其他应用还包括电台和电视台的节目材料统计分析和国家的法律实施强制播放监测等。然而 ,当今媒体数据更新如此之快 ,要实现实时监测 ,必须有快速的搜索策略。由于音频信号本身的复杂性 ,传统的检索技术并不适用于音频领域 ,人的感知特性使得音频的相似性度量变得更为复杂多变。研究表明 ,对于一首歌曲即使改换相似的音符,甚至拉长音符、改变间隔也还能保持原有声音的幅度轮廓等属性 [2] 。以往的音频研究工作 ,尤其是音乐的信号分析和检索技术主要是基于符号表示 ( 如 MIDI , 但大多数现有的数字音频数据多以
无结构的声
音文件存储 ,因此,符号表示的应用很有限 [3] 。
目前 ,对音频检索的研究主要基于指纹展开 ,音频指纹
的研究分为 2个方向 :(1基于水印嵌入的指纹方法。文献 [4]提出一种基于混沌和系数均值统计特性的音频指纹方案 ,通过用户信息生成的混沌映射初值应用混沌方法生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中 ,这种方法具有一定的鲁棒性 ,但需要嵌入多余的数据。 (2 基于内容的指纹方法。文献 [5]提出一种鲁棒的音频哈希指纹方法,对相邻 2 帧提取频域能量的差异作为哈希指纹 ,但是这种方法速度比较慢 ,不能满足特定音频 (如广告的实时监测。鉴于此

一种快速的特定音频指纹提取方法概要

推荐内容

相关推荐

课堂教学改革汇报材料

中学生古诗文阅读大赛专辑初中文言文1-20(含原文、译文及问题详解)

创建文明城市-医院培训讲学

秋季开学工作检查通知

大班美术欣赏教案《纸绳贴画》含反思.

2020年示范单位创建的主要内容和总体目标文明单位创建目标3篇汇总

针砭时弊的英语演讲稿doc

我爱秋季的作文

小学实验室领导小组及职责

7 诗三首