个人会议标准PCSPersonalConferencing-南京广播电视大学

发布时间:2018-10-07 16:00:08

第七章 多媒体计算机的应用技术

考核目的:

考核学生对多媒体电子出版物的创作流程、视频会议系统、多媒体数据库及基于内容检索等内容的理解和掌握。

考核的知识点:

什么是电子出版物、电子出版物创作流程、视频会议系统的结构和标准、多媒体数据库及基于内容检索等内容。

考核要求:

掌握:多媒体电子出版物的创作流程、视频会议系统的组成和基本的工作原理。

了解:多媒体数据库及基于内容的检索。

1 多媒体电子出版物的创作

7.1.1多媒体电子出版物

概述

多媒体电子出版物包括:

电子图书、电子期刊、电子新闻报纸、电子手册与说明、电子公文或文献、电子图画、广告和电子声像制品等

电子出版物的应用类型电子出版物的应用类型

教育应用 (少儿故事、自然科学、音乐、语文、文学、历史等类)

电子图书 (字典、百科全书、经典、参考书籍等类)

旅游与地图 (地图、旅游等类)

家庭应用(医药、娱乐等类)

商业(员工训练、商品介绍、查询服务与浏览等类)

7.1.2 多媒体电子出版物的创作流程

1.多媒体电子出版物创作队伍的组织与管理

2.多媒体电子出版物工艺过程

多媒体制作队伍的组织结构

多媒体电子出版物的工艺过程

选题的原则

实用性

小而精

面向中小学生教育

选择题目时应考虑的问题

      使用者范围、消费能力、采购动机;

      主题内容、资料版权;

      表现策略;

      播放环境;

      开发成本、周期、资源;

      价格定位;

       发行量;

       成本效益;

       市场竞争力;

       投资回收率;

       软件内容复杂程度;

        可行性分析。



编写多媒体脚本

多媒体脚本是多媒体电子出版物的核心。由于多媒体产品的特点不同,其脚本格式和表述方法也不尽相同,但脚本创作者应把握多媒体的本质及特点,即多媒体的集成性和交互性。多媒体脚本某种程度上和电影剧本很相似,最终应细化为“分镜头”剧本,包括版面设计、图文比例、显示方式、色调、音乐的节奏和交互方式等。



具体内容如下:

制订节目目标、大纲于表现手法;

流程图与故事分镜头表;

节目系统功能规划;

交互式功能规划;

定义制作环境平台于播放系统(硬件于软件工具);

屏幕画面设计;

使用者界面设计/交互式设计;

各类媒体脚本撰写:文字、图形、图像、声音(包括音乐)、动画、影视脚本;

商品化包装设计;

 设计文件撰写与评估;

系统制作

由软件工程师根据预先编写好的多媒体脚本,将各种制作好的文字、图形、音频、视频、动画等多媒体资料,利用现成的编辑工具、著作工具或程序进行集成,生成最终产品。



产品测试、优化

系统制作完毕后,必须作彻底的检查,改正错误,修补漏洞。有可能的话还要进行优化,比如版式设计是否漂亮,速度是否可以提高等等,具体内容如下:

节目内容的正确性测试;

系统功能测试;

安装测试;

执行效率测试;

兼容性测试:跨平台;

内部人员测试;

外部人员测;



生产、发行: 经过检查、优化,确认没有任何问题后,就可以“烧”金盘了。“烧”金盘必须有专门的设备,比如Sony公司的CDW-900E Recording Unit。如果不“烧”金盘,也可以将你的全部文件存到磁带上,拿去生产厂印制。

生产厂把你的数据刻制成母盘,然后就可以上生产线生产了。

与此同时,还需要制作一些使用说明书、产品包装、宣传材料等。

7.1.3多媒体电子出版物创作示例

由清华大学和中国人民银行电教中心于1997年共同完成了多媒体电子出版物《金融博士》的创作任务,已出版了一套两张光盘,作为一个创作示例简述如下

《金融博士》功能设计框图(A

《金融博士》功能设计框图(B

技术特色及性能指标

1)多媒体系统集成的技术

2)开发JPEG图像处理系统

3)中文快速检索技术

4)扩展著名著作工具Authorware3.5的功能,以保证用其开发的光盘功能齐全先进。

5)自动排版技术

6)多媒体动态显示技术:

7)分层次阅读与灵活跳转

8)摘编打印技术

9)多种编程方法结合

10)创意编辑独特,突破了传统编写百科光盘的做法,先出版书籍,再把书籍制作成光盘图书。

11)内容丰富先进

12)表现形式生动形象

13)界面友好,功能强,使用方便

14)表现形式规范

7.2.1 视频会议系统的结构及标准

一、视频会议系统的分类

1.点对点视频会议系统

1.点对点的视频会议系统

可视电话

台式机台式机视频会议

会议室会议室视频会议

多点视频会议系统

2.多点视频会议系统

多点视频会议系统允许三个或三个以上不同地点的参加者同时参与会议。多点视频会议系统一个关键技术是多点控制问题,多点控制单元(MCU)在通讯网络上控制各个点的视频、音频、通用数据和控制信号的流向,使与会者可以接收到相应的视频、音频等信息,维持会议正常进行。

二、视频会议系统的结构

它主要由视频会议终端、多点控制器、信道(网络)及控制管理软件组成。

视频会议系统结构框图

视频会议系统终端的主要功能是:完成视频信号的采集、编辑处理及显示输出、音频信号的采集、编辑处理及输出、视频音频数字信号的压缩编码和解码,最后将符合国际标准的压缩码流经线路接口送到信道,或从信道上将标准压缩码流经线路接口送到终端中。此外,终端还要形成通信的各种控制信息:同步控制和指示信号、远端摄像机的控制协议、定义帧结构、呼叫规程及多个终端的呼叫规程、加密标准、传送密匙及密匙的管理标准等。

三、视频会议系统的标准

1. H系列 国际电讯联盟 ITU

H.320

H.323

H.324

2. T系列 国际电报电话咨询委员会 CCITT

T.120

3. 个人会议标准PCS (Personal Conferencing Specification )

1. H系列的建议和标准是专门针对交互式电视会议业务而制定的

2. T系列是针对其它媒体的管理功能作出规定

3. PCS系列多家计算机和通信公司联合制定的个人会议标准(Personal Conferencing Specification)。

1. H.320系列标准

H.320系列标准是会议系统中应用最早,最为成熟的协议,支持ISDNE1T1,带宽从64Kbps2Mpbs ,几乎所有会议系统厂家都支持。

H.320标准系统框图

H.320系列标准包括了视频,音频的压缩和解压缩,静止图像,多点会议,加密及一些改进的特性。

H.320可分为五个部分:通用体系,音频,多点会议,加密,数据传送等。目前包括15个标准。

H.221 多路复用/解复用

定义了64k1920k视听服务信道帧结构不同媒体的连接机制,空间和时间上的同步归范。

H.261视频编码和解码标准 采用CIF通用的中间格式并容于不同的电视制式。

音频编码解码标准:

G.722 64kbps PCM电话质量(3.5KHz)

G.(721)722 48/56/64kbps ADPCM

G.728 16kbps LD-CELP 语音压缩标准

H.230传递帧同步控制和指示信号。

H.242数字信道会议电视中端之间建立通讯和设置呼叫的规程,H.320设备间传递协议。

H.243主要处理多个终端之间建立通讯的过程,它定义了H.320 CODEC MCU之间的控制过程。

H.231定义了多点控制单元。

H.231H.243主要通过MCU桥接各个视听终端,MCU将向各终端发SCM信号以实现对视频、画面、声音的选择切换。是多点通讯控制的暂时解决方案。

H.244 是信道远端摄象机控制协议。

H.281H.224采用视频链路的控制摄象机协议。

H.233设备加密标准(H.320)

H.234确定在不同点之间传递密匙管理标准。

H.323 LAN(QOS保证)

H.320 ISDN

H.323 (QOS保证)LAN

H.324 GSTN (General Switch Telephone Network)普通交换电话网。

H.323标准系统框图

ITU标准间的互操作

H.324标准系统框图

系列国际标准的组成及应用

2. T 系列标准

(1)T.120是国际电信联盟通信标准部开发的系列国际标准。

(2)T.120由三部分组成:

(a). T.123传输规程框架

规定了不同的网络之间的连接

V调制解调器的共同交换网

X.25数据交换网

ISDN和电路交换数据

(b). 多点通信业务(MCS)

T.122T.125 定义和规范。

(c). T.124 普通会议控制(GCC)

建立终止会议、会议协商能力、通用会

议的管理(参加会议计算、主持人控制功能)

GCC也装备了安全机制(口令编码保护,限制未被邀请的人参加会议。)

还提供了两个高层规范:

T.127为用户提供同时初始化多点文件转移能力。

T.126它允许用户在多点文件会议中查阅图像,对它进行注释、共享应用程序和交换传真图像。

T系列国际标准

G.7XX语音压缩编码标准

3. PCS标准

Intel 公司与150个计算机和通信公司成立了

一个个人会议工作小组(PCWG)1994年制定了一个个人会议标准:PCS (Personal Conferencing

Specification)其目的是基于文本的会议可以在各种操作系统、硬件平台和传输媒体中操作。与H.320不同,PCS是专为个人计算机设计的,并与各种个人计算机标准兼容,其中包括TAPITSAPI两种电话APIIntel公司的IndeoIntel Video 编程和解码及Microsoft 公司的DVI图形/图像标准接口。

由于基于微机的桌面会议系统日益增多,由IntelAT&TLotusHPDEC和另外11个主流软硬件公司,以及96个计算机和通信公司联合成立了一个个人会议工作组,简称 PCWG (Personal Conferencing WorkGroup)它于1994年制定了一个个人会议标准 ( PCS Personal ConferencingSpecification)适合于任何网络(数字、模拟、LANWAN)此标准包括 PCSS T120ITU-T桌面系统多点电视会议视频压缩协议。

T系列国际标准

G.7XX语音压缩编码标准

3. PCS标准

Intel 公司与150个计算机和通信公司成立了一个个人会议工作小组(PCWG)1994年制定了一个个人会议标准:PCS (Personal Conferencing

Specification)其目的是基于文本的会议可以在各种操作系统、硬件平台和传输媒体中操作。与H.320不同,PCS是专为个人计算机设计的,并与各种个人计算机标准兼容,其中包括TAPITSAPI两种电话APIIntel公司的IndeoIntel Video 编程和解码及Microsoft 公司的DVI图形/图像标准接口。

由于基于微机的桌面会议系统日益增多,由IntelAT&TLotusHPDEC和另外11个主流软硬件公司,以及96个计算机和通信公司联合成立了一个个人会议工作组,简称 PCWG (Personal Conferencing Work Group)它于1994年制定了一个个人会议标准 ( PCS Personal Conferencing Specification)适合于任何网络(数字、模拟、LANWAN)此标准包括 PCSS T120ITU-T桌面系统多点电视会议视频压缩协议。

7.2.2 综合业务多媒体终端的设计与实现

综合业务多媒体通信终端可以广泛用于多媒体通信、交互式分布多媒体系统,特别是各种计算机支持的协同工作系统(CSCW)的通用设备,是目前世界各国大力研究的热点课题。由于各种技术发展较快,因此要求总体结构设计要考虑通用性和可扩展性。

19963月清华大学计算机系设计实现了一种综合业务多媒体通信终端(IMCT),它的方案是:终端的软、硬件支撑环境采用多媒体个人计算机(MPC)与清华大学和中国银河公司共同设计制造的满足H.320系列标准的视频音频实时压缩和处理卡VC-1000A

系统应用软件采用模块化结构,如视频讨论、多媒体电子邮件、协同编著等,可相对独立运行,又能集成在一个统一的平台上。

.VC-1000A的结构9800视频音频采集处理卡

9810视频音频压缩编解码卡

9820通讯接口卡VC-1000A是综合业务多媒体终端的关键部件,它由下述三块卡组成(如图所示),三块卡在功能上既有联系,又相互独立。

VC-1000A 整体框图

VC-9800原理框图

VC-9810系统简图

软件 :(1)视频信号编解码器的控制模块

2)视频内容显示控制模块

3)视频信号数字化处理模块

4)声音压缩解压缩模块

5DSP 2101/2107 Boot 代码模块

6DSP-VCP通讯协议模块

7VCP 图像通讯协议微代码

8Windows总控模块

第一层与硬件有关,与操作系统无关,支持硬件的最基本操作增强模式虚拟设备驱动。

第二层是结构和执行层Construct layer and Executire layer

程序流程图

举例:

应用程序要完成一个对象在参考帧内定位,应用程序把直角坐标x,y传递给执行

层,执行子层判断参数有效性后将参数转化为线形地址送到结构子层,它把对象有

关数据进行收集整理,转化为寄存器值,传送给虚拟设备驱动器经过硬件执行达到

应用程序要完成的任务。

建立数据流单元:

DFUData Flower Unit初始化所用视频容器,建立设备上下文。VDC-Video DeviceContext一个Windows程序在写显示内存之前必须分配给设备上下文一个句柄。

.应用软件

视频讨论 邮件处理

协同编辑 本地功能 邮匙管理

多媒体邮件 本地地址薄管理

外部程序接口

邮件处理:邮件接收、编辑、阅读、转发、回信发信、打印、转出到外部文件、从外部文件输入功能。

最基本: 信封编辑 编辑 邮件选项设置

信体编辑多媒体信息处理系统 MIPP

解决办法:X.400协议

增加多媒体处理模块

MIPS (Multimedia Information Processing System)

MIPP (Multimedia Information Processing Protocal)

好处:

1. 充分利用现有非常成熟的电子邮件系统。

2. 对本地代码进行较小的修改。

3. 单独的多媒体电子邮件出现前均可按自己的倾向和方式构造多媒体电子邮件。

7.2.3 视频会议系统的设计和实现

综合业务多媒体终端的设计:

视频、音频的输入

视频、音频压缩编码和解码问题

多媒体信息处理

控模块

7.2.3 视频会议系统的设计和实现

视频会议系统的结构

多点控制单元的工作原理与实现技术多点控制单元的结构原理及会议控制视频会议系统的资源管理视频会议系统的安全保密

视频会议系统的结构终端

多点控制器

信道(网络)

控制管理软件 QOSQuality of Service

安全保密

视频会议系统结构框图

多点视频会议系统典型结构多点视频会议系统典型结构下图所示。

网络:LANN-ISDNB-ISDN及专用网

多点控制器

终端

典型结构图二. 多点控制单元的工作原理与实现技术MCU-Multipoint Control Unit

主要组成:

1.网络接口单元

2.多路复用与解多路复用

3.视频、音频、数据、控制密匙及呼叫处理

网络接口单元输入:校正输入数据流H.221 定义帧结构FAS信息。

输出:定义输出码H.221 H.230(传递帧同步控制和指示信号,传递控制信息)

BAS码和相关信合形成 信道帧以便输出到数字信道。

一个网络接口单元可支持多个逻辑端口。

2. 多路复用和解多路复用器进入解多路复用器信号,符合H.221

议的数据流。

(1). 帧恢复 帧定界(帧定位)

(2). 缓冲 同步及相关多个通道的定序

(3). BAS的分解相应信息送到控制处理器。

(4). 加密码的分解及解密

5). 分音频——>音频处理器

(6). 分视频——>视频处理器

(7). 分数据——>数据处理器

模式控制BAS,保证音、视、数据的时序关系。

3. 音频处理器

语音代码转换器和语音混合模块,完

成语音处理。编码器---形成合适的编码,

延时小于30ms

4. 视频处理器

进行视频切换,信道帧送到各个会场。

视频混合,MCU对多路信号进行混合处理。5. 数据处理

H.243数据广播功能

H.243主要处理多个终端之间建立通讯的过程,它定义了H.320 Codec MCU之间的控制过程。在数据广播时,任一时刻只能接

收一路LSD(低速数据)和一路高速数

HSD ,广播由控制处理器按照接收这种数据的能力决定的相连终端。 (1). 处理远端信息。

(2). 传输会议控制信息(请求/确认信息,主席控制金牌,音频/视频切换)6. 控制处理器

负责确定正确路由、混合/切换及传递给每个多路复用器的音频、视频、数据及

控制信号的格式和时序关系,同时具有会议控制功能。

7. 多路复用器

音频、视频、数据及控制送来的数据组成帧并插入BAS码值。

总之,MCU将各会议终端送来的信号进行分离,抽取出音频、视频、数据、信息

信号——>相应的处理单元——>音频混合和切换、视频切换、数据广播——>确定路由

选择、定时、处理会议控制——>处理后的信号由复用器按H.221格式组帧然后送往相

应的端口输出。

MCU与终端及MCU之间的连接方式

有星型、哑铃形、MCU星型及分层结构。

MCU的控制方式:

(1). 语音控制

(2). 强制显象控制

(3). 主席控制

呼叫方式:

(1). 相连呼叫 Meet-me style

(2). 呼叫输出方式 Call-Out style

(3). 呼叫通过方式 Call-through style

会议在等着呼叫MCU然后再由MCU呼叫其他与会者。

具体实现:开关矩阵控制器及带有控制程序的单片机。

1. 帧结构

2. 帧内同步

. 多点控制单元的

结构原理及会议控制MCU-Multipoint Control Unit

功能:对图象、语音、和数据进行切换。

结构原理:

1、网络接口,呼叫控制

2、多路复用和解复用

3、音频、视频、数据控制处理器MCU的结构原理

. 视频会议系统的资源管理

1QOS问题:

需求和业务是量化的描述。

QOS管理

QOS标准

QOS主音 统一的问题

2、安全保密的问题

. 视频会议系统的安全保密

安全系统应用于两个终端

或一个终端和一个多点控制器

MCU)之间的点对点连接,

当然也可以扩展到多点环境中

具体满足。

视频会议系统中安全保密结构图

安全性与系统提供的其它保密业务无关,可以由其它机制提供密钥,或者也可以手工输入。

它适用H.221建议的视声成帧信号。

给所有用户的信号在同一密钥下一起进行加密,保证传输安全保密。

系统所采用的加密方案是可扩充的模块化方法,它便于加密算法的更新。

系统的安全保密机制能够工作在点对点的视频会议系统中,也可以工作在多点会议系统中,此时允许MCU进行解密。从应用角度来看,一个安全密码系统应包含如下功能:

秘密性(secrecy ):密文对非法接收者来说,不可被译;

可验证性(authenticity):可验证信息来源的合法性,检验信息是否伪造,或以前信息的全发;

完整性(integrity ):可检验信息是否被更改,取代或删除;

不可否认性(no repudiation ):发送方对发送的信息不可否认。

视频会议系统中常用的两种加密算法:

(1). FEAL加密算法

(2). DES加密算法

视频会议系统中允许多种加密算法并存。

设计一个视频会议系统要解决的问题:

有一个综合业务多媒体终端

MCU多点控制单元

QOS服务质量

QOS资源的静态管理和动态管理

安全保密

设计一个视频会议系统要解决的问题:

有一个综合业务多媒体终端

MCU多点控制单元

QOS服务质量

QOS资源的静态管理和动态管理

安全保密

7.3.1 多媒体数据库

一、多媒体数据的存储问题

人们对文本透彻理解、广泛应用已有很长一段时间了,而多媒体存储是较新的议题。多媒体存储有一些新的需要考虑的问题:巨大的存储空间、大型对象、多个相关对象、对检索时间的要求等等。

二、多媒体数据的管理

1. 传统数据库有三种模型

关系

层次

网络

2. 多媒体数据带来的问题

主要表现在:

数据量很大,媒体间差量很大,从而影响数据库的组织和存储方法。

媒体种类的增多,增加数据处理的困难,每中媒体都有自己的操作和功能。

数据库的多解查询

纹理、颜色、形状——模糊、非精确匹配、相似性的查询。

用户接口的支持

多媒体信息的分布对多媒体数据库体系带来了巨大的影响。

3. 多媒体数据的管理

字符数据

文本数据

声音数据

图形数据

图像数据

视频数据

三、多媒体数据库体系结构

目前还没有完好的多媒体数据模型,所以还没有标准的多媒体数据库体系结构,现在大多数解决办法是采用扩展现有的关系数据库,一是扩展字段长度,一是扩展为对象,采用面向对象的方案。

1. 组合型多媒体数据库结构

针对各种媒体单独建立数据库,每一种数据库都有自己独立的数据库管理系统。

2. 集中型多媒体数据库结构

各种媒体统一的建模,将各种媒体集中在一起管理和操纵统一的用户接口查询

和检索结果。

3. 客户服务器型

将每一种媒体的管理与操作采用一个服务器来实现,所有服务器的综合和操作也用一个服务器完成,与用户接口采用客户进程实现。

4.超媒体型结构

通过超链接进行各种数据的时实关系。

四、多媒体数据库的层次结构

传统的数据库系统分为三个层次.按ANSI的定义分别为物理模式、概念模式和外部模式。传统的数据库采用这种层次结构是因它所管理的数据而决定的。在这种数据库中,数据主要是抽象化的字符和数值,管理和操纵的技术也是简单的比较、排序、查找和增删改等操作,处理起来容易,也比较好管理。

1.体统数据库的层次

2.多媒体数据库的层次划分

对传统数据库的扩展思路:

最低层增加对多媒体数据的控制与操作,

最高层支持多媒体数据的综合演示与用户查询的描述。

中间层增加多媒体数据的关联和超链接。

多媒体数据库的层次结构

7.3.2 多媒体数据库基于内容检索

基于内容检索系统的体系结构

基于内容检索的关键技术

基于内容检索系统的设计和实现

1. IBM公司开发的QBIC是最具代表性的系统

通过友好的界面为用户提供颜色、纹理、草图、形状等多种检索方法。

系统以示例方式进行查询,查找物体的移动,摄影机的操作。

2. 美国加州大学伯克利分校与加州水资源部和作

Chabot计划,对水利资源部大量图象提供基于内容的有效检索手段。

3. 麻省理工学院

Photo book 可以利用人脸Face ()shape(形状)texture(纹理)

进行基于内容的检索。Virage系统又进一步发展了将多种检索特征的融合。

4. 澳大利亚 New South Wales

澳大利亚 New South Wales(新南威尔士大学)已开发了NUTTAB系统。

用于食品成分数据库的检索。

5. 清华大学计算机系

清华大学计算机系结合863高技术研究发展项目“Web上基于内容图像检索”的研究。

Internet/Intranet通过友好的人机界面可以颜色、纹理或样本图像进行图像检索。

目前该系统已可对12000张学物照片高维特征建立了Gss索引。

采用Java语言来实现人机交互模块。通过浏览器为用户提供界面。

检索请求 转换为cbExpr基于内容的检索表达式,通过检索引擎处理与

网络延迟相比,检索时间基本上可以忽略,体现了较好的实时性。

7.3.2 多媒体数据库基于内容检索

基于内容检索系统的体系结构

基于内容检索的关键技术

基于内容检索系统的设计和实现

一、 基于内容检索的系统结构

基于内容检索的体系结构

基于内容检索的处理过程

1. 基于内容检索的系统结构

现有的许多多媒体数据库系统只提供基本媒体的描述、关键字一类的检索和查询,但很多的应用要求数据库系统能对图像或声音等媒体进行内容语义分析,已达到更深的检索层次。因而有必要讨论多媒体数据库基于内容的检索与查询方法。

1.目标标识:为用户提供一种全自动或半自动(需要用户干预)标识静态图象,视频镜头的代表帧等用户感兴趣的内容区域,以及视频序列的动态目标,以便对目标进行特征提取及查询。

如果进行整体内容检索,可以采用全局特征。这时不用目标识别功能。

2. 特征提取

对多媒体数据进行特征提取,提取用户感兴趣、适合于检索要求的特征。

3. 数据库

生成的数据库由媒体库(),特征库(文件)和知识库组成。

媒体库:多媒体数据 图象、视频、音频、文本。

特征库:用户输入的特征和预处理自动提取的内容特征。

知识库:知识表达。

4. 查询接口

由于特征值是高维向量,它具有直观性。

有三种可视化手段:操纵交互输入方式、 模板选择输入方式及用户提交样板输入方式。

多种特征组合、查询结果的浏览功能。

5.检索引擎

检索是利用特征之间的距离函数,进行相似性检索,得到认知排队。对

于不同的媒体有不同的相似形测度算法。

6.索引/过滤器

索引引擎通过索引/过滤器达到快速搜索的目的。

全部数据 过滤器 新的集 高维特征匹配检索

2. 基于内容检索的处理过程

基于内容的查询和检索是一个逐步求精的过程,存在着一个特征调整,重新匹配的循环过程。

如下图所示。

(1). 首先由用户提交查询要求, 交互式输入方式

或启用上述的查询接口 模板选择输入方式 特征样板输入方式

(2). 相似性匹配

将查询的特征与数据库中的特征按照一定的匹配算法进行匹配。

(3). 返回候选结果

满足一定相似性的一组候选结果,按照相似度大小排列返回给用户。

(4). 特征调整

a. 用户浏览一组初始特征查询结果选择满意的结果。

b. 也可以从候选结果选择一个示例, 进行特征调整。最后形成一个新的

查询,如此逐步缩小查询范围,直到用户对查询结果满意为止。

7.3.2 多媒体数据库基于内容检索

基于内容检索系统的体系结构

基于内容检索的关键技术

基于内容检索系统的设计和实现

基于内容检索的两个关键技术:

多媒体特征提取技术和匹配

相似性检索技术

1. 多媒体特征提取和匹配

2. 相似检索结构

3. 检索表达机制

1.特征抽取

低层特征(原始特征)

特征抽取

高层特征(逻辑特征)

(1). 语言信号的特征提取和匹配

低层特征

高层特征

(2). 静态图象的特征提取和匹配

低层特征:纹理特征,颜色特征,

几何形状特征,统计特征(立方图)等。

高层特征:人的脸部特征、表情特征、某些物体和景物特征。

低层特征可用图象处理方法自动获取;高层特征可以在某些约束条件下或

知识导引下,以低层特征为基础推导得到。

(3). 动态视频特征提取

低层特征:镜头切换类型、特技效果、摄象机运动、物体运动轨迹、代表帧、全景图。

高层特征:描述镜头中的内容或事件。

2. 相似索引结构

检索:

在高维空间中寻找指定点距离最近的一组点的问题。

采用顺序比较法不能满足实时检索的要求,因此需建立一种有效索引结构

和检索方法。

(1). 结构

一维:折半查找。

多维:特征空间分布,数据集切分为子数据集,对每个子数据集建 立描述,检索通过子数据集 描述比较。去掉不符和条件的子数 据集,仅对合格者进行检索和计算,大大减少检索量。

相似检索结构有下述两部分:

1). 数据集描述

a. 对象个数:子数据集的对象个数;

b.闭包:闭包为高维空间中一个封闭曲面,用于描述数据集的空间位置与分布,

使得数据集中所有点都位于此闭包的内容。

c. 代表对象标识,指定一个可代表此数据集的对象标识。

2). 子集指针:指向字数据集的指针。

(2). 相似索引算法分类

根据对下述问题采用不同的方法进行分类:

1). 数据集的切分方法:

定向切分和聚类方法

定向切分:选某一坐标轴为切分轴,选择与此轴垂直的切分平面,将数据集切分为子集,k-d树及其变种。

聚类算法:根据特征空间分布特性采用聚类算法将数据集切分为子集。

2). 距离定义:

A相关矩阵,a 为第i维与第j维相关系数。

3). 闭包类型

闭包是特征空间用于约束数据集在特征空间位置和分布特性的封闭曲面,

使得数据集中所有元素点都位于此闭包内部。

闭包的选择:

a. 紧密:紧紧包围数据集使得无用空间(Wasted Space)最小;

b. 简单,计算方便:计算某一点到闭包的最小和最大距离。

矩形闭包(欧氏距离) bounding box坐标轴分布区域。

球形闭包(最大距离) bounding sphere圆心坐标和半径。

C). 通过索引树GSS

通过索引树GSS-Tree的结构

头结点:存有整个索引结构的公共特性、特征空间维数和距离定义、指针。

节点、节点及其子树中的对象数目(object num)闭包描述(env)子数数目(tree num)指向子树的指针数组(child)

以及指向对象描述数组的指针(obdesp)

闭包描述:闭包类型(type)矩形闭包指针(rect)和球形闭包指针(sph)Rect

sph分别代表矩形闭包和球形闭包的描述,每个闭包有一个代表。代表此

数据集的对象标识(rep-object),一般选择与闭包中心最近的对象作为代

表对象,用于支持浏览检索。

相关算法实现

在基于内容检索过程中,需要完成从特征点集生成索引树以及索引查

找等算法。

三、 基于内容检索系统的设计与实现

随着多媒体技术的迅速普及,Web上将大量出现多媒体信息,例如,在遥感、医疗、安全、商业等部门中每天都不断产生大量的图像信息。这些信息的有效组织管理和检索中都依赖基于图像内容的检索。

为了简述基于内容检索系统的工作原理,我们举下述两例:

清华大学研制的Internet上静态图像的基于内容检索的原型系统

IBM工司开发的QBIC系统

1. Internet上静态图像的基于内容检索的原型系统

清华大学计算机科学与技术系结合国家863高技术研究发展项目“Web上基

于内容的图象检索”的研究,于 1997年研制了一个Internet上的静态图象的基于

内容检索的原型系统。该项目的研究目标是开发能在Internet/Intranet环境下,

通过友好的人-机界面,以颜色、纹理等图象特征或样本图象检索图象的方法和

工具。

1 系统结构

设计系统结构时根据Web技术和信息检索技术的实现特点,划分为检索相

关模块和建库相关模块两部分。

检索相关模块

这个模块包括用户检索时用到的程序和文件,包括Querycgi 程序、

Query server程序、初始配置文件和一些界面相关文件。

建库相关模块

两部分:特征提取和检索生成 特征提取 特征文件;

模块用来对特征文件进行处理,根据相似检索原理生成特征索引

树和特征文件,供建索时使用。此外,建索相关模块还包括一些维护图象的工

具。

2)检索查询界面设计

两种输入手段:

(1). 操纵交互输入方式

用户通过操纵工具调整特征值。

(2). 模板选择输入方式

特征模板(纹理)。用户可以选择与检索特征最接近的模板完成特征值的输入。

正在研究:

(1). 浏览输入

系统提供一组对象,用户从中选择最接近的组,再提供一组,再选择,直

到检索完成。

(2). 样本检索

用户提交一幅图,系统界面提供七种:主颜色、纹理、色调立方图、轮廓、

颜色分布、彩色立方图和主题。

界面结构分成三部分:

检索特征预览

检索参数控制

特征输入区(工作区)

3)提交特征分析

(1). 主颜色(Dominating Color

图片中占较大比重的颜色。

(2). 纹理

提供六种模板(Texture)

(3). 色调立方图

色调变化,赤、橙、黄、绿、青、兰、紫,七色。

(4). 彩色立方图Histogram of HSB

根据HSB建立的立方图。

(5). 颜色分布(Color Distribution

检索效果较好,颜色与位置的属性。

(6). 轮廓(Sketch

查询图片上下两部分的,给一个分

界线。

(7). 主题(Topic

基于内容和基于文本相结合主题词描述图片。

4)检索关键技术

(1). 检索表达

(2). 快速检索算法

个人会议标准PCSPersonalConferencing-南京广播电视大学

相关推荐