查准率和查全率之间的关系

发布时间:

维普资讯http://www.cqvip.com
2006年4月 情报探索 第4期(总102期) 
查准率和查全率之间的关系 
沈建人 
(南京邮电大学经济管理学院
江苏210003) 
澄清了学术界对查准率和查全率关系争论中的一些不正确的观点。通过对查准率和查全率的 
概念分析,得到了定性的结论:查全率依赖于查准率,查准率的提高有利于查全率的提高。通过对两者间关 系的数学推导,得到了查准率和查全率之间一般性的定量关系。 
关键词信息检索 查准率查全率  查准率和查全率关系之争论 
在信息检索研究领域,对于查准率和查全率的 关系,学术界有争论。 
Michael Cordon和张保明等人认为查准率和查 全率两者是互逆关系。这一观点形成较早,影响很 大,它最早来源于英国Cleverdon C.w.的Cranfeld 实验。但邓汉成和马景娣等人认为查准率和查全率 之间可以存在互逆关系,也可以存在互顺等其它关 系。而许忠锡等人认为查准率和查全率两者之问不 存在关系。 
许忠锡的文章发表于2004年,晚于Mihael Gordon、张保明、邓汉成和马景娣的文章,应是最新 的研究成果。但遗憾的是,许的文章中的推导是错 误的。现将其推导过程简述如下: 
集合A为文档库中与检索查询项相关的所有 文档,集合B是由检索引擎检索出来的所有文档, 集合c是文档库中的所有文档。集合a=A nB,表 示检索所得的与查询项相关的文档,见图1。 
O 
圈1检景结果的集合袅示 圈2查全军R的解析襄达 
显然,查全率R=f(a)=a/A。在以R和a为坐 
标轴的平面坐标系中,R是一条以1/A为斜率的直 线。根据检索实际情况,有 
a E[1,A],R E[0。1] 
从而该直线斜率小于1(因为A>1),倾角变化 范围为(0—45),见图2。 
查准率P=g(a,B)=a/B。这是以a、B为变量 的算式,P随a、B变化而变化。P=g(a,B)在以P、 a、B为坐标轴的立体坐标系中是一个曲面,见图3。 图3中,XZ是该曲面的上端边线(点z中bl=a1), OW是XZ在aOB平面内的投影。其中: 
a∈[1,A],B∈[1,C],P∈[0,1] 由a≤B,知曲面P=g(a,B)的点在aOB平面上 
32 
的投影必须在OWb。围成的区域内。从而,得出必 
须在三角形区域OWb。的正上方讨论P的变化这一 结论。 
R 
图4 B、RIt叠示意图 
R=a/A=(AnB)/A。因为B是变量,所以可 
以认为R受B的变化而变化。这样就有条件将图2 中的R轴和图3中的B轴重叠起来考虑问题。R 轴和B轴重叠后,a、P、B轴坐标单位不变,见图4。 给定a。,就有相应的查全率R。。由图4可知,在 、 a。确定的情况下,在平面R=a/A上无法唯一确定 相应的查准率。类似地,给定a0,在WObI三角区域 里有多个b值可以对应(如b。处),因此,在R轴上 也就找不到唯一对应的R值了。如果要确定查准 率和查全率之间确实存在关系,那么空间平面R=f (a)和曲面P=g(a,B)必须相交。由两面相交形成 的空间曲线上的点必定同时满足R、P的计算。该 空间曲线就是查准率和查全率关系在三维坐标系上 的解析表示形式。将该曲线投影到P—R平面上就 可以得到两者变化关系的平面曲线。但在上述讨论 中,已经得出两个结论。结论:(1)空间平面R=f 

查准率和查全率之间的关系

相关推荐