2. 在一种计算机信息检索的模型中,一个文件是由一些关键字组成的,而一个倒排文件是由含有某个关键字的所有文件组成的。一次查询的输入是一个关键字,输出是这 个关键字的倒排文件,一次查询的开销就是包含这个关键字的文件个数。多次查询就是查询一个关键字序列(其中可能有重复关键字)中的每个关键字,多次查 询的开销是 各次查询的开销之和,其中重复查询同一个关键字的开销之只计算一次。假设关键字和文件的个数都是有限的,试用集合论或图论的术语来描述这个模型,并给出上述斜体字 概念的形式化定义。
解答与评分标准:
集合论:
文件集合 D={d1,d2,…,dn},关键字集合K={k1,k2,…,km},倒排文件集合
K’={k1’,k2’,…,km’ }与关键字集合K 一一对应。D 包含于P(K),K’包含于
P(D),ki 属于dj 当且仅当dj 属于ki’(4 分)。查询是从K 到P(D)的函数
Q:K→P(D),查询k 是求Q(k)(2 分),查询k 的开销是|Q(k)|(2 分)。
多次查询(s1,s2,…,st)就是求(Q(s1),Q(s2),…,Q(st)),多次查询的开销是对不
同的si 求|Q(si)|之和(2 分)。
图论:
二部图 G=,D 为文件集合,K 为关键字集合,E 为边集合,(d,k)是E 中的边当且仅当文件d 含有关键字k(4 分)。文件d 的内容就是d的相邻顶点集合(邻域),倒排文 件k 的内容就是k 的邻域,查询k 就是求k 的邻域(2 分),查询k 的开销就是k 的度数(2 分)。多次查询就是求一组关键字的邻域,多次查询的开销就是这组关键字顶 点的度数之和,重复关键字只计算一次(2 分)。
本文选自新东方在线论坛。
本文关键字: 2015年同等学力计算机 同等学力
推荐阅读
更多>>第一,分析考纲: 很多时候你对比今年的考纲和去年的考纲,你会发现内容完全相同,但还是要求考生对基本知识要熟练掌握,强调对系统
2017同等学力申硕计算机类专业冲刺复习技巧
2017同等学力申硕计算机基础模拟试题(1)
2016同等学力申硕计算机复习进行中,新东方在线分享相关习题训练,帮助考生更好的复习! 2016同等学力申硕计算机基础练习题汇总序号...
2016同等学力申硕计算机复习进行中,新东方在线分享相关练习题,赶快来练习吧! 2016同等学力申硕计算机基础练习题(4) 1. 证明...
阅读排行榜
相关内容