2015年同等学力计算机综合模拟(3)

2014-12-18 12:11:18来源:网络

  2. 在一种计算机信息检索的模型中,一个文件是由一些关键字组成的,而一个倒排文件是由含有某个关键字的所有文件组成的。一次查询的输入是一个关键字,输出是这  个关键字的倒排文件,一次查询的开销就是包含这个关键字的文件个数。多次查询就是查询一个关键字序列(其中可能有重复关键字)中的每个关键字,多次查 询的开销是   各次查询的开销之和,其中重复查询同一个关键字的开销之只计算一次。假设关键字和文件的个数都是有限的,试用集合论或图论的术语来描述这个模型,并给出上述斜体字  概念的形式化定义。

  解答与评分标准:

  集合论:

  文件集合 D={d1,d2,…,dn},关键字集合K={k1,k2,…,km},倒排文件集合

  K’={k1’,k2’,…,km’ }与关键字集合K 一一对应。D 包含于P(K),K’包含于

  P(D),ki 属于dj 当且仅当dj 属于ki’(4 分)。查询是从K 到P(D)的函数

  Q:K→P(D),查询k 是求Q(k)(2 分),查询k 的开销是|Q(k)|(2 分)。

  多次查询(s1,s2,…,st)就是求(Q(s1),Q(s2),…,Q(st)),多次查询的开销是对不

  同的si 求|Q(si)|之和(2 分)。

  图论:

  二部图 G=,D 为文件集合,K 为关键字集合,E 为边集合,(d,k)是E 中的边当且仅当文件d 含有关键字k(4 分)。文件d 的内容就是d的相邻顶点集合(邻域),倒排文  件k 的内容就是k 的邻域,查询k 就是求k 的邻域(2 分),查询k 的开销就是k 的度数(2 分)。多次查询就是求一组关键字的邻域,多次查询的开销就是这组关键字顶  点的度数之和,重复关键字只计算一次(2 分)。

本文选自新东方在线论坛。

更多>>
更多课程>>
更多>>
更多课程>>
更多>>
更多内容
更多>>
更多院校选择>>
更多>>
更多课程>>
-->