使用超单元的搜索处理的系统和方法
2019-11-22

使用超单元的搜索处理的系统和方法

在一种搜索处理系统中,通过将查询经语法分析变为单元,并部分地基于在查询中一起出现的单元的模式来定义单元之间的各种关系,来从一组查询生成概念网络(408)。概念网络(408)中具有一些相似特征的单元被分组成超单元(414)。对于每个超单元,都有一个对应的签名,该签名定义了该组的相似特征。通过标识组成单元,确定一些或所有组成单元的超单元成员资格,并使用该信息来制定对查询的响应来处理(404)查询。

在处理了所有单元Uj之后,在步骤618,确定集团Q的每个成员qk的成员资格得

CN构建器410还分析单元以检测诸如扩展(可基于一个单词或单元有时后面跟着

如本文中所使用的"关联"是在一同出现在查询中的两个单元之间所存在的一种关系。例如,图3示出单元"hotels(酒店)"是单元"newyork"和"newyorkcity"的关联。成对的相关联单元在本文中也被称为"邻居",并且单元的"邻域"是其邻居的集合。为建立单元之间的关联,可能需要最小频率的共现。应当注意,由关联相关的单元在查询中无需相互紧邻地出现,并且通过串接相关联的单元而获得的串无需是一个单元(如果是的话,则将存在扩展关系。由此,扩展关系可被视为是一种特殊的关联)。第一单元的"替换"是同一表达式的不同形式(可以是优选的、修正的、或其它变体形式);例如,图3示出"motel(旅馆)"和"hotel"是替换。替换的一个示例包括"brittanyspears"和"britneyspears(布莱特妮'斯皮尔斯)"(不同的拼法),或"belgian(比利时的)"和"belgium(比利时)"(不同的词性)。在一组替换单元之中,可基于例如出现频率将一个替换单元指定为"优选的";例如,"britneyspears"(该流行歌手的名字的正确拼法)与诸如"brittanyspears"等误拼的替换相比,可能是优选的替换。本文中所描述的实施例是大小写不敏感的,并且仅仅是大写有所不同的项(例如,"Belgium"和"belgium")是指同一个单元;其它实施例可基于大小写来区别单元,并可将仅仅是大写有所不同的单元标识为替换。

子,其中每个新的成员单元满足基于签名的匹配准则。基于经扩展的超单元种子来修改签名。重复扩展和修改的步骤,直至满足收敛准则,并且一旦满足了收敛准则,则构造出最终的超单元和最终的签名。然后存储最终超单元的每个成员单元的超单元成员资格信息,并可响应于后续查询来使用这些信息。超单元成员资格信息可包括例如,最终超单元的每个成员单元的成员资格权重,其中成员资格权重是基于概念网络中在成员单元与最终签名的签名单元之间的关系。

根据本发明的另一个方面,一种用于从用户搜索查询生成超单元的系统包括,概念网络构建器模块、超单元种子模块、超单元构建器模块、以及存储模块。概念网络构建器模块被配置成从一组先前的查询生成概念网络;概念网络包括单元和在成对单元之间定义的关系,其中每个关系具有一个相关联的边权重。超单元种子模块被配置成标识包括至少一个成员单元的超单元,其中每个成员单元是概念网络的单元中的一个。超单元构建器模块被配置成以超单元种子开始来构造超单元和签名。每个超单元包括多个成员单元,并且每个签名与超单元中的一个相关联。每个签名包括一个或多个签名单元,其中每个签名单元在概念网络中与相关联的超单元的至少最少个数的成员单元具有关系。存储模块被配置成存储成员单元的超单元成员资格信息;超单元成员资格信息是由超单元构建器模块提供个实施例的信息检索和通信系统的简化的高等级框图。-个实施例的用于传递媒体内容的信息检索和通信网络的

在一些实施例中,搜索服务器系统160可使用多单元查询的组成单元来解决其中一个组成单元中的歧义。例如,假定查询包括诸如"Java"等可能在一种以上上下文中会使用的歧义项。这一个项可能属于多个超单元,例如"食品和饮料"超单元、"计算机"超单元、以及"位置"超单元。在将该查询经语法分析变成单元,并检测到单元"java"中的歧义之后,搜索服务器160可将查询的其它组成单元与每个此类超单元的签名相比较。由此,如果该查询还包括诸如"商店"或"咖啡"等项,则搜索服务器系统160可推断用户最有可能关注的是"食品和饮料"超单元,而诸如"程序"或"脚本"等项将指示"计算机"超单元,诸如此类。结果(例如,响应于查询的页面的链接)能以对应于不同超单元的分组的形式被呈现,其中可能性最高的超单元出现在第一位。在另一个实施例中,来自不同超单元(或上下文)的结果可被排列在结果页面的不同"选项卡"上,这允许用户通过点击所需的选项卡来选择上下文。可默认显示可能性最高的上下文。

在步骤714,确定超单元是否已收敛;如果没有,则该过程回到步骤706以重复基于签名更新超单元、然后更新签名的步骤。收敛在超单元或其签名(或两者)的成员数在一次迭代期间没有改变的时候发生。一些实施例可使用放松的收敛条件,以允许在超单元或签名中出现足够小的改变时发现收敛。

小频率出现的单元。应当理解,通过使用不同的基础单元来重复过程500,就可生成任意个

在步骤503,选择用于构成群集的基础单元。在一些实施例中,概念网络中的每个

19其中W(qk,qi)表示作为群集C(q》的成员的单元qk的群集权重。也可使用其它公式来分配集团成员资格得分。在一些实施例中,可按降序得分或升序得分的次序来排列集团成员。