CN103605665A_一种基于关键词的评审专家智能检索与推荐方法有效

上网导航 2023-09-13 287 0条评论
摘要: 1.一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是: 步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息; 步骤2...

1.一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是: 步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息; 步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库; 步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向;切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词; 步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合,所述的通用停用词库采用哈工大停用词表; 步骤5.构建专家知识表示模型:利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM = (id, F,WF, T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义Wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,Vi=Ivil, f (Viι),Vi2, f (Vi2),...,vin, f (Vin)},Vij表示第i个字段中的第j个特征词语,f (Vij)表示Vij特征词语在所对应的字段内的出现频率权重,计算公式如下: 根据知识表示模型的定义,评审专家信息的知识表示为: 步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库; 步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库; 步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下: 其中,os识乞ί,D表不专家彳目息; 归一化上述综合相关度计算公式,检索相关度的计算公式如下: Sim (K, D) j = SimComplex (K, D) j/SimComplex (K, D)max 其中,SimComplex (K, D) i表示关键词K与第i个专家信息的检索相关度,SimComplex (K, D)max表示关键词K与所有专家信息的最大检索相关度; 步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出;(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出。 步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。

2.根据权利要求1所述的方法,其特征在于:步骤7中所述的自动提示关键词,其关键词词库的构建过程如下: 设计一个关键词统计器,统计已检索过的关键词词频,以键值对〈key, value)的方式索引入库;其中键key是历史关键词,值value是关键词的历史检索次数;若用户首次输入关键词 term,则以〈term, one〉保存;否则,更新〈term, num> 为〈term, num+l> ;其中,one为检索次数初始值1,num为当前的关键词被检索次数;同时用户在检索输入框中输入关键词时,关键词统计器获取当前已输入的关键词语素S,从关键词词库中筛选关键词开头语素为S的相关关键词,设置历史检索次数阀值,以历史检索次数降序的方式,自动地添加到检索输入框的下拉条目做关键词推荐。

3.根据权利要求1所述的方法,其特征在于:步骤8中所述的关键词与专家信息特征词语的语义相似度的计算过程如下: 在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重,其表示为Vi=Ivil, f (vn), vi2, f (vi2),...,vin, f (Vin)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,定义关键词与专家信息的某个字段信息的语义相关度计算公式为: 上述公式中,n为字段内特征词个数,f(t)表示检索特征词t在字段F中频率权重,f (t) max表示最大频率权重,f (t) min表示最小频率权重,SimSEM (K, t)为检索关键词和专家信息特征词的大于阀值τ (O < τ < I)的语义相似度值,η为对应的词语个数,关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算;在计算这个特征词与关键词的相关度时,特征词出现次数越多,则应突出这些词的贡献,因子l+(f(t)_f(t)min)/(f(t)fflax-f(t)fflin)适当地加强关键词与专家信息特征词的语义相似度值权重;特别地,如果关键词K与特征词t相同,则SimSEM(K,t) = 1,即关键词语特征词相同,即两个词语是精确匹配的; 根据评审专家的知识表示模型的表示结构TM = (id, F,WF, T, V),每个专家信息由若干个专家字段构成,每个字段的重要性不同,字段权重也不同,将关键词语专家各个字段信息的语义相关度加权求和,得到关键词与评审专家整体信息的语义相关度,则关键词与评审专家整体信息的语义相关度的计算公式为: 其中,wf分别为字段权重参数,t为字段总数。

4.根据权利要求1所述的方法,其特征在于:步骤8中所述的关键词与专家信息特征词语的语素相似度的计算过程如下: 汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大;引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算;语素相似度的计算公式为: 其中,Ien(A)和Ien(B)是词语A和词语B的长度,SameC (Α,B)表示词语A和词语B中相同语素的个数; 与求解关键词与专家信息的某个字段信息的语义相似度原理相同,关键词与专家信息的某个字段信息的语素相关度计算公式为: 其中,f(t)表示检索特征词t在字段F中频率权重,η为字段内特征词个数; 与求解关键词与专家信息信息的语义相似度原理相同,关键词与专家信息的语素相关度计算公式为: 其中,wf分别为字段权重参数,t为字段总数。

5.根据权利要求3所述的方法,其特征在于:所述的语义相似度计算过程如下: 在知网语义词典中,如果对于两个词语W1和WyW1有η个概念:S11,S12,...,Sln7W2有m个概念:S21,S22,...,S2n ;词语W1和W2的相似度SimSEM (Wl,W2)等于各个概念的相似度之最大值: 基于知网的词语相似度原理计算词汇相似度,实词和虚词具有不同的描述语言;其中,只需要计算其对应的句法义原或关系义原之间的相似度即可;实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述,相似度分别记为Siml (Pl,p2)、Sim2 (p1; p2) > Sim3 (p1; p2) > Sim4 (p1; p2);两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算; βi(1≤i≤4)是可调节的参数,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4

文章版权及转载声明:

作者:上网导航本文地址:https://www.90xe.com/post/4236.html发布于 2023-09-13
文章转载或复制请以超链接形式并注明出处技术导航

分享到:

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏