-
公开(公告)号:CN107133274A
公开(公告)日:2017-09-05
申请号:CN201710228718.X
申请日:2017-04-10
Applicant: 浙江鸿程计算机系统有限公司
Abstract: 本发明涉及一种基于图知识库的分布式信息检索集合选择方法,主要包括如下步骤:1)采用实体链接方法,从各个集合的样本文档中获取集合的实体词集;2)基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;3)采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;4)采用查询与集合相关度度量方法计算集合评分,选择评分较高的前若干个集合。本发明利用图知识库中蕴含的实体关系和网络结构,使用基于图知识库的集合语义建模方法、查询扩展方法和查询与集合相关度度量方法,提高了集合选择方法的准确度。
-
公开(公告)号:CN105469118A
公开(公告)日:2016-04-06
申请号:CN201510884354.1
申请日:2015-12-04
Applicant: 浙江鸿程计算机系统有限公司
IPC: G06K9/62
CPC classification number: G06K9/6218 , G06K9/6276
Abstract: 本发明涉及基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,本发明针对传统稀有类别检测方法中对已标记数据点利用不充分和需要预先指定类别相关信息的问题,提出了一种基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,通过使用非参半监督聚类的方法利用少量标注数据和大量未标注数据来优化数据分布模型,并结合主动学习选择出在所有未标记数据点中最具代表性的异常点提交给专家进行标注,从而减少了稀有类别检测过程中人工标注的工作量,提高了稀有类别检测过程的效率,并且解决了在非线性情况下的稀有类别发现问题。
-