一种基于图知识库的分布式信息检索集合选择方法

    公开(公告)号:CN107133274B

    公开(公告)日:2020-12-15

    申请号:CN201710228718.X

    申请日:2017-04-10

    Abstract: 本发明涉及一种基于图知识库的分布式信息检索集合选择方法,主要包括如下步骤:1)采用实体链接方法,从各个集合的样本文档中获取集合的实体词集;2)基于上下文相关度和结构相关度,计算实体词的权重,使用加权的实体词集表示集合的语义信息;3)采用查询扩展方法扩展查询中包含的实体词,并为查询实体词赋予不同的权重;4)采用查询与集合相关度度量方法计算集合评分,选择评分较高的前若干个集合。本发明利用图知识库中蕴含的实体关系和网络结构,使用基于图知识库的集合语义建模方法、查询扩展方法和查询与集合相关度度量方法,提高了集合选择方法的准确度。

    一种基于多数据集和协同张量分解的旅游景点推荐方法

    公开(公告)号:CN106997389B

    公开(公告)日:2020-04-07

    申请号:CN201710201405.5

    申请日:2017-03-30

    Abstract: 本发明涉及一种基于多数据集和协同张量分解的旅游景点推荐方法,通过利用不同数据源的用户行为信息为用户提供细粒度的旅游推荐服务。本发明首先从社交网站中获取多个数据集的信息;然后基于用户旅行历史信息构建用户‑景点‑时间张量,并结合协同张量分解模型对该张量进行分解和补全,获得用户的旅行偏爱;最后根据补全的用户‑景点‑时间张量以及用户输入的旅游城市和时间情景信息为用户推荐合适的旅游景点。该方法能够为用户提供基于时间感知的旅游景点推荐服务。

    一种基于张量分解及加权HITS的时间感知个性化POI推荐方法

    公开(公告)号:CN106960044B

    公开(公告)日:2020-04-07

    申请号:CN201710201416.3

    申请日:2017-03-30

    Abstract: 本发明涉及一种基于张量分解及加权HITS的时间感知个性化POI推荐方法,本发明针对传统POI推荐方法中面临的数据稀疏性问题,首先通过引入附加信息的协同张量分解对用户偏好进行建模,然后通过加权HITS同时整合用户偏好与POI的流行度为POI进行打分。最后根据POI打分为用户提供排名靠前的若干POI作为推荐。本发明通过集成协同张量分解与加权HITS考虑用户偏好、时间及当地特色三个因素,克服数据稀疏性问题,为用户提供高质量的个性化POI推荐。

    一种基于多数据集和协同张量分解的旅游景点推荐方法

    公开(公告)号:CN106997389A

    公开(公告)日:2017-08-01

    申请号:CN201710201405.5

    申请日:2017-03-30

    Abstract: 本发明涉及一种基于多数据集和协同张量分解的旅游景点推荐方法,通过利用不同数据源的用户行为信息为用户提供细粒度的旅游推荐服务。本发明首先从社交网站中获取多个数据集的信息;然后基于用户旅行历史信息构建用户‑景点‑时间张量,并结合协同张量分解模型对该张量进行分解和补全,获得用户的旅行偏爱;最后根据补全的用户‑景点‑时间张量以及用户输入的旅游城市和时间情景信息为用户推荐合适的旅游景点。该方法能够为用户提供基于时间感知的旅游景点推荐服务。

    一种基于张量分解及加权HITS的时间感知个性化POI推荐方法

    公开(公告)号:CN106960044A

    公开(公告)日:2017-07-18

    申请号:CN201710201416.3

    申请日:2017-03-30

    Abstract: 本发明涉及一种基于张量分解及加权HITS的时间感知个性化POI推荐方法,本发明针对传统POI推荐方法中面临的数据稀疏性问题,首先通过引入附加信息的协同张量分解对用户偏好进行建模,然后通过加权HITS同时整合用户偏好与POI的流行度为POI进行打分。最后根据POI打分为用户提供排名靠前的若干POI作为推荐。本发明通过集成协同张量分解与加权HITS考虑用户偏好、时间及当地特色三个因素,克服数据稀疏性问题,为用户提供高质量的个性化POI推荐。

    融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

    公开(公告)号:CN105488522A

    公开(公告)日:2016-04-13

    申请号:CN201510824301.0

    申请日:2015-11-23

    CPC classification number: G06K9/6293 G06F17/30864

    Abstract: 本发明涉及融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估六个阶段,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。有益效果在于:(1)可以在少量的标注数据的情况下,有效地评估搜索引擎的用户信息需求满意度;(2)可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模型陷入局部最优。

    一种面向用户信息需求的搜索引擎日志数据挖掘的方法

    公开(公告)号:CN103164537B

    公开(公告)日:2016-01-13

    申请号:CN201310125029.8

    申请日:2013-04-09

    Abstract: 本发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括:查询日志块归类、查询相似度计算和用户信息需求提供,综合计算查询词相似度和查询结果相似度作为查询相似度,以此为依据判断了两个查询是否具有相同的信息需求,有效快速的对搜索日志进行划分。本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

    一种保留统计级特征属性的身份证号脱敏方法

    公开(公告)号:CN112182654B

    公开(公告)日:2024-03-05

    申请号:CN202011048516.5

    申请日:2020-09-29

    Abstract: 本发明涉及数据处理领域,尤其涉及一种保留统计级特征属性的身份证号脱敏方法,包括以下步骤:身份证号进行分段;分别对地区编码、出生日期、顺序码进行脱敏:获取相同省份下的所有地区编码集和,从集合中获取新的地址编码;获取基准日期与待脱敏出生日期的间隔天数,间隔天数通过转换得到新的间隔天数,新的间隔天数进制转换后与一个随机数进行模运算,得到最终的间隔天数,根据最终的间隔天数得到新的出生日期;通过与一随机整数进行计算得到新的顺序码;根据固定算法得到新的校验码;组合形成新的身份证号。本发明的有益效果在于:采用分段处理机制,可以灵活选择要脱敏的分段信息,同时保持身份证号本身的结构特征和分析价值。(56)对比文件张继.利用EXCEL函数功能从身份证号提取学生基础学籍信息.电脑知识与技术.2014,(第33期),7948-7950.张樵.数据漂白简析.中国金融电脑.2010,(第09期),80-81.

Patent Agency Ranking