-
公开(公告)号:CN111813778B
公开(公告)日:2024-03-29
申请号:CN202010650465.7
申请日:2020-07-08
Applicant: 安徽工业大学 , 安徽工大信息技术有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28 , G06F16/29 , G06F16/9537
Abstract: 本发明公开了一种面向大规模路网数据的近似关键字存储和查询方法,属于及路网数据处理技术领域。本发明的存储方法为:对原始路网数据进行预处理得到预处理结果;根据预处理结果构建R‑Tree索引、点索引、邻接点B*‑Tree索引以及兴趣点B*‑Tree索引,且索引之间通过指针相互关联;将构建的索引存入外存存储空间。本发明的查询方法为:根据存储方法存储的索引进行查询。本发明的目的在于克服现有技术中,路网数据存储空间的利用率较低,且路网数据的查询效率较低的不足,提供了一种面向大规模路网数据的近似关键字存储和查询方法,可以提高路网数据存储空间的利用率,并且可以大大提高路网数据的查询效率。
-
公开(公告)号:CN111813778A
公开(公告)日:2020-10-23
申请号:CN202010650465.7
申请日:2020-07-08
Applicant: 安徽工业大学 , 安徽工大信息技术有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28 , G06F16/29 , G06F16/9537
Abstract: 本发明公开了一种面向大规模路网数据的近似关键字存储和查询方法,属于及路网数据处理技术领域。本发明的存储方法为:对原始路网数据进行预处理得到预处理结果;根据预处理结果构建R-Tree索引、点索引、邻接点B*-Tree索引以及兴趣点B*-Tree索引,且索引之间通过指针相互关联;将构建的索引存入外存存储空间。本发明的查询方法为:根据存储方法存储的索引进行查询。本发明的目的在于克服现有技术中,路网数据存储空间的利用率较低,且路网数据的查询效率较低的不足,提供了一种面向大规模路网数据的近似关键字存储和查询方法,可以提高路网数据存储空间的利用率,并且可以大大提高路网数据的查询效率。
-
公开(公告)号:CN112287218B
公开(公告)日:2022-11-01
申请号:CN202011153681.7
申请日:2020-10-26
Applicant: 安徽工业大学 , 安徽工大信息技术有限公司
IPC: G06F16/9535 , G06F16/35 , G06F16/36 , G06F40/216 , G06F40/289
Abstract: 本发明公开一种基于知识图谱的非煤矿山文献关联推荐方法,属于非煤矿山文献关联推荐领域。针对现有技术中存在的使用TF‑IDF无法解决关联推荐,以及使用LDA模型得到的模型主题数量稀少,数据稀疏性大等问题,本发明通过分布式多线程爬虫以及人工搜集获取非煤矿山数据,尤其包括设备信息;将获取的数据处理后采用LDA模型构建知识图谱,并在此基础上分别构建初始知识模型;然后引入激活扩散模型和采用关联距离,得到推荐结果。本发明专利结合知识图谱和激活扩散模型可以有效缓解数据稀疏,大大提升多方向关联推荐准确度,同时根据推荐选择结果正反馈推荐计算来提升推荐准确度,优化非煤矿山文献推荐方法。
-
公开(公告)号:CN112287218A
公开(公告)日:2021-01-29
申请号:CN202011153681.7
申请日:2020-10-26
Applicant: 安徽工业大学 , 安徽工大信息技术有限公司
IPC: G06F16/9535 , G06F16/35 , G06F16/36 , G06F40/216 , G06F40/289
Abstract: 本发明公开一种基于知识图谱的非煤矿山文献关联推荐方法,属于非煤矿山文献关联推荐领域。针对现有技术中存在的使用TF‑IDF无法解决关联推荐,以及使用LDA模型得到的模型主题数量稀少,数据稀疏性大等问题,本发明通过分布式多线程爬虫以及人工搜集获取非煤矿山数据,尤其包括设备信息;将获取的数据处理后采用LDA模型构建知识图谱,并在此基础上分别构建初始知识模型;然后引入激活扩散模型和采用关联距离,得到推荐结果。本发明专利结合知识图谱和激活扩散模型可以有效缓解数据稀疏,大大提升多方向关联推荐准确度,同时根据推荐选择结果正反馈推荐计算来提升推荐准确度,优化非煤矿山文献推荐方法。
-
公开(公告)号:CN113688257A
公开(公告)日:2021-11-23
申请号:CN202110954858.1
申请日:2021-08-19
Applicant: 安徽工大信息技术有限公司
Abstract: 本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。
-
公开(公告)号:CN113688257B
公开(公告)日:2024-04-12
申请号:CN202110954858.1
申请日:2021-08-19
Applicant: 安徽工大信息技术有限公司
Abstract: 本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。
-
公开(公告)号:CN113971204A
公开(公告)日:2022-01-25
申请号:CN202111262052.2
申请日:2021-10-28
Applicant: 安徽工业大学科技园有限公司
IPC: G06F16/33 , G06F16/335 , G06F40/289 , G06V10/74 , G06F9/54 , G06K9/62
Abstract: 本发明公开了一种基于Hadoop生态的论文实时推荐与离线推荐互补方法,属于大数据推荐领域,本发明使用Hadoop生态中的数据仓库Hive存储论文数据,对论文标签进行分词,以向量化方式分层保存在数据仓库中;引入离线计算引擎MapReduce对数据计算离线推荐结果;引入流计算引擎Spark Streaming实时采集Kafka中的论文数据,并进行分词、向量化表示后,与Spark SQL读取Hive数仓中论文向量化数据计算实时推荐结果。本发明专利结合推荐算法和Hadoop生态不仅有效解决海量论文推荐问题,提升论文推荐实时性,同时根据论文分类号修正相似度计算来提升推荐准确度,优化论文推荐结果。
-
公开(公告)号:CN113971204B
公开(公告)日:2024-12-10
申请号:CN202111262052.2
申请日:2021-10-28
Applicant: 安徽工业大学科技园有限公司
IPC: G06F16/33 , G06F16/335 , G06F40/289 , G06V10/74 , G06F9/54 , G06F18/22
Abstract: 本发明公开了一种基于Hadoop生态的论文实时推荐与离线推荐互补方法,属于大数据推荐领域,本发明使用Hadoop生态中的数据仓库Hive存储论文数据,对论文标签进行分词,以向量化方式分层保存在数据仓库中;引入离线计算引擎MapReduce对数据计算离线推荐结果;引入流计算引擎Spark Streaming实时采集Kafka中的论文数据,并进行分词、向量化表示后,与Spark SQL读取Hive数仓中论文向量化数据计算实时推荐结果。本发明专利结合推荐算法和Hadoop生态不仅有效解决海量论文推荐问题,提升论文推荐实时性,同时根据论文分类号修正相似度计算来提升推荐准确度,优化论文推荐结果。
-
-
-
-
-
-
-