一种不完整数据的Top-K查询方法和系统

    公开(公告)号:CN113569141B

    公开(公告)日:2024-10-18

    申请号:CN202110811299.9

    申请日:2021-07-19

    Abstract: 本发明公开一种不完整数据的Top‑K查询方法和系统,属于数据查询领域。包括:统计出不完整数据集中每种属性的最小值和最大值,保存数据集中各对象的主键、非主键属性值到元组列表中;遍历元组列表,计算每个对象的最低和最高可能分数,存入元组列表,定位所有对象的最低可能分数位于第K大的值,将其作为判断阈值;遍历元组列表,若对象的最高可能分数不小于判断阈值,将其加入第一候选集;遍历第一候选集,使用填补策略对缺失属性值进行估算,将估算值和最小值中的较大值作为填补值,计算填补后对象的分数,将分数不小于判断阈值的对象加入第二候选集;采用完整数据Top‑K查询方法查询。本发明确保不完整数据Top‑K查询结果正确性的同时有效提高了查询效率。

    一种基于残差融合和堆叠集成的文本相似分析方法及系统

    公开(公告)号:CN116186556A

    公开(公告)日:2023-05-30

    申请号:CN202211735706.3

    申请日:2022-12-31

    Inventor: 袁凌 刘皓文 向丰

    Abstract: 本发明公开了一种基于残差融合和堆叠集成的文本相似分析方法及系统。一种基于残差融合和堆叠集成的文本相似分析方法,包括:将待分析的文本输入目标文本相似性判断模型中进行相似性判断,得到判断结果;目标文本相似性判断模型由表示型的SBERT模型和交互型的ABCNN模型融合得到;若待分析的文本判断为相似文本,则将待分析的文本输入目标文本相似度计算模型中进行相似度计算,得到目标文本相似度值;目标文本相似度计算模型由多个不同的交互型预训练模型并列异质集成得到。解决了目前的文本相似分析模型难以兼具较高的检索效率和准确率的技术问题,实现兼具准确率和检索效率的文本相似性判断,以及高准确率的文本相似度计算。

    人体行为识别方法、系统、设备及介质

    公开(公告)号:CN113869189A

    公开(公告)日:2021-12-31

    申请号:CN202111126363.6

    申请日:2021-09-24

    Abstract: 本发明公开了一种人体行为识别方法、系统、设备及介质,属于数据检索领域,方法包括:捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征;将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。多角度、多视角分析人体行为识别任务,解决单一模态信息缺失的问题。

    一种基于词典改进LDA模型的评论方面观点级挖掘方法

    公开(公告)号:CN110837740B

    公开(公告)日:2021-04-20

    申请号:CN201911058218.1

    申请日:2019-10-31

    Abstract: 本发明公开了一种基于词典改进LDA模型的评论方面观点级挖掘方法,属于网络评论文本挖掘领域。包括:基于原始网络评论库,构建倒排索引列表;对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。本发明将网络评论库的方面直接设置为种子词,不需要人工标注。将评价对象词与评论观点进行分离,通过计算单词与种子词的相似度对LDA模型参数进行偏置,提高模型的效果。基于倒排索引,将聚类结果同种子词及原文建立联系,提高结果的可读性。

    一种将Word文档转换为txt纯文本文档的方法

    公开(公告)号:CN108595389B

    公开(公告)日:2021-02-26

    申请号:CN201810378038.0

    申请日:2018-04-25

    Abstract: 本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。

    一种面向科技信息文本的文本摘要生成方法及系统

    公开(公告)号:CN112214996A

    公开(公告)日:2021-01-12

    申请号:CN202011089609.2

    申请日:2020-10-13

    Abstract: 本发明公开了一种面向科技信息文本的文本摘要生成方法及系统,包括:S1、对待处理的科技信息文本进行实体识别和关系抽取,得到科技信息文本中所包含的实体及三元组;S2、判断科技信息文本是否为长文本,若是,则转至步骤S3;否则,将科技信息文本与实体及三元组进行融合构成模型输入信息,转至步骤S4;S3、基于科技信息文本的行文结构,并结合实体及三元组,确定科技信息文本中各个句子的影响力,并从科技信息文本中获取影响力最高的K个句子构成关键句群,将关键句群与实体及三元组进行融合构成模型输入信息;S4、将模型输入信息输入到预训练好的序列到序列模型中,得到文本摘要。所生成的摘要精确度高、可读性强,质量好。

    基于深度图的实时三维重建方法

    公开(公告)号:CN108961390B

    公开(公告)日:2020-05-19

    申请号:CN201810586309.1

    申请日:2018-06-08

    Abstract: 本发明公开了一种基于深度图的实时三维重建方法,包括:利用深度相机获得拍摄场景的深度图和RGB彩色图;对每一帧深度图进行如下处理:对深度信息进行补全,然后其像素点转换第一类三维坐标点,并计算每一个像素点处的法向量;将深度图对应的第一类三维坐标点转换为第二类三维坐标点;为深度图所对应的每一个第二类三维坐标点分配体素块,并利用哈希表索引体素块;通过对体素块加权融合更新体素块中每一个体素的sdf值,然后提取场景表面;获得场景表面的纹理信息,并计算场景表面每一个体素处的表面法向量。本发明能够有效提高重建速度和重建质量,并且能够适用于大规模的场景重建。

    一种基于社区发现的社交网络影响力最大化方法及系统

    公开(公告)号:CN110838072A

    公开(公告)日:2020-02-25

    申请号:CN201911015056.3

    申请日:2019-10-24

    Abstract: 本发明公开了一种基于社区发现的社交网络影响力最大化方法及系统,属于数据挖掘领域,包括:(1)对待分析的社交网络进行社区发现,将社交网络划分为多个社区;(2)在社区内部挖掘出k1个节点作为候选种子节点,得到第一候选集合,并识别社交网络中的边界节点,从中挖掘出k2个作为候选种子节点,得到第二候选集合;(3)将第一候选集合和第二候选集合的并集作为候选种子节点集合,并利用贪心算法从候选种子节点集合中筛选出带来最大边际增益的K节点作为种子节点,构成使得社交网络影响力最大化的种子节点集合。本发明能够在降低社交网络影响力最大化的时间复杂度的同时,扩大种子节点集合的影响范围。

    一种基于词典改进LDA模型的评论方面观点级挖掘方法

    公开(公告)号:CN110837740A

    公开(公告)日:2020-02-25

    申请号:CN201911058218.1

    申请日:2019-10-31

    Abstract: 本发明公开了一种基于词典改进LDA模型的评论方面观点级挖掘方法,属于网络评论文本挖掘领域。包括:基于原始网络评论库,构建倒排索引列表;对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。本发明将网络评论库的方面直接设置为种子词,不需要人工标注。将评价对象词与评论观点进行分离,通过计算单词与种子词的相似度对LDA模型参数进行偏置,提高模型的效果。基于倒排索引,将聚类结果同种子词及原文建立联系,提高结果的可读性。

    基于图文数据与时间效应的微博用户兴趣挖掘方法及系统

    公开(公告)号:CN110738047A

    公开(公告)日:2020-01-31

    申请号:CN201910828734.1

    申请日:2019-09-03

    Inventor: 袁凌 琚泽平

    Abstract: 本发明公开了一种基于图文数据与时间效应的微博用户兴趣挖掘方法及系统,属于数据挖掘领域,包括:对于任意一个用户u,获得待分析的历史微博集合;每一条历史微博,提取其中的文本和图片后,从文本提取词汇特征向量,从图片提取图片语义特征向量,并组合为该微博的微博特征向量;利用基于Single-Pass的多阶段不完全聚类方法对历史微博集合进行聚类,得到多个微博簇;根据聚类结果生成微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在各主题上的倾向概率。本发明能够全面、准确地表达微博用户的兴趣倾向。

Patent Agency Ranking