一种基于分组的文档内容差异对比可视化分析方法

    公开(公告)号:CN110852059B

    公开(公告)日:2023-08-29

    申请号:CN201911111334.5

    申请日:2019-11-14

    Abstract: 本发明公开了一种基于分组的文档内容差异对比可视化分析方法,包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;在所述核心数据集上创建分组,将所述核心数据集按类别分组,并任意确定两个待分析的目标分组;针对所述目标分组构建分组语料库,将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。

    一种动态知识热点演化及趋势分析方法

    公开(公告)号:CN111694930A

    公开(公告)日:2020-09-22

    申请号:CN202010528034.3

    申请日:2020-06-11

    Inventor: 侯颖 崔运鹏 刘娟

    Abstract: 本发明公开了一种动态知识热点演化及趋势分析方法,所述方法包括通过时间变化对给定文献中的潜在主题进行动态建模,捕捉主题随时间的动态演变。通过动态建模得出所有文档的主题偏好,供用户通过主题下的热点单词定位文献信息。本发明所提供的动态知识热点演化及趋势分析方法以曲线图的形式直观呈现主题中单词的变化趋势,帮助用户了解或预测主题词的发展趋势,以及帮助用户通过主题下的热点词定位到与其相关的文献信息,方便用户对目标学科领域进行快速评估和了解。

    一种基于信令数据的移动电话用户移动路径地图匹配方法

    公开(公告)号:CN111521191A

    公开(公告)日:2020-08-11

    申请号:CN202010311822.7

    申请日:2020-04-20

    Abstract: 本发明公开了一种基于信令数据的移动电话用户移动路径地图匹配方法,通过一序列的几何识别及处理,优化路径搜索空间,减少路径识别的不确定性,同时提高计算速度。在此基础上,运行最短路径搜索算法,并通过距离函数优化匹配最优解。本发明所提供的基于信令数据的移动电话用户移动路径地图匹配方法充分考虑了用户不同的日常活动模式,使用时空聚类算法将用户移动轨迹分割为子移动轨迹,再分别进行地图匹配,通过路径匹配搜索空间限定策略,减少了路径分析计算量。本发明提供了深度搜索可选功能,通过距离损失函数进行优化,寻找最优地图匹配结果。

    一种基于LSTM自编码器的耕地闲置识别方法

    公开(公告)号:CN118628925B

    公开(公告)日:2024-11-22

    申请号:CN202410705819.1

    申请日:2024-06-03

    Abstract: 本发明公开了一种基于LSTM自编码器的耕地闲置识别方法,包括采集预设区域的时序数据,对所述时序数据进行预处理,对所述时序多光谱遥感图像进行逐月聚合并取中值获得时间段聚合时序HLS影像,对所述时序遥感影像进行逐月聚合并取低值获得时间段聚合时序SAR影像,根据所述时间段聚合时序HLS影像所述耕地特征,将土地覆被分成三种模式,根据所述三种模式分别构建LSTM自编码器模型,优化所述LSTM自编码器模型,将闲置耕地的所述植被指数输入LSTM自编码器模型确定残差分布阈值,将待识别数据输入LSTM自编码器模型,输出识别结果。该方法不仅可以提高基于LSTM自编码器的耕地闲置识别的精度,同时具有较好的可解释性,可以直接应用于耕地闲置识别系统中。

    一种多变量时间序列数据聚类方法

    公开(公告)号:CN111488924A

    公开(公告)日:2020-08-04

    申请号:CN202010265442.4

    申请日:2020-04-07

    Inventor: 王婷 崔运鹏 刘娟

    Abstract: 本发明公开了一种多变量时间序列数据聚类方法,包括对多变量时间序列数据进行归一化预处理;构建深度学习无监督学习模型稀疏自编码器,对多变量时间序列数据进行特征提取以构建新特征序列;获取样本数据新特征序列的聚类K值;基于欧式距离计算不同样本数据新特征序列之间的距离;对样本数据的新特征序列集进行聚类;根据聚类结果分析多变量时间序列数据的潜在模式。本发明通过稀疏自编码器模型和聚类方法,提高处理大规模数据的效率,并构建稀疏自编码器模型以提高模型对多变量时间序列数据提取新特征序列的性能,同时根据欧式距离构建了多变量距离计算模型以实现对多变量时间序列数据的聚类。

    一种基于分组的文档内容差异对比可视化分析方法

    公开(公告)号:CN110852059A

    公开(公告)日:2020-02-28

    申请号:CN201911111334.5

    申请日:2019-11-14

    Abstract: 本发明公开了一种基于分组的文档内容差异对比可视化分析方法,包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;在所述核心数据集上创建分组,将所述核心数据集按类别分组,并任意确定两个待分析的目标分组;针对所述目标分组构建分组语料库,将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。

    一种动态知识热点演化及趋势分析方法

    公开(公告)号:CN111694930B

    公开(公告)日:2023-11-14

    申请号:CN202010528034.3

    申请日:2020-06-11

    Inventor: 侯颖 崔运鹏 刘娟

    Abstract: 本发明公开了一种动态知识热点演化及趋势分析方法,所述方法包括通过时间变化对给定文献中的潜在主题进行动态建模,捕捉主题随时间的动态演变。通过动态建模得出所有文档的主题偏好,供用户通过主题下的热点单词定位文献信息。本发明所提供的动态知识热点演化及趋势分析方法以曲线图的形式直观呈现主题中单词的变化趋势,帮助用户了解或预测主题词的发展趋势,以及帮助用户通过主题下的热点词定位到与其相关的文献信息,方便用户对目标学科领域进行快速评估和了解。

    一种基于词向量模型的机构名称规范方法

    公开(公告)号:CN111984776B

    公开(公告)日:2023-08-11

    申请号:CN202010844347.X

    申请日:2020-08-20

    Abstract: 本发明公开了一种基于词向量模型的机构名称规范方法,包括:分析科技文献数据机构名称字段特征,选取机构相关字段;提取文献相关字段信息文本,并对相关字段进行清洗和变换;采用word2vec词向量方法对提取文本信息构建词向量模型并对机构名称进行聚类;结合词向量模型和聚类文件查找相似度高的词,从中识别并提取机构名称;采用Jaro相似度方法通过设置阈值计算匹配相似机构名称。本发明能有效改善基于海量数据的科技评价中的数据可靠性问题,规范科技文献数据库中的机构名称存储与管理,从而提升科技文献数据库建设的规范性。

Patent Agency Ranking