一种主题监测方法、装置、电子设备和可读存储介质

    公开(公告)号:CN118070786B

    公开(公告)日:2024-10-15

    申请号:CN202410217200.6

    申请日:2024-02-27

    Abstract: 本发明涉及一种主题监测方法、装置、电子设备和可读存储介质,通过使用预训练语言模型计算得到包含文本语义和图结构的关键词嵌入向量,在此基础上进行聚类形成语义主题簇,完成主题发现。再使用预训练语言模型计算得到表征文本的语义向量,计算每个时间切片下每篇文本的语义向量和关键词语义簇中心向量的余弦相似度,并经过正则化得到每篇文本的概率分布表征向量,对此概率分布向量进行聚类,得到文本科研主题簇。依据TF‑IDF值从高到低选择TOP5关键词描述和代表不同文本主题簇。然后以间隔时间为单位计算相邻时间切片的主题相似度和关键词重合比率,揭示不同时间序列主题间的演化路径,可以清楚的动态展示出主题随时间的变化过程。

    一种便携式文档格式文件的结构化解析方法及相关产品

    公开(公告)号:CN117473980B

    公开(公告)日:2024-07-05

    申请号:CN202311498326.7

    申请日:2023-11-10

    Abstract: 本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。

    一种便携式文档格式文件的结构化解析方法及相关产品

    公开(公告)号:CN117473980A

    公开(公告)日:2024-01-30

    申请号:CN202311498326.7

    申请日:2023-11-10

    Abstract: 本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。

    多标签分类方法、装置及计算机可读介质

    公开(公告)号:CN115952292A

    公开(公告)日:2023-04-11

    申请号:CN202310242731.6

    申请日:2023-03-14

    Abstract: 本申请公开一种多标签分类方法、装置及计算机可读介质,该方法预先构建包括第一模型和第二模型的多标签分类模型,第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解,得到对应的文本语义表示,第二模型用于基于第一模型的输出信息,预测篇级文本对象所属的多个学科类目,以得到篇级文本对象的多标签分类结果。在此基础上,针对待处理的篇级文本对象,可通过将其预设类型对象信息输入多标签分类模型,实现对其篇级粒度的学科多标签分类。本申请对文献等文本对象的分类达到了篇级,精细粒度更高,且通过学科多标签分类,可有效避免单一标签分类方式所导致的错误分类,提升了分类准确度,并一定程度上避免了漏统。

    一种主题监测方法、装置、电子设备和可读存储介质

    公开(公告)号:CN118070786A

    公开(公告)日:2024-05-24

    申请号:CN202410217200.6

    申请日:2024-02-27

    Abstract: 本发明涉及一种主题监测方法、装置、电子设备和可读存储介质,通过使用预训练语言模型计算得到包含文本语义和图结构的关键词嵌入向量,在此基础上进行聚类形成语义主题簇,完成主题发现。再使用预训练语言模型计算得到表征文本的语义向量,计算每个时间切片下每篇文本的语义向量和关键词语义簇中心向量的余弦相似度,并经过正则化得到每篇文本的概率分布表征向量,对此概率分布向量进行聚类,得到文本科研主题簇。依据TF‑IDF值从高到低选择TOP5关键词描述和代表不同文本主题簇。然后以间隔时间为单位计算相邻时间切片的主题相似度和关键词重合比率,揭示不同时间序列主题间的演化路径,可以清楚的动态展示出主题随时间的变化过程。

    文献分类方法及装置、存储介质及电子设备

    公开(公告)号:CN116340521A

    公开(公告)日:2023-06-27

    申请号:CN202310434157.4

    申请日:2023-04-21

    Abstract: 本发明提供了一种文献分类方法及装置、存储介质及电子设备,该方法包括:当需要对目标文献进行分类时,确定其对应的摘要文本和引用语句文本;将摘要文本输入第一概率预测模型,获得目标文献属于突破性文献的第一预测概率;将引用语句文本输入第二概率预测模型,获得该引用语句文本对应的预测概率,该预测概率为基于该文本得到的目标文献属于突破性文献的概率;依据每个引用语句文本对应的预测概率,确定第二预测概率;确定多个计量指标值;将第一预测概率、第二预测概率和各个计量指标值,输入文献分类模型,获得表征目标文献是否属于突破性文献的文献类别。应用本发明的方法,可结合多维特征自动识别突破性文献,可节省时间和人力资源。

    多标签分类方法、装置及计算机可读介质

    公开(公告)号:CN115952292B

    公开(公告)日:2023-05-16

    申请号:CN202310242731.6

    申请日:2023-03-14

    Abstract: 本申请公开一种多标签分类方法、装置及计算机可读介质,该方法预先构建包括第一模型和第二模型的多标签分类模型,第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解,得到对应的文本语义表示,第二模型用于基于第一模型的输出信息,预测篇级文本对象所属的多个学科类目,以得到篇级文本对象的多标签分类结果。在此基础上,针对待处理的篇级文本对象,可通过将其预设类型对象信息输入多标签分类模型,实现对其篇级粒度的学科多标签分类。本申请对文献等文本对象的分类达到了篇级,精细粒度更高,且通过学科多标签分类,可有效避免单一标签分类方式所导致的错误分类,提升了分类准确度,并一定程度上避免了漏统。

Patent Agency Ranking