一种主题约束表示的关键词抽取方法及装置

    公开(公告)号:CN115687576A

    公开(公告)日:2023-02-03

    申请号:CN202211706894.7

    申请日:2022-12-29

    Applicant: 安徽大学

    Abstract: 本发明提出一种主题约束表示的关键词抽取方法,包括,获取目标文本并对目标文本进行预处理,获得字序列;将所述字序列输入到预训练语言模型,获得目标文本中每个字的向量和文本主题向量;计算所述每次字向量与文本主题向量的相似度,得到相似性权重,根据相似性权重获得每个字的主题约束表示向量;将主题约束表示向量输入到序列标注分类器,得到每个字对应各个标签的概率;对目标文本进行滑动窗口采样,获取所有的候选词语,根据每个字对应各个标签的概率对候选词语进行排序,选择排序后的候选词语获得目标关键词。通过本发明提出的主题约束表示的关键词抽取方法,解决了如何从文本中抽取多个关键词问题。

    文档层次结构联合全局局部信息抽取关键短语方法及系统

    公开(公告)号:CN115017903A

    公开(公告)日:2022-09-06

    申请号:CN202210697632.2

    申请日:2022-06-20

    Applicant: 安徽大学

    Abstract: 本发明提供文档层次结构联合全局局部信息抽取关键短语方法及系统,方法包括:分词和磁性标注,NP分块;判断文档长度,根据文档长度使用BERT模型进行文档和单词的嵌入;全局相似性度量,本发明创新性地使用文档标题和结尾来对候选关键短语进行全局相似度评估,解决因为向量空间对齐造成的对较长候选短语的偏爱;局部相似度评估,采用全新的主题中心度,对全文的候选关键短语进行主题划分和聚类,充分捕获到局部显著信息;结合位置信息、全局相似度、局部相似度对候选短语进行综合评估并打分,然后根据得分进行排名;进行后处理操作,以选择关键短语。本发明解决了语义丢失、偏爱长短语、主体信息挖掘不充分导致关键短语抽取准确率低的技术问题。

    一种Logisim电路图的查重方法及系统

    公开(公告)号:CN113836863A

    公开(公告)日:2021-12-24

    申请号:CN202111157834.X

    申请日:2021-09-30

    Applicant: 安徽大学

    Abstract: 一种Logisim电路图的查重方法及系统,属于数据处理技术领域,解决如何有效地捕捉到Logisim电路图的关键信息,减少拖拽电路图的部分元件或部分最大连通子图对查重的干扰的问题,包括以下步骤:将Logisim电路图视作以元件为节点、以导线为边的无向图,然后将无向图划分为若干最大连通子图,得到最大连通子图集合,从而创建最大连通子图集合数据集;通过计算最大连通子图的相似度,从而计算最大连通子图集合的重复率;根据计算的重复率采用阈值过滤或聚类的方法从Logisim电路图数据集找到重复的Logisim电路图;本发明的技术方案将Logisim电路图表示为最大连通子图集合,有效地捕捉到Logisim电路图的关键信息,减少多种作弊手段对查重的干扰,从而提高查重的效果。

    一种提取论文标题中的问题方法对的方法

    公开(公告)号:CN108460021B

    公开(公告)日:2021-10-12

    申请号:CN201810219012.1

    申请日:2018-03-16

    Applicant: 安徽大学

    Abstract: 本发明公开了一种提取论文标题中的问题方法对的方法,包括:对论文标题进行标准化处理,在论文标题中进行论文关键词匹配`,得到初步问题方法概念集合;利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;构建用于分隔问题和方法的目标语法模式集合;根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对。

    基于随机游走边界域处理的三支决策社团划分方法及装置

    公开(公告)号:CN109242713A

    公开(公告)日:2019-01-18

    申请号:CN201811045237.6

    申请日:2018-09-07

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于随机游走边界域处理的三支决策社团划分方法,方法包括:1)、获取抽象网络;2)、对抽象网络初始粒化后进行聚类粒化,将抽象网络划分成多个划分后社团,并将划分后社团的结构关系作为第一划分结果;3)、获取重叠社团模块度最大值对应的抽象网络的第一划分结果;4)、利用随机游走算法对边界域中的所有节点进行划分;5)、针对更新后的边界域中的每一个节点,使用三支决策法进行处理,获得第二划分结果,并将第二划分结果作为目标划分结果。本发明公开了一种基于随机游走边界域处理的三支决策社团划分装置。应用本发明,可以提高社团划分的精度,从而有助于分析和了解网络结构,便于对网络进行优化和管理。

    一种基于神经机器翻译技术的局部引文推荐方法及系统

    公开(公告)号:CN109145190A

    公开(公告)日:2019-01-04

    申请号:CN201810994562.0

    申请日:2018-08-27

    Applicant: 安徽大学

    CPC classification number: G06F17/289 G06F17/2715

    Abstract: 本发明公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。

    一种基于目标子图划分的节点注入攻击方法及装置

    公开(公告)号:CN119323234A

    公开(公告)日:2025-01-17

    申请号:CN202411875946.2

    申请日:2024-12-19

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于目标子图划分的节点注入攻击方法及装置,本发明的方法包括将包含实体节点的图结构数据集作为原始图数据;通过社区检测算法将原始图数据划分为多个子图,并根据攻击目标实体节点的位置和局部结构从多个子图中选取最相关的目标子图;基于对目标子图的攻击生成注入实体节点与目标实体节点邻域特征相匹配的特征,并对注入实体节点的特征进行优化;将优化后的注入实体节点映射至原始图数据中,并根据攻击目标实体节点的邻域结构建立与原始图数据中实体节点的连接关系,以基于连接关系完成对图神经网络的对抗性攻击。本发明解决了现有图注入攻击方法在处理大规模图数据时的效率和隐蔽性问题,并且该方法具有更高的攻击成功率。

    一种Logisim电路图的查重方法及系统

    公开(公告)号:CN113836863B

    公开(公告)日:2024-05-28

    申请号:CN202111157834.X

    申请日:2021-09-30

    Applicant: 安徽大学

    Abstract: 一种Logisim电路图的查重方法及系统,属于数据处理技术领域,解决如何有效地捕捉到Logisim电路图的关键信息,减少拖拽电路图的部分元件或部分最大连通子图对查重的干扰的问题,包括以下步骤:将Logisim电路图视作以元件为节点、以导线为边的无向图,然后将无向图划分为若干最大连通子图,得到最大连通子图集合,从而创建最大连通子图集合数据集;通过计算最大连通子图的相似度,从而计算最大连通子图集合的重复率;根据计算的重复率采用阈值过滤或聚类的方法从Logisim电路图数据集找到重复的Logisim电路图;本发明的技术方案将Logisim电路图表示为最大连通子图集合,有效地捕捉到Logisim电路图的关键信息,减少多种作弊手段对查重的干扰,从而提高查重的效果。

    基于序列级前缀提示的生成式文本摘要方法和装置

    公开(公告)号:CN115965033B

    公开(公告)日:2023-07-11

    申请号:CN202310253057.1

    申请日:2023-03-16

    Applicant: 安徽大学

    Abstract: 本申请提出一种基于序列级前缀提示的生成式文本摘要方法和装置,该方法包括:获取文本和文本的参考摘要进行预处理;将经过预处理的文本输入第一预训练模型生成多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估得到Rouge分值,并对多条候选摘要进行排序;对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型;获取待处理文本进行预处理,并输入具有序列级前缀提示的摘要生成模型,通过序列级前缀提示以自回归方式生成待处理文本的摘要。本申请能够加快摘要生成模型训练过程并大大降低计算量,同时更准确生成摘要。

    利用多视图表示融合进行专利发明人消歧的方法及系统

    公开(公告)号:CN115564611A

    公开(公告)日:2023-01-03

    申请号:CN202211303426.5

    申请日:2022-10-24

    Applicant: 安徽大学

    Abstract: 本发明提供利用多视图表示融合进行专利发明人消歧的方法及系统,方法包括:对专利数据进行预聚类;构建多个局部视图和一个全局视图;利用PatentBERT预训练模型生成文本语义表示向量;利用GAT表征模型并加入生成的节点语义表示向量在所有视图上分别获取对应节点表示向量,该表示向量融合语义信息和结构信息;融合局部视图获取的节点表示向量得到一个局部视图融合向量;接着将局部视图融合向量和全局视图向量借助对比损失进行模型训练,得到节点最终融合向量;利用层次凝聚聚类方法对最终向量进行聚类得到消歧结果。本发明通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。

Patent Agency Ranking