一种基于社区原型的图对比学习方法

    公开(公告)号:CN119006871A

    公开(公告)日:2024-11-22

    申请号:CN202310581071.4

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明是一种基于社区原型的图对比学习方法。相比于现有的图对比学习方法,本发明更加重视社区信息,将社区检测、社区原型和节点嵌入相互关联,以提高图表示学习的质量。本发明通过结合图注意力网络(GAT)和传统的社区检测算法(标签传播算法,LPA),来学习带有社区结构信息的节点嵌入。经过大量的实验,结果表明它的性能优于现有方法。该方法可应用于无标签数据的图表示学习任务,缓解监督学习的重度依赖标签、泛化性能差、鲁棒性弱等局限性,具有广泛的应用前景。

    一种基于持续学习和提示模板的通用命名实体识别方法

    公开(公告)号:CN119005187A

    公开(公告)日:2024-11-22

    申请号:CN202310581034.3

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明的技术方案一种基于持续学习和提示模板的通用命名实体识别方法。本发明的特点在于:1.本方法只需要少量的过去实体的注释样本;2.本发明不需要扩展神经网络层,也不需要每次都复制新的编码器层来构建新的模型。本方法总是在同一个模型上进行训练,这样可以避免存储空间的浪费,也不需要每次动态调整和重新训练模型的输出层;3.本发明创新的结合了基于代表性困难度的样本重放方法和基于EWC的正则化方法,大大减轻了由于灾难性遗忘问题导致持续学习中NER模型表现迅速下降的问题。本发明可以指导开发人员更好的完成类增量设置下的命名实体识别任务,快速准确的定位非结构化文本中的命名实体并将其分类为预先定义的类型。

    基于代码组装的深度学习框架测试方法

    公开(公告)号:CN117033173A

    公开(公告)日:2023-11-10

    申请号:CN202310805601.9

    申请日:2023-07-03

    Applicant: 南京大学

    Abstract: 本发明公开了基于代码组装的深度学习框架测试方法,属于软件测试及深度学习框架测试领域。该方法使用代码组装技术,包括:首先,选定若干经典模型作为种子模型,分析其结构特点,然后将种子模型拆分成框架和可嵌入框架的语句,这之后根据一定的相似度算法对语句中的接口进行变异,并使用重塑形、参数适配和相似度阈值等手段来保证嵌入框架后生成的测试用例有较高的成功率,大幅减少变异导致的形状不匹配等问题,组装生成大量的测试用例后对框架进行测试,并使用过滤器筛选出有效的报错信息,同时使用剪枝来提高效率,最后,通过对错误报告及其对应的用例进行分析,即可发现潜在问题,对深度学习框架实现更全面的测试与评估。

    一种基于能力匹配的众包测试任务分配方法

    公开(公告)号:CN115587726A

    公开(公告)日:2023-01-10

    申请号:CN202110764872.5

    申请日:2021-07-06

    Applicant: 南京大学

    Abstract: 一种基于案情事实的深度刑期预测方法,其将深度学习的模型使用在司法领域的刑期预测方面,将案情事实处理为特征向量,刑期作为标签。方法主要分为三个步骤,第一个步骤为文本的预处理,将抽取出的案情事实做分词和特征化工程,处理后的序列作为案情的特征表示,然后将刑期划分为5个种类并为每一个案件做好标签。第二个步骤是将处理好的数据集作为输入,用fastText算法训练得到刑期预测模型,最后一个步骤是将测试集按照第一个步骤的方式处理后,使用第二个步骤得到的模型进行刑期预测,然后和实际上的标签进行比对。本发明可以基于案情事实基本准确的预测出刑期的标签,为工作人员提出量刑建议提供了参考。

    一种基于语句层感知的问题生成方法

    公开(公告)号:CN115587167A

    公开(公告)日:2023-01-10

    申请号:CN202110764752.5

    申请日:2021-07-06

    Applicant: 南京大学

    Abstract: 本发明是一个能够根据上下文及答案自动化生成问题的方法。该方法通过把整个段落进行编码,捕获整个段落的语义信息;同时使用句子级编码方式结合句子级注意力机制,获得句子间的逻辑关系。该方法克服了传统问题生成模型不能使用完整上下文信息的弊端,充分利用了上下文段落的语义信息和句子间的逻辑关系。经过大量的实验,结果表明该方法能够有效的生成较高质量的问题。本发明的目的在于提供一种高质量的问题生成方法,促进问答技术等领域的发展,加速实现智能化的人机交互,进而促进社会发展和高效率运行。

    一种面向对话系统的线程跟踪方法

    公开(公告)号:CN115587166A

    公开(公告)日:2023-01-10

    申请号:CN202110764618.5

    申请日:2021-07-06

    Applicant: 南京大学

    Abstract: 本发明是一种面向对话系统的线程跟踪方法。本方法运用RNN+Attention+Gate模型完成多轮对话的多标签意图识别,在存储器中保存上下文信息作为记忆,引入Attention机制筛选有用记忆,通过门控制来判定当前语句是否需要引用上下文信息,从而得到线程跟踪结果。本发明目的在于确定多轮对话中的不同线程,帮助用户理解该对话集的主题,从而解决根据上下文信息识别语句的多意图问题。

    一种基于深度神经网络的司法图像质量度量方法

    公开(公告)号:CN112598614A

    公开(公告)日:2021-04-02

    申请号:CN201910883978.X

    申请日:2019-09-17

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于深度神经网络的司法图像质量度量方法,用于帮助司法工作人员对获得的司法图像进行质量度量,量化图像质量,以帮助司法人员在工作时对图片质量进行预估,减少低质量材料的流入,提高工作效率。该发明的主要创新在于(1)使用裁剪技术将图片处理成符合卷积神经网络的输入,避免对图像质量造成进一步损失;(2)使用深度神经网络提取图像深层次特征;(3)利用SVR对图像质量进行量化;(4)使用统计方法得到司法图像的质量分数。

    一种网站数据的获取及迁移使用方法

    公开(公告)号:CN102289509A

    公开(公告)日:2011-12-21

    申请号:CN201110254935.9

    申请日:2011-08-31

    Applicant: 南京大学

    Abstract: 一种网站数据的获取及迁移使用方法,用于垂直电子商务网站,通过迁移学习将已有电子商务网站的历史数据信息迁移到其它电子商务网站,通过脚本采集已有电子商务网站的用户基本信息以及用户行为,由用户基本信息得到用户特征数据库,由所述已有电子商务网站的产品信息得到产品特征数据库,根据用户行为分析用户特征和产品特征的相关度,得到相关度矩阵,其它电子商务网站根据进入网站的用户基本信息,结合所述相关度矩阵,计算该用户与本电子商务网站产品的相关度,进行推荐。本发明对原有历史数据密集的系统中用户特征和产品特征相关模式进行学习,基于迁移学习方法迁移至其他类似的由于历史数据不足无法进行有效推荐的电子商务网站中使用。

    一种基于文本挖掘的邮件分析方法

    公开(公告)号:CN115599909A

    公开(公告)日:2023-01-13

    申请号:CN202110781498.X

    申请日:2021-07-09

    Abstract: 一种基于文本挖掘的邮件分析方法,包括邮件解析与预处理模块、邮件话题发现模块、邮件事件抽取模块和分析结果展示模块。邮件解析与预处理模块包括获得用户的邮件进行格式解析和文本预处理。邮件话题发现模块利用聚类算法将描述同一个话题的邮件聚为一类,从话题中提取关键短语来描述该话题。邮件事件抽取模块包括过滤掉不含事件的邮件,从含有事件的邮件中提取事件涉及的事件、实体、三元关系、关键词和高频词作为事件元素,分析事件元素之间的关系以结构化关系图的形式形成事件图谱。分析结果展示模块将提取的话题和事件信息以可视化页面的形式展现给用户,用户可以在页面上直接获取邮件的分析结果。

    一种基于生成式对抗网络的司法文本数据扩增方法

    公开(公告)号:CN115587909A

    公开(公告)日:2023-01-10

    申请号:CN202110764875.9

    申请日:2021-07-06

    Applicant: 南京大学

    Abstract: 一种基于生成式对抗网络的司法文本数据扩增方法,将生成式对抗网络进行改进,使其适用于文本数据的生成,并将其应用于司法文本的数据扩增中,以获得更为丰富的训练文本数据。主要分为三个步骤,第一个步骤为对抗生成网络模型的搭建,将传统的生成式对抗网络进行改进,使其可以应用于文本的生成;第二个步骤是文本的预处理,进行分词及词向量的应用等操作;最后一个步骤为司法文本数据的生成,将司法文本数据预处理后输入对抗生成网络中,进行司法文本数据的生成。本发明可以基于生成式对抗网络进行司法文本的生成,可应用于深度学习的数据扩增中,生成一批与原数据具有相同分布的训练及测试数据,可以更有效地使用现有数据,缓解神经网络泛化能力差的情况,从而促进司法领域深度学习模型的发展。

Patent Agency Ranking