用于海量短文本信息发现的自动机方法

    公开(公告)号:CN104077358A

    公开(公告)日:2014-10-01

    申请号:CN201410243718.3

    申请日:2014-06-03

    Applicant: 南京大学

    CPC classification number: G06F17/30628 G06F17/30675

    Abstract: 本发明提供一种用于海量短文本信息发现的自动机方法,包括如下步骤:1)自动机建立:a用Trie树结构保存所有关键词,其中树节点视为状态,树边视为状态跳转;b为每个节点的跳转信息建立哈希表;c为每个词尾状态添加词尾标记和整词信息;d为每个节点添加fail跳转;e结束;2)自动机运行:a逐字读取文本,根据当前状态的跳转信息和读入字符进行跳转操作;b每当跳转到词尾状态时,输出该状态内保存的整词信息;c结束。本发明用于海量短文本信息发现的自动机方法在保证正确性的前提下,利用自动机方法大大提高了海量文本信息发现的效率,利用哈希表的方法减少了自动机跳转时查找跳转表的耗时,全程自动化,用户体验友好。

    基于牙科全景图的皮质骨宽度自动计算方法

    公开(公告)号:CN102663387A

    公开(公告)日:2012-09-12

    申请号:CN201210110064.8

    申请日:2012-04-16

    Applicant: 南京大学

    Abstract: 本发明提供一种基于牙科全景图片的皮质骨宽度CW计算方法,包括如下步骤:1)基于OTSU和DLS的颏孔识别:a)图像预处理,使图像的颏孔和轮廓变得明显;b)采用OTSU方法对图像的阈值分割;c)形态学处理,让阈值分割后的图像边缘更加平滑;d)利用Canny算子检测图像边缘;e)最小二乘法椭圆拟合;f)结束;2)基于图像聚类和DLS的皮质骨宽度计算;a)提取ROI,提取左ROI时是以左颏孔为右上角,以颏孔到全景图下边缘为边长;而右ROI是以颏孔为左上角,以颏孔到全景图下边缘为边长;b)ROI预处理;c)图像聚类;d)形态学处理;e)最小二乘法曲线拟合;f计算皮质骨宽度,即计算颏孔点到上下边缘的距离差;g)结束。本发明在基于牙科全景图片下,实现了颏孔的自动识别和基于ROI的CW计算,在CW计算方法中提高了CW计算的准确性和效率,为医学图像处理提供了方便。

    基于权重的链接多属性的实体识别方法

    公开(公告)号:CN101482876B

    公开(公告)日:2011-11-09

    申请号:CN200810244679.3

    申请日:2008-12-11

    Applicant: 南京大学

    Abstract: 本发明基于权重的链接多属性的实体识别方法,包括以下步骤:1)数据预处理阶段:a)收集节点间关系数据;b)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;c)生成给定节点的四层联系图;d)结束;2)实体识别阶段:a)通过把1-c生成的联系图中链接多属性映射为单属性得到中间关联图;b)计算给定节点与中间关联图中的其他节点的相似度;c)进行相似度排序,得到相似度前几位的节点编号;d)结束;本发明的基于权重的链接多属性的实体识别方法,利用了实际中关系数据的权重和模式信息来进行相似度度量,以此扩展了传统的实体识别的相似度度量方法,并使用提出的相似度量方法成功解决了链接多属性的实体识别问题。

    一种基于漏洞攻击的安全协议验证方法

    公开(公告)号:CN101977180A

    公开(公告)日:2011-02-16

    申请号:CN201010265437.X

    申请日:2010-08-21

    Abstract: 一种基于漏洞攻击的安全协议验证方法,方法采用安全协议一致性目标来描述安全协议的认证性与秘密性安全属性,使用基于进程状态变迁规则定义与数据类型映射模式的方式实现对安全协议的建模。本方法将对安全协议的验证转换成攻击者基于会话消息的性质约束,求解目标会话数据,攻击协议会话,发现安全协议漏洞的过程。本方法通过对安全协议的建模,实现攻击者由安全协议规则约束出发,通过拆分约束形成求解目标,并由求解过程形成求解域,最终实现对安全协议漏洞的搜索与验证。实验证明,本方法针对规则安全协议具备可终止性。

    一种基于图神经网络的自适应众包任务推荐方法

    公开(公告)号:CN114418253B

    公开(公告)日:2025-04-25

    申请号:CN202110664342.3

    申请日:2021-06-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于图神经网络的自适应众包任务推荐方法,获取真实应用场景中的众包任务对象集合和推荐人群集合,根据众包任务对象和推荐人群依据经典KNN方法构建出众包网络图结构和推荐人群网络图结构;利用图神经网络方法GCN分别在众包网络图结构、推荐人群网络图结构上进行多轮信息传播,对众包任务以及推荐人进行任务嵌入表示和推荐人嵌入表示学习;递归的进行嵌入表示学习操作,多轮学习后,将得到的众包嵌入表示和推荐人嵌入表示采用t‑SNE映射到同一空间当中,根据邻近原则,将对应的任务推荐到具体到个人。本发明不仅可精准推荐众包任务到个人,而且比传统的众包任务推荐方法更加高效且准确,且更加科学合理。

    一种基于知识图谱的众测助理实现方法

    公开(公告)号:CN113297089B

    公开(公告)日:2023-06-20

    申请号:CN202110642819.8

    申请日:2021-06-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于知识图谱的众测助理实现方法。数据采集阶段,确定好与测试领域相关的关键词;数据预处理阶段,设计相应的规则提取内容中的三元组,同时将别名、外文名用于实体对齐,与通用知识图谱CN‑DBpedia合并;数据存储阶段,以图数据库Neo4j存储数据,利用Cypher查询语句将三元组嵌入图数据库中;问句解析阶段,从用户的输入中,利用模板匹配从中抽取出槽值对,槽对应实体,值对应关系或属性,用py2neo嵌入Cypher语句查询相应的结果,并以聊天格式返回给用户。本发明以图数据库作为存储结构,满足了智能助理所要求的最大延时,领域内的知识图谱能够使智能助理为测试人员提供更好的帮助。

    一种众包任务中的数据偏见处理方法

    公开(公告)号:CN113361762A

    公开(公告)日:2021-09-07

    申请号:CN202110612266.1

    申请日:2021-06-02

    Applicant: 南京大学

    Abstract: 本发明提出了众包任务中的数据偏见处理方法。在众包数据收集阶段,需要获取足够多的数据,并且需要保证数据质量。但是在利用众包获取大量的标签数据可能会存在偏见。该方法利用可解释机器学习方法对众包数据收集的结果进行诊断,分析可能存在的机器学习方法中前处理,后处理对众包数据可能存在的偏见进行处理。数据偏见分析和诊断阶段,对数据中可能存在的偏见和模型漏洞进行分析;前处理阶段,通过前处理,包括盲点法,因果歧视法改善数据偏见,提升模型公平性;后处理阶段,通过均等机会,均等PPV等方法改善模型偏见。本发明可以比较有效地诊断数据收集过程中可能存在的偏见,并可以较为有效地消除后续可能使用数据的机器学习模型偏见。

    一种基于有监督情感文本和词向量的情感词典构建方法

    公开(公告)号:CN108647191B

    公开(公告)日:2021-06-25

    申请号:CN201810473308.6

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。

    一种基于对抗训练和对抗学习网络的半监督文本分类方法

    公开(公告)号:CN110532377A

    公开(公告)日:2019-12-03

    申请号:CN201910395284.1

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于对抗训练和对抗学习网络的半监督文本分类方法,在初始化网络阶段,首先初始化预测网络,其次初始化评判网络;对抗学习训练阶段,通过预测网络和评判网络的对抗作用,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果;模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测。该方法利用对抗训练可以有效提高模型的正则化能力,增强模型的鲁棒性,同时借鉴对抗学习可以直接利用未标记样本进行模型的训练,通过对抗学习网络中子网络间的对抗作用不断迭代,能有效提高网络的分类性能。

    适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法

    公开(公告)号:CN105184075B

    公开(公告)日:2018-07-06

    申请号:CN201510553048.X

    申请日:2015-09-01

    Applicant: 南京大学

    Abstract: 本发明提供一种适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,包括如下步骤:1)寻找初始社团阶段:a寻找中心点,并初始化社团;b搜索多三角形群组,加入到初始社团;c重复上述步骤直到中心点的度数小于阈值;d将未分派的结点加入到初始社团;e结束;2)合并初始社团阶段:a计算每两个社团之间的相似度;b选择最相似的两个社团合并;c重复以上步骤直到结束。基于多三角形群组相似性凝聚的重叠社团发现方法适用于TCMF网络,利用多三角形的技术大大提高了社团划分的准确度,可以从TCMF网络当中准确地发现药群社区结构信息。

Patent Agency Ranking