一种基于迁移学习的情感极性分析方法

    公开(公告)号:CN113326695A

    公开(公告)日:2021-08-31

    申请号:CN202110455888.8

    申请日:2021-04-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于迁移学习的情感极性分析方法,本发明首先构建文本排序模型,弥补当前语言模型缺乏句子级预训练任务的缺陷,提高模型的逻辑感知与语义表达能力。然后,构建情感极性分析模型,将文本排序模型训练得到的相关参数迁移到情感极性分析模型中对应的位置。最后,将迁移后的模型在情感极性分析数据集上继续训练。本发明利用迁移学习为情感极性分析模型引入领域先验知识,可以提高模型的领域适应性,有助于获取更高质量的句子特征,进而提高模型的分类准确率,并且,本发明所采用的注意力机制可以为情感极性分析模型降低评论文本的噪声干扰,提高模型的分类鲁棒性。

    一种面向实时新闻内容的流式话题演化跟踪方法

    公开(公告)号:CN108509517B

    公开(公告)日:2021-05-11

    申请号:CN201810195967.8

    申请日:2018-03-09

    Applicant: 东南大学

    Abstract: 本发明公开了一种面向实时新闻内容的流式话题演化跟踪方法,首先把实时采集的新闻内容,按时间段进行分批,对每一批新闻内容采用LDA方法挖掘初步话题结果;接着,在这一批新闻内容内部进行命名实体识别,并计算话题与实体间关联,以此更新实体库中的实体链接关系;然后,通过话题内部词项聚类,得到话题‑话题内类簇对应关系,并将话题结果存入话题库;最后,计算话题及其内部类簇的热度信息,并根据热度信息对LDA话题挖掘参数进行动态更新,供下一批新闻内容的话题演化跟踪使用。本发明可挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新。

    基于句法依存图的篇章级事件嵌入方法及装置

    公开(公告)号:CN111274790A

    公开(公告)日:2020-06-12

    申请号:CN202010090488.7

    申请日:2020-02-13

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于句法依存图的篇章级事件嵌入方法及装置。首先,对每篇新闻文本,使用自然语言处理工具对其进行句法依存分析,构建句法依存关系图;接着,利用迭代更新算法计算句法依存图中各节点词的权重;然后,基于句法依存图,采用负采样技术构造正负训练样本;之后,分别构建并训练事件要素权重和关系预测模型,获得篇章级事件的低维稠密向量表示;最后,将事件嵌入向量输入到机器学习模型,应用于事件分类、聚类等相关任务。本发明基于句法依存图,采用无监督方式学习产生的向量表示能够改善传统基于词袋模型的事件表示的高维稀疏、语义和语法结构缺失问题,进而提升下游事件分析相关任务的效果。

    基于数字指纹和语义特征的新闻文本侵权检测方法与装置

    公开(公告)号:CN109918621A

    公开(公告)日:2019-06-21

    申请号:CN201910119330.5

    申请日:2019-02-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置,能够通过检测文本相似性实时检测各大新闻媒体网站的新闻是否有侵权行为。本发明首先通过互联网采集新闻文本样本数据,并在新闻原文基础上构造出的侵权样本;然后利用word2vec模型实现新闻文本统一坐标系化,基于改进的局部敏感哈希方法提取文本指纹特征;接着基于长短时记忆循环神经网络模块,利用三元组损失学习文本语义特征;最后通过计算数字指纹特征和语义特征融合的相似度来判断文本是否有侵权。与现有技术相比,本发明将词语义嵌入到指纹中,更易检测出抄袭行为,并且同时利用数字特征和语义特征进行新闻文本相似度检测,能够有效提高新闻文本侵权检测的准确率。

    一种基于深度学习的钓鱼网站URL检测方法

    公开(公告)号:CN109101552A

    公开(公告)日:2018-12-28

    申请号:CN201810750707.2

    申请日:2018-07-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于深度学习的钓鱼网站URL检测方法,该方法仅根据网站URL就能够实时检测互联网上的钓鱼网站。本发明首先将URL字符串序列编码成one-hot二维稀疏矩阵,接着转化为稠密字符嵌入矩阵,输入到卷积神经网络中,抽取局部深度特征,然后将卷积神经网络的输出输入到长短期记忆网络,捕获URL序列的前后关联,最后接入softmax模型,对URL分类。本发明能避免繁冗的特征工程,通过卷积神经网络抽取局部深度关联性特征,通过长短期记忆网络学习URL中的长程依赖,能快速、准确地检测出钓鱼网站URL。

    一种面向播存网络的广播内容补包方法及系统

    公开(公告)号:CN108390764A

    公开(公告)日:2018-08-10

    申请号:CN201810002696.X

    申请日:2018-01-02

    Applicant: 东南大学

    Abstract: 本发明公开了一种面向播存网络的广播内容补包方法及系统,利用32位循环冗余检验法对接收的广播数据包进行检错,然后提取出错内容的类别、热度、内容指纹等相关参数,并利用服从指数分布的补包概率模型计算补包概率,以此概率值为依据对出错内容进行筛选和优先级评估,最后利用一个优先级队列对出错数据包进行有序补包。本发明能在保证数据包正确补回的基础上,充分兼顾播存网络的个性化特色和资源利用率,并能通过改变补包阈值灵活调节补包强度,增强播存网络的内容广播分发性能。

    基于归并聚类的并行化频繁概率子图搜索方法

    公开(公告)号:CN105354243B

    公开(公告)日:2018-05-18

    申请号:CN201510666545.0

    申请日:2015-10-15

    Applicant: 东南大学

    Inventor: 杨鹏 顾梁 王春艳

    Abstract: 本发明公开了一种基于归并聚类的并行化频繁概率子图搜索方法。本发明针对现有频繁子图搜索方法中时空消耗大、无法满足大数据环境要求等问题,首先采用节点电压法将概率子图映射为电路拓扑进行处理;然后利用归并聚类对概率子图进行聚类,有效降低时间开销;最后基于Spark框架对方法进行实现,进一步提升计算速度及可扩展性。

    一种基于语句相似度的话题观点聚类方法

    公开(公告)号:CN106372208A

    公开(公告)日:2017-02-01

    申请号:CN201610801675.5

    申请日:2016-09-05

    Applicant: 东南大学

    CPC classification number: G06F16/35 G06K9/6215 G06K9/6219

    Abstract: 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。

Patent Agency Ranking