基于深度学习的词句级短文本分类方法

    公开(公告)号:CN110717330A

    公开(公告)日:2020-01-21

    申请号:CN201910901086.8

    申请日:2019-09-23

    Inventor: 杨悦 孟宪禹

    Abstract: 基于深度学习的词句级短文本分类方法,属于自然语言处理技术领域。该方法基于词向量技术将词特征与句特征结合以表现复杂文本特征,通过卷积神经网络多个卷积核对单句句内的词向量进行卷积池化并连接全部特征图获得句向量,再将句向量按时序输入长短期记忆网络进行上下文关联以更好的表达文本内容。将待分类短文本数据经分句、分词、去除停用词并转化词向量等处理后输入词句级卷积循环神经网络进行训练,最终可获得短文本分类模型并完成短文本分类任务。该方法在测试的中文垃圾电子邮件分类与新闻文本分类上均有着较好的表现。

    一种基于角点检测的医学图像处理方法

    公开(公告)号:CN108830842A

    公开(公告)日:2018-11-16

    申请号:CN201810561043.5

    申请日:2018-06-04

    Abstract: 本发明提供的是一种基于角点检测的医学图像处理方法。一:对医学图像进行预处理;二:提取Harris角点;三:计算尺度归一化算子,检测每个点在某一个尺度响应值是否达到最大,获得提取的角点矩阵;四:获得了图像的角点矩阵之后将获得的点在图像中绘制出来,之后将角点矩阵传给聚类算法,进行聚类处理;五:给出一个K值,按照Kmeans算法进行聚类处理,用相似度矩阵作为判别函数,相似度低于阈值的类,不再进行合并。本发明无论是效果还是处理效率,亦或是在实际中的应用方面,均表现出了优越性与极大的适用价值。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708B

    公开(公告)日:2016-06-29

    申请号:CN201310241428.0

    申请日:2013-06-18

    Abstract: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种基于话题影响力的微博话题溯源方法

    公开(公告)号:CN104133897B

    公开(公告)日:2017-07-11

    申请号:CN201410374437.1

    申请日:2014-08-01

    Abstract: 本发明属于话题溯源范畴语义社会网络中的数据挖掘领域,具体涉及一种基于话题影响力的微博话题溯源方法。本发明包括:根据信息检索领域的隐形语义查询扩展方法,对输入的话题词组tp进行语义扩展,得到与给定话题相关的前k个话题;确定微博网络中的用户关系及信息传播规律,确定话题影响力TIN;根据影响力计算公式,以1h为一个时间步计算话题的影响力,得到话题在传播过程中随着时间变化的影响力趋势,其影响力强度从话题初期的缓慢增长到急剧上升最后达到平稳状态,即话题成长为热点;推导话题溯源递推公式,并确定其溯源递推终止条件,输出引发话题的源头。本发明使话题溯源递推的终止条件更加准确,溯源更加准确有效。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708A

    公开(公告)日:2013-09-25

    申请号:CN201310241428.0

    申请日:2013-06-18

    Abstract: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种基于角点检测的医学图像处理方法

    公开(公告)号:CN108830842B

    公开(公告)日:2022-01-07

    申请号:CN201810561043.5

    申请日:2018-06-04

    Abstract: 本发明提供的是一种基于角点检测的医学图像处理方法。一:对医学图像进行预处理;二:提取Harris角点;三:计算尺度归一化算子,检测每个点在某一个尺度响应值是否达到最大,获得提取的角点矩阵;四:获得了图像的角点矩阵之后将获得的点在图像中绘制出来,之后将角点矩阵传给聚类算法,进行聚类处理;五:给出一个K值,按照Kmeans算法进行聚类处理,用相似度矩阵作为判别函数,相似度低于阈值的类,不再进行合并。本发明无论是效果还是处理效率,亦或是在实际中的应用方面,均表现出了优越性与极大的适用价值。

    一种采用Wasserstein距离的差分隐私贪心分组方法

    公开(公告)号:CN112307514A

    公开(公告)日:2021-02-02

    申请号:CN202011343298.8

    申请日:2020-11-26

    Inventor: 杨悦 牛艺霖

    Abstract: 本发明公开了一种采用Wasserstein距离的差分隐私贪心分组方法,步骤1:读取第i时间点数据集Di;步骤2:将Di与数据集Di‑1进行Wasserstein距离相似度计算;步骤3:当Wasserstein距离大于给定阈值T,则直接发布;否则,执行步骤4;步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。本发明利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,降低数据发布误差,提高数据发布效用。

    一种采用Wasserstein距离的差分隐私贪心分组方法

    公开(公告)号:CN112307514B

    公开(公告)日:2023-08-01

    申请号:CN202011343298.8

    申请日:2020-11-26

    Inventor: 杨悦 牛艺霖

    Abstract: 本发明公开了一种采用Wasserstein距离的差分隐私贪心分组方法,步骤1:读取第i时间点数据集Di;步骤2:将Di与数据集Di‑1进行Wasserstein距离相似度计算;步骤3:当Wasserstein距离大于给定阈值T,则直接发布;否则,执行步骤4;步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。本发明利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,降低数据发布误差,提高数据发布效用。

Patent Agency Ranking