一种基于词向量的文档摘要自动提取方法

    公开(公告)号:CN104834735B

    公开(公告)日:2018-01-23

    申请号:CN201510254719.2

    申请日:2015-05-18

    Inventor: 林鸿飞 郝辉辉

    Abstract: 一种基于词向量的文档摘要自动提取方法,包括以下步骤:S1、利用深度神经网络模型训练语料获取特征词的词向量表示;S2、构建句子图模型;S3、计算句子权重;S4、利用最大边缘相关算法生成摘要。本发明通过采集语料集并对该语料集进行预处理,得到训练特征语料集;并利用深度神经网络模型对所构建的训练特征语料集进行训练,用于得到特征词的词向量;语料集中根据预设查询词得到候选文档集合及候选句子集合,再根据特征词的词向量得到句子间的语义相似性,从而得到两个句子之间的语义联系,避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题,从而提高相似性计算的准确性和摘要性能。

    一种串数据词典的有序构造及检索方法

    公开(公告)号:CN103761270B

    公开(公告)日:2017-02-01

    申请号:CN201410006131.0

    申请日:2014-01-06

    Inventor: 马云龙 林鸿飞

    Abstract: 一种串数据词典的有序构造及检索方法,本发明包括:S1、将串数据逐一输入到一个临时迸发树中;S2、当临时迸发树中数据量达到阈值条件时,将其合并入最终迸发树中;S3、将最终迸发树转换为六元组结构有限状态转换器;S4、将六元组结构有限状态转换器编译为三数组结构形式;S5、根据应用需求,利用编译后的三数组结构有限状态转换器实现对数据词典的检索或顺序遍历。利用本发明,能够对上千万数据项进行高效的词典构造,同时满足不同环境和应用中的检索需求。

    一种基于文本情感分析的心理评测系统

    公开(公告)号:CN106021925A

    公开(公告)日:2016-10-12

    申请号:CN201610340021.7

    申请日:2016-05-18

    Inventor: 林鸿飞 李成吉

    Abstract: 本发明属于文本情感分析领域,涉及一种心理评测系统,具体提供了一种基于文本情感分析的心理评测系统,通过将文本情感分析引入到心理评测中,提升心理评测的实效性和可靠性。该心理评测系统分为人员管理、问卷调查、心理论坛和回复情感分析四个模块。通过将文本情感分析引入到心理评测中来,可以利用对自然语言的分析和常规心理量表的测评结果进行比对,综合得到最符合实际的准确的心理测评结果,对于心理学和计算机处理文本领域的研究提供有益的参考。通过实验证明,采取本发明的心理评测系统能够快速、准确的得到被测用户的实时的心理动态,效果明显优于单独采用心理量表的测评结果。

    一种基于多故事线的微博事件摘要提取方法

    公开(公告)号:CN105787121A

    公开(公告)日:2016-07-20

    申请号:CN201610179286.3

    申请日:2016-03-25

    Inventor: 林鸿飞 刘龙飞

    CPC classification number: G06F17/30011 G06Q50/01

    Abstract: 一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。

    一种串数据词典的有序构造及检索方法

    公开(公告)号:CN103761270A

    公开(公告)日:2014-04-30

    申请号:CN201410006131.0

    申请日:2014-01-06

    Inventor: 马云龙 林鸿飞

    CPC classification number: G06F17/30737 G06F17/30634

    Abstract: 一种串数据词典的有序构造及检索方法,本发明包括:S1、将串数据逐一输入到一个临时迸发树中;S2、当临时迸发树中数据量达到阈值条件时,将其合并入最终迸发树中;S3、将最终迸发树转换为六元组结构有限状态转换器;S4、将六元组结构有限状态转换器编译为三数组结构形式;S5、根据应用需求,利用编译后的三数组结构有限状态转换器实现对数据词典的检索或顺序遍历。利用本发明,能够对上千万数据项进行高效的词典构造,同时满足不同环境和应用中的检索需求。

    基于风格表示与多任务学习的文本多风格迁移方法

    公开(公告)号:CN114969342B

    公开(公告)日:2025-04-29

    申请号:CN202210623478.4

    申请日:2022-06-02

    Abstract: 本发明提出了基于风格表示与多任务学习的文本多风格迁移方法,包括以下步骤:(1)构建多语料文本图网络,(2)使用图网络技术与图嵌入算法获取图节点表示,(3)使用标签嵌入技术获取文本风格表示,(4)使用Transformer构建编码器获取融合文本风格信息的句子表示,(5)使用Transformer构建解码器对目标文本进行风格迁移,(6)使用多任务学习方法中的参数硬共享方法,构建文本多风格迁移模型。本发明使用图神经网络与标签嵌入技术获取了效果更优的文本风格表示;基于Transformer与风格表示相结合构建文本风格迁移模型,获得了更优的文本风格迁移效果;使用多任务技术构建文本多风格迁移模型,降低了不同风格之间的影响,获得了更优的文本多风格迁移效果。

    面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法

    公开(公告)号:CN113268582B

    公开(公告)日:2024-12-17

    申请号:CN202110559680.0

    申请日:2021-05-21

    Abstract: 一种面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法,该方法包括以下步骤:S1、采集和预处理社交媒体文本数据;S2、面向抑郁情绪的文本特征抽取;S3、训练排序模型;S4、基于排序模型的抑郁风险评估。采集社交媒体文本上用户所发布的文本数据,文本数据包括“抑郁”话题下的数据和其他话题下的数据,“抑郁”话题下的数据作为模型训练中的正样本,其他话题下的数据作为模型训练的负样本;本发明将基于社交媒体的抑郁检测看作是风险评估问题,进而利用排序学习算法,对于具有潜在抑郁风险的社交媒体用户进行风险水平的排序,有益于早期检测出具有抑郁倾向的用户,有针对性的开展心理疏导和临床治疗。

    基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

    公开(公告)号:CN114547298A

    公开(公告)日:2022-05-27

    申请号:CN202210131493.7

    申请日:2022-02-14

    Abstract: 本发明涉及一种基于多头注意力和图卷积网络结合R‑Drop机制的生物医学关系抽取方法、装置和介质,要点是包括以下步骤:(1)构建医学语料的关系实例,(2)构建句法依存树,(3)使用BERT预训练模型和多头注意力提取文本的加权上下文语义表示,(4)使用ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示,(5)使用解码器对特征表示进行解码,(6)使用R‑Drop机制对神经网络进行正则化,最终得到关系类别。效果是使用端到端的训练方法,可以自动学习医学文本中的语义特征和结构特征;引入R‑Drop机制,提升模型的泛化性能;在不引入外部知识的情况下,取得了较强的关系抽取性能。

    一种基于神经网络和幽默特征的幽默识别方法

    公开(公告)号:CN108874896B

    公开(公告)日:2020-11-06

    申请号:CN201810496016.4

    申请日:2018-05-22

    Abstract: 一种基于神经网络和幽默特征的幽默识别方法,属于数据挖掘和自然语言处理领域,用以解决进行幽默识别的问题,要点是包括S1、幽默语料采集及预处理;S2、幽默特征提取;S3、文本的词向量表示;S4、神经网络模型构建;S5、幽默识别结果评价,效果是:对特定形式的幽默数据进行采集和预处理,根据相关成熟的幽默理论,充分考虑到幽默文本的语音特性,构造幽默的语音特征;利用幽默的模糊性特性,提取了句子中拥有同义词最多的词作为特征词并对其进行向量化;采用了深度学习方法,提取了幽默文本背后深层次的语义特征,并将幽默的语音特征和模糊性特征融合到神经网络当中,从而进行幽默识别,在数据集上的实验验证了本发明方法对幽默识别的有效性。

Patent Agency Ranking