基于主题模型的文档关键词抽取方法及其系统

    公开(公告)号:CN105843795A

    公开(公告)日:2016-08-10

    申请号:CN201610162410.5

    申请日:2016-03-21

    Inventor: 蔡毅 杨楷 闵华清

    CPC classification number: G06F17/2775 G06F17/30705

    Abstract: 本发明公开了一种基于主题模型的文档关键词抽取方法及其系统,其中文档关键词抽取方法包括下列步骤:文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成;其中文档关键词抽取系统包括下列模块:文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切;具有解决了目前关键词提取领域的部分不足之处,使文档总结达到更好的效果,方便用户迅速了解文档的概要。

    一种应用于电网行业的项目申报文档的相似度检测方法

    公开(公告)号:CN116881738A

    公开(公告)日:2023-10-13

    申请号:CN202311145292.3

    申请日:2023-09-06

    Inventor: 陈酌灼 蔡毅

    Abstract: 本发明公开了一种应用于电网行业的项目申报文档的相似度检测方法。所述方法根据文档模板类型和格式,匹配出相同类型的文档,作为待比较文档,形成文档库;对目标文档和待比较文档进行预处理,从而形成多组待比较相似度的句子对;计算各句子对的TF‑IDF特征,并计算TF‑IDF特征间的向量相似度,从而得到对应的相似度分数;使用训练好的神经网络对各句子对进行相似度预测,得到相应的相似度分数预测结果;根据利用TF‑IDF特征和神经网络计算出的相似度分数,按照方法权重和文档结构权重进行综合加权评分,得到最终的相似度得分,按相似度从高到低筛选排序出相似文档。本发明能有效克服现在商业应用采用技术存在的缺点与不足。

    基于人工智能的数据脱敏方法、装置、计算机设备及介质

    公开(公告)号:CN116563860A

    公开(公告)日:2023-08-08

    申请号:CN202310445560.7

    申请日:2023-04-19

    Abstract: 本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的数据脱敏方法、装置、计算机设备及介质。该方法将待脱敏图像输入字符识别模型,得到识别字符和图像位置,将识别字符和根据图像位置确定的关联字符集合,输入第一分类模型,得到第一概率向量,将待脱敏文本输入第二分类模型,得到第二概率向量,根据第一概率向量更新第二概率向量,将满足条件的第二概率向量对应的文本字符为敏感字符,根据敏感字符进行脱敏处理,将识别字符与关联字符联合输入分类模型,能够保留图像的空域特征,提高识别字符分类的准确率,将第一概率向量和第二概率向量加权相加,结合多模态信息提高敏感字符识别的准确率,从而提高多模态数据进行脱敏处理的准确率。

    一种基于推理的难度可控问题生成方法

    公开(公告)号:CN111563146B

    公开(公告)日:2023-05-23

    申请号:CN202010253345.3

    申请日:2020-04-02

    Inventor: 蔡毅 黄清宝 梁宇

    Abstract: 本发明公开了一种基于推理的难度可控问题生成的方法,包括:识别文本中的命名实体,根据设定的实体连结关系构建实体网络图;分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示;将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率;将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率;将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率,进而生成问题序列。本发明所定义的问题生成难度等级更具有人类客观逻辑性,将多跳推理融入自然语言文本的表示中,生成更加符合所定义难度的多样化问题。

    一种职位构图和自动聚类方法

    公开(公告)号:CN109829500B

    公开(公告)日:2023-05-02

    申请号:CN201910100896.3

    申请日:2019-01-31

    Abstract: 本发明公开了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。本发明首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据,提取特征信息填充职位模板,并提取公司类型信息,同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径,再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和结构化特征信息,采用K‑means算法进行聚类。

    一种个性化对话的回复生成方法

    公开(公告)号:CN111159368B

    公开(公告)日:2023-04-28

    申请号:CN201911270617.4

    申请日:2019-12-12

    Inventor: 蔡毅 黎伟钊

    Abstract: 本发明公开了一种个性化对话的回复生成方法,包括步骤:收集具有人物个性信息的对话语料数据;对收集的数据进行预处理;采用对话上下文以及预处理后的数据作为输入数据对模型进行训练;将对话上下文和人物个性信息输入训练后模型,生成新的回复。本发明通过人物个性信息和数据后处理得到一个有效的人机对话方法,同时考虑了对话中的两个人物个性并进行融合,再使用数据后处理对句子进行修整。本发明在保证回复语法通顺、逻辑连贯的前提下,生成能够体现人物个性的回复。

    一种基于Self-Attention的离线数学公式符号识别方法

    公开(公告)号:CN111160343B

    公开(公告)日:2023-03-28

    申请号:CN201911405977.0

    申请日:2019-12-31

    Inventor: 蔡毅 刘诤

    Abstract: 本发明公开了一种基于Self‑Attention的离线数学公式识别方法,包括:对输入的数学公式图像进行预处理;编码阶段:对数学公式图像进行特征提取;将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;对提取的特征的隐向量进行编码,获得特征结果向量;解码阶段:依次输入字符到嵌入层,获得嵌入向量;将特征结果向量以及嵌入向量输入到网络块,获取输入字符的结果向量;获取输入字符的结果向量对应的的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;循环解码阶段,获得数学公式图像对应的latex字符序列。本发明仅仅使用注意力机制,不仅避免了LSTM固有的长距离依赖的问题,而且极大提升了模型的训练效率和识别准确率。

    一种跨领域细粒度情感分析方法、装置及存储介质

    公开(公告)号:CN115221272A

    公开(公告)日:2022-10-21

    申请号:CN202210660427.9

    申请日:2022-06-13

    Inventor: 蔡毅 曾雨诗

    Abstract: 本发明公开了一种跨领域细粒度情感分析方法、装置及存储介质,其中方法包括:构建目标领域的细粒度情感分析模型;将无标注样本输入BERT编码器预训练语言模型获得每个单词的语法知识向量表示;基于图卷积网络,通过卷积相邻节点的特征来捕获常识关系结构特征并映射到与BERT编码器相同的单词层级维度向量空间中从而获得常识知识向量表示;拼接语法知识向量表示和常识知识向量表示作为单词的最终特征表示;优化模型的参数。本发明通过结合语法知识和常识关系知识来缩小同一分布空间内的不同领域的领域差异,对资源较少的目标领域具有较强的适应性,提高目标领域的方面抽取以及情感分析的预测效果。本发明可广泛应用于自然语言处理技术领域。

    一种融入用户好奇心机制的推荐方法

    公开(公告)号:CN109783725B

    公开(公告)日:2021-07-20

    申请号:CN201811536137.3

    申请日:2018-12-15

    Abstract: 本发明公开了一种融入用户好奇心机制的推荐方法,包括以下步骤:根据历史纪录计算新颖度和冲突度,然后通过加权求和得到刺激度,根据历史纪录的刺激度列表,训练每一个用户各自的冯特曲线;使用基于准确率的推荐方法进行学习,得到相关度列表;根据冯特曲线对物品计算其对用户的好奇心,进行排序,得到每个用户的好奇心列表;最后使用波达计数法对两个列表进行排序。

    基于两阶段解码的对话生成方法及装置、介质和计算设备

    公开(公告)号:CN112988967A

    公开(公告)日:2021-06-18

    申请号:CN202110248798.1

    申请日:2021-03-08

    Abstract: 本发明公开了一种基于两阶段解码的对话生成方法及装置、介质和计算设备,方法将对话的回复生成过程分成两个解码阶段,先向对话生成模型输入对话上下文以将其映射为词嵌入向量;然后将词向量输入到上下文自注意力编码器中,得到对话上下文的特征向量,之后将该特征向量输入到第一阶段Transformer解码器中,解码生成一个实词序列;再将实词序列输入到实词序列编码器中,得到实词序列的特征向量;最后将上下文和实词序列的特征向量一起输入到第二阶段Transformer解码器中,解码生成最终的回复。本发明通过两阶段的解码过程,防止了频率较高但缺乏语义信息的虚词对实词造成的干扰,从而提高回复的相关性和信息量。

Patent Agency Ranking