基于决策树和SVM混合模型的中文句型分类方法

    公开(公告)号:CN107145514A

    公开(公告)日:2017-09-08

    申请号:CN201710211762.X

    申请日:2017-04-01

    Abstract: 本发明公开了一种基于决策树和SVM混合模型的中文句型分类方法,首先获取训练样本集;根据训练样本集中各类句型的训练样本构建得到特殊陈述句决策树、疑问句决策树和否定句决策树,并且将训练样本集中的各训练样本分别输入至特殊陈述句决策树、疑问句决策树和否定句决策树进行句型判定;提取出上述决策树均不能判定的训练样本,通过这些训练样本训练得到SVM分类器。首先将测试样本输入至特殊陈述句决策树、疑问句决策树和否定句决策树进行判定,在未得出判定结果的情况下输入至SVM分类器进行分类,本发明方法将决策树和SVM分类器相结合,能准确判断出大部分正常句子,又可以高效处理一部分难以归纳总结的句子,提升句型分类准确率。

    基于新闻的事件演化关系自动提取方法及其系统

    公开(公告)号:CN104915446A

    公开(公告)日:2015-09-16

    申请号:CN201510372236.2

    申请日:2015-06-29

    CPC classification number: G06F17/30253

    Abstract: 本发明公开了一种基于新闻的演化关系自动提取方法,包括:新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取、事件演化关系分析;本发明还公开了一种新闻的演化关系自动提取系统,包括:新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块、演化关系分析。本发明可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰;具有解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络等优点。

    一种基于Adapter网络和对比学习的代码预训练方法

    公开(公告)号:CN120029600A

    公开(公告)日:2025-05-23

    申请号:CN202411961870.5

    申请日:2024-12-30

    Abstract: 本发明公开了一种基于Adapter网络和对比学习的代码预训练方法,该方法包括下述步骤:构建基于Adapter网络的代码预训练模型,获取代码语料中训练实例xd,训练基于Adapter网络的代码预训练模型,得到带有不同编程语言知识的Adapter网络;构建低资源编程语言模型;获取代码语料中的实例xc,分别构建对应的正例和负例,采用分类代价和对比学习代价联合训练低资源编程语言模型;训练得到最终的代码预训练模型,基于最终的代码预训练模型输出代码预训练结果。本发明能够在预训练多种编程语言的代码语料的同时减少已有知识的灾难性遗忘的问题,并支持新编程语言的训练,并且能够增强低资源编程语言下的模型能力。

    一种基于大语言模型的指代表达理解方法、装置及介质

    公开(公告)号:CN119206166A

    公开(公告)日:2024-12-27

    申请号:CN202411142477.3

    申请日:2024-08-20

    Inventor: 蔡毅 卜羽琦 吴欣

    Abstract: 本发明公开了一种基于大语言模型的指代表达理解方法、装置及存储介质,其中方法包括:将指代表达文本输入至大语言模型中,生成可定位到指代对象的步骤列表;迭代执行步骤列表,将图像及操作对象输入至视觉模型中,进行视觉识别、定位及推理,筛选出满足步骤约束的候选对象,将获得的候选对象应用于下一个子步骤;将最后一个候选对象作为预测的指代对象,从而得到指代对象的边界框坐标。本发明解决当前指代表达技术高度依赖于大量针对特定任务的训练数据的问题,解决当前指代表达技术难以推广至不同于训练数据分布的新场景的问题,从而提升指代表达理解与指代对象定位的准确性和泛化性。本发明可广泛应用于自然语言处理与计算机视觉技术领域。

    一种少样本跨领域情感分析方法及装置

    公开(公告)号:CN115080688B

    公开(公告)日:2024-06-04

    申请号:CN202210661020.8

    申请日:2022-06-13

    Inventor: 蔡毅 任浩鹏

    Abstract: 本发明公开了一种少样本跨领域情感分析方法及装置,其中方法包括:获取句子数据,将句子数据输入训练后的BERT编码器,获得第一特征向量;将句子数据输入训练后的GCN编码器,获得第二特征向量;对第一特征向量和第二特征向量进行特征融合,获得句子的向量表示;将句子的向量表示输入到训练后的少样本原型网络模型,输出句子的情感极性;本发明利用少样本学习技术捕捉领域共享特征以及领域特定特征,从而提高模型从源领域迁移到目标领域的情感预测效果。本发明可广泛应用于自然语言处理技术领域。

    一种结合知识库中的三元组和实体类型的生成问题方法

    公开(公告)号:CN112115687B

    公开(公告)日:2024-04-26

    申请号:CN202010872496.7

    申请日:2020-08-26

    Inventor: 蔡毅 徐静云

    Abstract: 本发明公开了一种结合知识库中的三元组和实体类型的生成问题方法,所述方法一种基于注意力机制的神经网络模型:所述神经网络模型的输入为表示重构过的三元组的词向量序列,输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先,利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构,然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列,之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列,再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示,最后处理解码器输出的词向量序列得到生成的问题。本发明结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息,通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。

    一种面向知识的指代表达理解方法、装置及存储介质

    公开(公告)号:CN117149954A

    公开(公告)日:2023-12-01

    申请号:CN202311104670.3

    申请日:2023-08-29

    Inventor: 蔡毅 卜羽琦

    Abstract: 本发明公开了一种面向知识的指代表达理解方法、装置及存储介质,其中方法包括:根据图像视觉特征与指代表达句子文本特征的相关性,将指代表达句子划分为视觉相关的句子片段与知识相关的句子片段;根据知识相关的句子片段进行知识检索,以获取知识所对应物体的类别名称;将视觉相关的句子片段与知识所对应物体的类别名称进行特征融合,从而预测得到指代对象的边界框坐标。本发明解决当前面向知识的指代表达理解技术受到指代表达句子和知识中无关信息干扰,从而导致相关知识检索错误、指代物体定位错误的问题,能够提升相关知识检索的准确性,且能够提升面向知识的指代表达理解的物体定位准确性。本发明可广泛应用于计算机视觉技术领域。

    一种基于ERNIE的远程监督关系抽取的降噪方法

    公开(公告)号:CN111125364B

    公开(公告)日:2023-04-25

    申请号:CN201911345927.8

    申请日:2019-12-24

    Inventor: 蔡毅 于洋

    Abstract: 本发明公开了一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。本发明能够使得关系预测的效果得到显著的提升。

    一种机器阅读理解的回答与干扰项生成方法、装置

    公开(公告)号:CN113010655B

    公开(公告)日:2022-12-16

    申请号:CN202110288495.2

    申请日:2021-03-18

    Inventor: 蔡毅 吴欣 徐静云

    Abstract: 本发明公开了一种机器阅读理解的回答与干扰项生成方法、装置,方法是将机器阅读理解领域中的干扰项生成与机器问答任务结合起来,通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升。本发明能实现良好的机器问答,在给定一篇文章和一个关于此文章的问题的情况下,能够准确地回答相关问题并且生成答案对应的干扰项,可广泛应用于机器阅读领域或者智能出题领域。

Patent Agency Ranking