基于一致性文本增强的远程监督关系抽取方法及装置

    公开(公告)号:CN113392216A

    公开(公告)日:2021-09-14

    申请号:CN202110699269.3

    申请日:2021-06-23

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于一致性文本增强的远程监督关系抽取方法及装置,该方法包括:按实体对和关系标签对多个句子实例进行划分,得到多个句子包;对每个句子包中的每个句子实例采用不同的文本增强方法,得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本;确定噪声样例,并通过无关系句子实例以及噪声样例的强增强样本和弱增强样本对关系预测模型进行训练,得到训练好的关系预测模型;利用训练好的关系预测模型对待预测的句子包进行预测,获得与其对应的关系标签。通过本发明,通过一致性文本增强,能够增加数据集规模,增强模型的泛化学习能力,让“NA”类别和噪音样例约束模型学习更多的监督信息。

    一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

    公开(公告)号:CN111666376A

    公开(公告)日:2020-09-15

    申请号:CN202010434060.X

    申请日:2020-05-21

    Applicant: 武汉大学

    Abstract: 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置,其中的装置包含两个基础模块:答案检索模块和个性化描述模板选择模块。在答案检索模块采用基于问答边界预测的开放域答案抽取模型,基于TF-IDF匹配的搜索组件,抽取与查询相关的文档集合,并结合RNN问答边界预测阅读理解模型,从文档集合中寻找答案实体。在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型,其主要核心采用词移距离的算法,计算查询与所有人工标注个性化描述模版的中心距离,判断查询文本属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终个性化自然语言描述。本发明可以提高其答案生成准确率和多样性。

    一种主题增强的聊天机器人回复生成方法及装置

    公开(公告)号:CN110069611A

    公开(公告)日:2019-07-30

    申请号:CN201910294250.3

    申请日:2019-04-12

    Applicant: 武汉大学

    Abstract: 本发明提供了一种主题增强的聊天机器人回复生成方法及装置,其中的方法首先对对话文本进行预处理和采样,得到对话训练集;然后利用CNN的对对话文本就进行主题抽取,得到文本主题;再利用文本主题,通过MLP预测回复主题,得到预测回复主题;最后,将对话训练集输入到Seq2Seq生成模型,文本主题和预测回复主题通过Gate引入生成模型辅助生成过程,得到聊天机器人对话回复。本发明可以达到降低高频一般回复的生成概率,使神经对话模型能生成更加连贯、丰富的回复的技术效果。

    一种语义强化主题模型及主题演化分析方法

    公开(公告)号:CN109840324A

    公开(公告)日:2019-06-04

    申请号:CN201910020033.5

    申请日:2019-01-09

    Applicant: 武汉大学

    Abstract: 本发明公开了一种语义强化主题模型及主题演化分析方法,语义强化主题模型通过将条件随机场融入关联主题模型,利用词向量的语义强化特质提高相似词归属到同一主题的概率,并利用下上文相关词剔除噪声,从而有效增强主题抽取的语义连贯性。其次,本发明提出了一种不同主题之间演化关系的构建算法,动态从文本数据流中构建主题并生成主题演化图,实现核心主题和子主题之间的演化分析。在新浪微博数据集上的实验结果表明,本发明的主题抽取方法在主题连贯性指标上优于5种基准主题模型,并能自动生成主题演化图,从而有效挖掘出文本中的主题演化模式。

    一种筛选抗褐飞虱水稻的方法及其专用引物

    公开(公告)号:CN102296108A

    公开(公告)日:2011-12-28

    申请号:CN201110170178.7

    申请日:2011-10-12

    Abstract: 一种辅助筛选抗褐飞虱水稻的方法与其专用引物。辅助筛选抗褐飞虱水稻的引物,是由序列表中序列B14F1、B14R1、B14F2和B14R2的核苷酸序列组成的四条引物。该方法是以待检测水稻的基因组DNA为模板,用序列表中序列B14F1、B14R1、B14F2和B14R2的核苷酸序列组成的四条引物进行PCR扩增,如该待测水稻的扩增产物为大小566bp的条带,则该待测水稻为候选抗褐飞虱水稻。该方法可用于选育抗褐飞虱水稻,缩短抗褐飞虱水稻的育种周期,加快育种速度,降低育种成本,具有操作简单,成本低廉,周期短的优点,适应于推广应用,为选育抗褐飞虱水稻品种提供了一种快捷的检测方法。

    基于全局信息和局部信息的代码搜索嵌入方法及装置

    公开(公告)号:CN113449076B

    公开(公告)日:2022-08-30

    申请号:CN202110697410.6

    申请日:2021-06-23

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于全局信息和局部信息的代码搜索嵌入方法及装置。本发明中设计了一个共享的线性层和卷积层接在ON‑LSTM后面,利用共享的网络参数,能够将“双塔”ON‑LSTM模型输出后的顺序信息融合增强,加强对全局信息的利用;巧妙地应用ON‑LSTM的结构特性,选择其中的结构信息并使用CNN增强,通过曼哈顿距离的计算,加强对局部信息的利用;通过将各个模块输出的交互向量、结构向量、全局信息向量拼接成特征向量,再计算相似度,平衡全局信息和局部信息。

    一种基于词向量增强的短文本主题抽取方法

    公开(公告)号:CN109086375B

    公开(公告)日:2021-10-22

    申请号:CN201810816147.6

    申请日:2018-07-24

    Applicant: 武汉大学

    Abstract: 本发明涉及一种基于词向量增强的短文本主题抽取方法,具体涉及了一种新的短文本主题抽取模型,称为CRFTM(Condition Random Field regularized Topic Model)。首先,本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离,通过将短文本聚合成伪文档来缓解稀疏性问题。其次,CRFTM还利用条件随机场(CRF)正则化模型,对语义相关的词语进行语义强化,使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明,本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。

    一种基于结构化嵌入的交互式代码搜索方法及装置

    公开(公告)号:CN111159223B

    公开(公告)日:2021-09-03

    申请号:CN201911420354.0

    申请日:2019-12-31

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于结构化嵌入的交互式代码搜索方法,首先从收集的原始数据中抽取出软件存储库以及代码‑描述匹配对的模型语料,然后对代码存储库及模型语料的分词,接着采用预设工具构建预训练的结构化嵌入;接下来抽取高质量模型语料并划分;然后构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数;再将预训练结构化词嵌入加载至交互式代码搜索NICS模型,并对NICS模型进行训练,最后利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明可以有效地检索代码片段,并在所有基准测试中取得最先进的性能。

    一种基于多源产业波及效应的最大影响子图抽取方法

    公开(公告)号:CN112699306A

    公开(公告)日:2021-04-23

    申请号:CN202110029082.2

    申请日:2021-01-11

    Applicant: 武汉大学

    Abstract: 本发明提出了一种基于多源产业波及效应的最大影响子图抽取方法。本发明从官方网站获取最新产业投入产出表,并计算得到直接消耗系数矩阵,使用威弗‑托马斯指数方法得到阈值,结合直接消耗系数矩阵构建产业关联网络;根据直接消耗系数矩阵使用价格波及理论计算得到单源产业波及系数;对单源产业波及进行拓展,得到多源产业波及系数;利用多源产业波及系数计算得到每个产业子图的影响,根据最大影响子图算法抽取得到影响最大的子图节点;根据产业关联网络对影响最大的子图节点进行可视化。本发明能够更加清晰明确的反映出,当多源产业发生波动时,受到影响最大的产业节点及其关联关系,为决策部门优化产业结构,提升产业竞争力等提供工具支持。

    一种基于词向量增强的短文本主题抽取方法

    公开(公告)号:CN109086375A

    公开(公告)日:2018-12-25

    申请号:CN201810816147.6

    申请日:2018-07-24

    Applicant: 武汉大学

    Abstract: 本发明涉及一种基于词向量增强的短文本主题抽取方法,具体涉及了一种新的短文本主题抽取模型,称为CRFTM(Condition Random Field regularized Topic Model)。首先,本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离,通过将短文本聚合成伪文档来缓解稀疏性问题。其次,CRFTM还利用条件随机场(CRF)正则化模型,对语义相关的词语进行语义强化,使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明,本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。

Patent Agency Ranking