一种基于自训练与噪声模型的因果事件抽取方法

    公开(公告)号:CN111651983A

    公开(公告)日:2020-09-11

    申请号:CN202010397785.6

    申请日:2020-05-12

    Abstract: 一种基于自训练与噪声模型的因果事件抽取方法,本发明涉及因果事件抽取的方法。本发明的目的是解决现有基于深度学习模型的因果事件抽取方法在有标注数据不足的领域或场景中效果有限的问题。过程为:一、收集已标注的目标领域文本;二、计算一个向量表示;三、计算出概率最大的标签序列;四、训练三中的模型,并对二中的模型进行微调;五、得到大量自标注数据;六、为每个单词计算一个向量表示,计算单词序列生成每个可能的标签序列的概率;七、计算自标注文本中每个单词的噪声矩阵;八、得到由单词序列生成自标注标签序列的概率;九、使用一中有标注数据与五中自标注数据共同训练二、三、六、七中的整体模型。本发明用于因果事件抽取领域。

    一种基于表格层次化建模的结构化数据生成文本方法

    公开(公告)号:CN110516213A

    公开(公告)日:2019-11-29

    申请号:CN201910828514.9

    申请日:2019-09-03

    Abstract: 一种基于表格层次化建模的结构化数据生成文本方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。一、将数据集的记录用三元组表示,分别对每条记录所属的行、列维度建模得到该记录的行向量、列向量,并引入时间轴,对不同日期的同类型数据建模得到该记录的时间向量;二、融合行向量、列向量和时间向量得到该记录新的向量表示;三、对每行记录的新向量进行均值池化得到新行向量;四、每个解码时刻,对三得到的向量进行解码,得到当前时刻每条记录的权重。本发明用于表格数据生成文本方法。

    基于共享表示的多任务语言分析系统及方法

    公开(公告)号:CN110309511A

    公开(公告)日:2019-10-08

    申请号:CN201910600598.0

    申请日:2019-07-04

    Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。

    一种中文分词增量学习方法

    公开(公告)号:CN105068996B

    公开(公告)日:2017-11-17

    申请号:CN201510604035.0

    申请日:2015-09-21

    Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数 W ‾ Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) , 完成中文分词增量的学习。本发明适用中文分词领域。

    业务处理系统及方法
    45.
    发明授权

    公开(公告)号:CN102655518B

    公开(公告)日:2016-03-02

    申请号:CN201110051970.0

    申请日:2011-03-03

    Inventor: 刘占一 和为 刘挺

    Abstract: 本发明提供了一种业务处理系统及方法,该方法包括以下步骤:任务平台获取第一终端的任务,并根据第二终端的参数为第二终端分配任务;监控模块监控第二终端的任务进度,并根据任务进度控制第一终端执行工作任务。本发明通过采用监控模块对任务进度进行监控,并根据任务进度控制第一终端执行工作任务,解决了现有技术中翻译进度不可控的问题,从而有效地保障了任务的顺利完成。

    由网页中提取双语平行正文的方法和系统

    公开(公告)号:CN102930031A

    公开(公告)日:2013-02-13

    申请号:CN201210442487.X

    申请日:2012-11-08

    Abstract: 由网页中提取双语平行正文的方法和系统,涉及语料获取技术领域。本发明克服了现有的语料库收集效率低和规模不足的问题。本发明所述的系统包括用于存储大规模随机爬取的网页及其属性的网页数据库;用于提取每个网页的标签字符串、正文内容及相关信息的正文信息提取模块;用于根据网页数据库中的所有网页的正文内容确定混合网页或单语种网页的网页类型判别模块;用于对混合网页中的双语文本进行互译判别、将判定为互译文本的双语文本保存至双语语料库的混合网页处理模块;用于针对每一个未标识匹配的单语种网页遍历网页数据库中的其它单语种网页,获得存有互译文本的两个单语种网页,并将两个网页中的正文内容保存至双语语料库单语种网页处理模块。

    业务处理系统及方法
    47.
    发明公开

    公开(公告)号:CN102655518A

    公开(公告)日:2012-09-05

    申请号:CN201110051970.0

    申请日:2011-03-03

    Inventor: 刘占一 和为 刘挺

    Abstract: 本发明提供了一种业务处理系统及方法,该方法包括以下步骤:任务平台获取第一终端的任务,并根据第二终端的参数为第二终端分配任务;监控模块监控第二终端的任务进度,并根据任务进度控制第一终端执行工作任务。本发明通过采用监控模块对任务进度进行监控,并根据任务进度控制第一终端执行工作任务,解决了现有技术中翻译进度不可控的问题,从而有效地保障了任务的顺利完成。

    一种双语语料库过滤方法及系统

    公开(公告)号:CN101201820A

    公开(公告)日:2008-06-18

    申请号:CN200710178309.X

    申请日:2007-11-28

    Abstract: 本发明公开一种双语语料库过滤方法,包括以下步骤:A.确定英汉双语句对的句长比例特征值;B.分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C.根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明公开一种双语语料库系统。本发明提供一种双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。

    一种数据检索方法及一种数据检索系统

    公开(公告)号:CN101154241A

    公开(公告)日:2008-04-02

    申请号:CN200710175757.4

    申请日:2007-10-11

    Inventor: 曹浩 高立琦 刘挺

    Abstract: 本发明公开了一种数据检索方法,包括:确定检索所需的数据源;提取所述数据源的字段,并针对各个字段设置配置参数,所述配置参数包括存储方式参数和索引方式参数;依据所述配置参数创建所述数据源的索引文件;根据用户的检索需求在所述索引文件中获取相应的检索结果。应用本发明无需针对每个检索需求重新编写程序和创建新的检索系统,有效节省了资源成本和开发成本;此外,本发明在检索过程中,可以包含用于设置检索结果显示格式的显示格式参数,当需要对页面进行修改时,只需要调整该显示格式参数即可,使美工人员和相关程序人员的工作分离开来,有效提高了检索结果显示的灵活性。

    一种基于一阶自然逻辑的多项选择问答系统

    公开(公告)号:CN119046431B

    公开(公告)日:2025-05-02

    申请号:CN202411158824.1

    申请日:2024-08-22

    Abstract: 本发明公开了一种基于一阶自然逻辑的多项选择问答系统,包括:预处理模块,用于将问题和候选答案转化为假设;一阶逻辑模块,用于利用一阶逻辑将假设分解为子假设;自然逻辑模块,用于利用自然逻辑从外部语料库改写前提,产生与原始前提传达相同含义的中间前提,并以预定义的最大推理深度λ作为停止标准,迭代生成前提到假设的推理路径;框架构建模块,用于结合一阶逻辑与自然逻辑,集成神经网络构建神经符号推理框架;结果输出模块,用于基于神经符号推理框架,计算中间前提和子假设之间的语义相似度,根据相似度得分输出得分最高的最终选择答案。本发明不仅缩短了推理路径,而且增强了动词短语的对齐。

Patent Agency Ranking