一种面向法律文本的多关系中主要关系的抽取方法

    公开(公告)号:CN113377916A

    公开(公告)日:2021-09-10

    申请号:CN202110693377.X

    申请日:2021-06-22

    Abstract: 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。

    一种汉语句子功能成分分析方法

    公开(公告)号:CN106844348B

    公开(公告)日:2020-01-17

    申请号:CN201710077125.8

    申请日:2017-02-13

    Abstract: 一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。

    一种面向出行领域的人机多轮对话方法

    公开(公告)号:CN109063035A

    公开(公告)日:2018-12-21

    申请号:CN201810779805.9

    申请日:2018-07-16

    Abstract: 一种面向出行领域的人机多轮对话方法,它用于信息技术领域。本发明解决了目前的多轮对话系统对用户问句的意图信息和槽位信息提取存在困难的问题。本发明对短文本问句进行规范化处理,并利用DAN、CNN或BLSTM模型提取规范化处理后的短文本问句的意图信息,且基于BLSTM的模型取得了Micro‑F1值为93.47%的理想效果;利用引入意图特征词的BLSTM‑CRF模型提取规范化处理后的短文本问句的槽位信息,且模型取得了F1值为89.47%的理想效果;将历史的槽位信息和当前问句的槽位信息作为输入,确定当前的对话状态信息,并结合当前问句的意图信息确定下一步的回复策略;根据确定的回复策略选择对应的模板回复给用户。本发明可以应用于信息技术领域用。

    一种汉语句子功能成分分析方法

    公开(公告)号:CN106844348A

    公开(公告)日:2017-06-13

    申请号:CN201710077125.8

    申请日:2017-02-13

    Abstract: 一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。

    基于两两对齐的多语种句对齐方法及装置

    公开(公告)号:CN103617160B

    公开(公告)日:2017-02-08

    申请号:CN201310674134.7

    申请日:2013-12-11

    Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。

    一种基于LSTM的汉语零指代消解方法

    公开(公告)号:CN106294322A

    公开(公告)日:2017-01-04

    申请号:CN201610633621.2

    申请日:2016-08-04

    Inventor: 赵铁军

    CPC classification number: G06F17/271 G06F17/2765 G06F17/2785

    Abstract: 一种基于LSTM的汉语零指代消解方法,本发明涉及基于LSTM的汉语零指代消解方法。本发明的目的是为了解决现有方法汉语零指代消解任务的准确率低以及对语义信息理解准确率低的问题。一、对已有的文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到一个词向量字典;二、选定零指代的先行词候选集;三、如果当前零指代的先行词候选集中的候选短语是零指代真正的先行词,则该训练样本为正例样本,否则为负例样本;四、Dropout层连接逻辑回归层,表示模型输入样本被判定为正例样本的概率值,这个值作为模型的输出。本发明用于自然语言处理领域。

    一种自适应且分布无关的时间序列异常点检测方法

    公开(公告)号:CN105678409A

    公开(公告)日:2016-06-15

    申请号:CN201511029681.5

    申请日:2015-12-31

    CPC classification number: G06Q10/04

    Abstract: 一种自适应且分布无关的时间序列异常点检测方法,涉及信息技术领域,尤其涉及一种自适应且分布无关的时间序列异常点检测方法。本发明为了解决现有时间序列数据中存在未知分布、界限控制难、参数需求多、训练数据少以及‘异常’本身的模糊性的问题。本发明按以下步骤进行:一、异常点的定义;二、时间序列特征化;三、相似度和异常度确定;四、基于统计假设检验的检测;五、增强式模糊化过程。本发明解决了现有技术中时间序列数据存在的一系列技术问题,并取得良好技术效果。本发明可应用于信息技术领域。

    一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

    公开(公告)号:CN104391885A

    公开(公告)日:2015-03-04

    申请号:CN201410624648.6

    申请日:2014-11-07

    Abstract: 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到支持向量机二元分类器;6抽取候选平行短语对 ;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。

Patent Agency Ranking