-
公开(公告)号:CN111651983A
公开(公告)日:2020-09-11
申请号:CN202010397785.6
申请日:2020-05-12
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06N3/04 , G06N3/08
Abstract: 一种基于自训练与噪声模型的因果事件抽取方法,本发明涉及因果事件抽取的方法。本发明的目的是解决现有基于深度学习模型的因果事件抽取方法在有标注数据不足的领域或场景中效果有限的问题。过程为:一、收集已标注的目标领域文本;二、计算一个向量表示;三、计算出概率最大的标签序列;四、训练三中的模型,并对二中的模型进行微调;五、得到大量自标注数据;六、为每个单词计算一个向量表示,计算单词序列生成每个可能的标签序列的概率;七、计算自标注文本中每个单词的噪声矩阵;八、得到由单词序列生成自标注标签序列的概率;九、使用一中有标注数据与五中自标注数据共同训练二、三、六、七中的整体模型。本发明用于因果事件抽取领域。
-
公开(公告)号:CN110516213A
公开(公告)日:2019-11-29
申请号:CN201910828514.9
申请日:2019-09-03
Applicant: 哈尔滨工业大学
Abstract: 一种基于表格层次化建模的结构化数据生成文本方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。一、将数据集的记录用三元组表示,分别对每条记录所属的行、列维度建模得到该记录的行向量、列向量,并引入时间轴,对不同日期的同类型数据建模得到该记录的时间向量;二、融合行向量、列向量和时间向量得到该记录新的向量表示;三、对每行记录的新向量进行均值池化得到新行向量;四、每个解码时刻,对三得到的向量进行解码,得到当前时刻每条记录的权重。本发明用于表格数据生成文本方法。
-