-
公开(公告)号:CN103377187A
公开(公告)日:2013-10-30
申请号:CN201210548190.1
申请日:2012-12-17
Applicant: 株式会社日立制作所
IPC: G06F17/27
Abstract: 本发明提供一种段落分割方法、装置以及程序。在现有的方法中,在一个文件中含有包含意义相近、特征量相似的句子的多个段落的情况下,难以正确地分割段落。段落分割装置在控制部的控制下,将从输入部输入的输入文件通过句子分割部分割为句子单位。特征量计算部将分割后的句子作为查询,对在语料库部中预先存储的文档进行联想检索来得到文档向量,类似度计算部探索类似度最大的两个文档向量,当类似度在预定阈值以上时,检索查询生成部合并两个句子设为通用要素,生成查询。特征量计算部使用该查询再生成文档向量。特征量更新部基于其可靠度更新特征量,在更新特征量的同时依次连接对应的句子来设为段落。
-
公开(公告)号:CN103377187B
公开(公告)日:2016-09-28
申请号:CN201210548190.1
申请日:2012-12-17
Applicant: 株式会社日立制作所
IPC: G06F17/27
Abstract: 本发明提供一种段落分割方法、装置以及程序。在现有的方法中,在一个文件中含有包含意义相近、特征量相似的句子的多个段落的情况下,难以正确地分割段落。段落分割装置在控制部的控制下,将从输入部输入的输入文件通过句子分割部分割为句子单位。特征量计算部将分割后的句子作为查询,对在语料库部中预先存储的文档进行联想检索来得到文档向量,类似度计算部探索类似度最大的两个文档向量,当类似度在预定阈值以上时,检索查询生成部合并两个句子设为通用要素,生成查询。特征量计算部使用该查询再生成文档向量。特征量更新部基于其可靠度更新特征量,在更新特征量的同时依次连接对应的句子来设为段落。
-