-
公开(公告)号:CN103678436B
公开(公告)日:2017-04-12
申请号:CN201310322481.3
申请日:2013-07-29
Applicant: 株式会社日立制作所
IPC: G06F17/30
Abstract: 本发明提供一种信息处理系统和信息处理方法。在文献的机器学习中降低人力成本和设备成本。信息处理系统在输入特征类型的情况下,根据所输入的特征类型和各教师数据,生成通过数值矢量表示与各教师数据有关的特征的各教师数据的特征矢量,根据各教师数据的特征矢量生成教师数据的图表,根据教师数据的图表,选择用于生成最适于传播教师数据的标签的第1图表的特征类型,进而输出第1图表,根据第1图表和无标签数据,选择应该传播赋予在教师数据中的标签的无标签数据,进而,通过在第1图表中包含选择出的无标签数据,生成第2图表,通过第2图表,将赋予在教师数据中的标签向选择出的无标签数据传播。
-
公开(公告)号:CN103377187A
公开(公告)日:2013-10-30
申请号:CN201210548190.1
申请日:2012-12-17
Applicant: 株式会社日立制作所
IPC: G06F17/27
Abstract: 本发明提供一种段落分割方法、装置以及程序。在现有的方法中,在一个文件中含有包含意义相近、特征量相似的句子的多个段落的情况下,难以正确地分割段落。段落分割装置在控制部的控制下,将从输入部输入的输入文件通过句子分割部分割为句子单位。特征量计算部将分割后的句子作为查询,对在语料库部中预先存储的文档进行联想检索来得到文档向量,类似度计算部探索类似度最大的两个文档向量,当类似度在预定阈值以上时,检索查询生成部合并两个句子设为通用要素,生成查询。特征量计算部使用该查询再生成文档向量。特征量更新部基于其可靠度更新特征量,在更新特征量的同时依次连接对应的句子来设为段落。
-
公开(公告)号:CN103377187B
公开(公告)日:2016-09-28
申请号:CN201210548190.1
申请日:2012-12-17
Applicant: 株式会社日立制作所
IPC: G06F17/27
Abstract: 本发明提供一种段落分割方法、装置以及程序。在现有的方法中,在一个文件中含有包含意义相近、特征量相似的句子的多个段落的情况下,难以正确地分割段落。段落分割装置在控制部的控制下,将从输入部输入的输入文件通过句子分割部分割为句子单位。特征量计算部将分割后的句子作为查询,对在语料库部中预先存储的文档进行联想检索来得到文档向量,类似度计算部探索类似度最大的两个文档向量,当类似度在预定阈值以上时,检索查询生成部合并两个句子设为通用要素,生成查询。特征量计算部使用该查询再生成文档向量。特征量更新部基于其可靠度更新特征量,在更新特征量的同时依次连接对应的句子来设为段落。
-
公开(公告)号:CN103678436A
公开(公告)日:2014-03-26
申请号:CN201310322481.3
申请日:2013-07-29
Applicant: 株式会社日立制作所
IPC: G06F17/30
CPC classification number: G06F17/30958 , G06F17/30994
Abstract: 本发明提供一种信息处理系统和信息处理方法。在文献的机器学习中降低人力成本和设备成本。信息处理系统在输入特征类型的情况下,根据所输入的特征类型和各教师数据,生成通过数值矢量表示与各教师数据有关的特征的各教师数据的特征矢量,根据各教师数据的特征矢量生成教师数据的图表,根据教师数据的图表,选择用于生成最适于传播教师数据的标签的第1图表的特征类型,进而输出第1图表,根据第1图表和无标签数据,选择应该传播赋予在教师数据中的标签的无标签数据,进而,通过在第1图表中包含选择出的无标签数据,生成第2图表,通过第2图表,将赋予在教师数据中的标签向选择出的无标签数据传播。
-
-
-