-
-
公开(公告)号:CN102799597A
公开(公告)日:2012-11-28
申请号:CN201110141390.0
申请日:2011-05-26
Applicant: 株式会社日立制作所
IPC: G06F17/30
Abstract: 本发明提供一种内容提取方法,从多种样式的文档中提取内容,包括:保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。根据本发明的内容提取方法,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。
-
公开(公告)号:CN102789452A
公开(公告)日:2012-11-21
申请号:CN201110125493.8
申请日:2011-05-16
Applicant: 株式会社日立制作所
IPC: G06F17/30
Abstract: 本发明的目的在于提供能够减少数据处理量和处理时间的提取方法。该类似内容提取方法包括:输入对象文档和比较文档的步骤;将对象文档和比较文档按照每个段落进行拆分,生成对象名词组和比较名词组的步骤;从上述对象名词组中,选择包含有进入特定单词列表中的单词在内的对象名词组的步骤;计算所选择的对象名词组与比较名词组之间的第一相似度的步骤;以第一相似度的规定顺序依次将对应于所选择的对象名词组和比较名词组的段落按照每个句子进行拆分,生成对象句名词组和比较句名词组的步骤;以及计算对象句名词组与比较句名词组之间的第二相似度,按照第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句的步骤。
-
-