-
公开(公告)号:CN101727451B
公开(公告)日:2013-10-16
申请号:CN200810171185.7
申请日:2008-10-22
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种信息提取方法和装置,用于从输入的信息源中提取涉及特定主题的有用信息。该方法包括:参考预先设定的第一资源,从信息源中查找并定位所有感兴趣的各类目标语素;从信息源中选择出所有包含所找到的各类目标语素的语句;参考预先设定的第二资源,对所选出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息。在根据本发明的信息提取方法和装置中,无需对信息源进行词语划分和/或语法分析,因此可以较为简单和快速地从信息源中提取出所需的信息。
-
公开(公告)号:CN102831128A
公开(公告)日:2012-12-19
申请号:CN201110171903.2
申请日:2011-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。
-
公开(公告)号:CN102193941A
公开(公告)日:2011-09-21
申请号:CN201010124847.2
申请日:2010-03-12
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。
-
公开(公告)号:CN102163189A
公开(公告)日:2011-08-24
申请号:CN201010120101.4
申请日:2010-02-24
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。
-
公开(公告)号:CN102073641A
公开(公告)日:2011-05-25
申请号:CN200910221886.1
申请日:2009-11-19
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:从不同的信息供应源收集并抽取消费者生成媒体信息;根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。本发明还提供用于实现这种方法的装置及其程序。根据本发明的方法和装置根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且不会对用户增加额外的操作负担。
-
公开(公告)号:CN102880623B
公开(公告)日:2015-09-09
申请号:CN201110209561.9
申请日:2011-07-13
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。
-
公开(公告)号:CN102163189B
公开(公告)日:2014-07-23
申请号:CN201010120101.4
申请日:2010-02-24
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。
-
公开(公告)号:CN102193941B
公开(公告)日:2013-09-18
申请号:CN201010124847.2
申请日:2010-03-12
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。
-
公开(公告)号:CN102270201B
公开(公告)日:2013-07-17
申请号:CN201010192559.0
申请日:2010-06-01
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中,其中,针对主维度的特征和次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
-
公开(公告)号:CN102880623A
公开(公告)日:2013-01-16
申请号:CN201110209561.9
申请日:2011-07-13
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。
-
-
-
-
-
-
-
-
-