-
公开(公告)号:CN104978471A
公开(公告)日:2015-10-14
申请号:CN201410136268.8
申请日:2014-04-04
Applicant: 富士通株式会社
IPC: G06F19/00
Abstract: 本发明公开了一种链接强度计算方法和链接强度计算设备。该方法包括:针对给定二部图中的选定链接,构建其N级完备子图,其中第0级子图包括该选定链接及其两端的两节点,第n+1级子图包括该二部图中的、以第n级子图中的所有链接两端的节点作为端点的链接及其两端的节点,其中N为预定正整数,且N>2,n为正整数,且N-2≥n≥0,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的相似度,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的共同链接程度值;以及基于该相似度和共同链接程度值、以及该选定链接两端的两节点与第N-2级子图中的异类节点之间链接的强度初始值,利用针对该二部图的链接强度模型,计算该选定链接的强度值。
-
公开(公告)号:CN102831131B
公开(公告)日:2015-02-11
申请号:CN201110172092.8
申请日:2011-06-16
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种构建标注网页语料库的方法及装置,所述方法包括:针对预先选取的初始种子网页生成初始种子标注网页语料;按照初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页;按照初始种子网页标注语料对相关种子网页进行标注,得到相关种子标注网页语料;判断相关种子标注网页语料和初始种子标注网页语料是否满足预设条件,如果是,则将相关种子标注网页语料和初始种子标注网页语料组合为标注网页语料库;如果否,则将相关种子标注网页语料作为初始种子标注网页语料,并执行从搜索引擎中获取预设个数的相关种子网页的步骤。通过本发明实施例,能够在给定的少量种子标注语料的情况下,形成大规模的标准标注语料。
-
公开(公告)号:CN102236658B
公开(公告)日:2015-01-14
申请号:CN201010157766.2
申请日:2010-04-26
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容,其中,所述内容提取部分被配置成:根据布局块在网页中的位置,在所述具有最多布局块的布局块集合中找出首块和尾块;提取所述首块、所述尾块以及位置在所述首块和所述尾块之间的布局块的内容作为所述网页内容。
-
-
公开(公告)号:CN103678407A
公开(公告)日:2014-03-26
申请号:CN201210358626.0
申请日:2012-09-24
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30253
Abstract: 提供了一种数据处理方法和数据处理设备,该方法包括:图片识别步骤,用于对图片进行识别,以获得多个识别结果词,并根据特定组合形式从多个识别结果词生成一个或多个检索词;初始化步骤,用于对利用检索词进行检索而获得的网页进行初始化,以获得多个语句;主题相关性确定步骤,用于确定所获得的各个语句之间的主题相关性;主题段落划分步骤,用于基于所确定的主题相关性将多个语句划分为多个段落并确定各个段落的主题性值;以及主题段落选择步骤,用于基于确定的各段落的主题性值,从多个段落中选择满足预定条件的主题段落。根据本发明的实施例,能够高效准确地获取与图片相关的网页的主题段落并确定图片的主题,有利于信息检索、集成和共享。
-
公开(公告)号:CN103577414A
公开(公告)日:2014-02-12
申请号:CN201210254434.5
申请日:2012-07-20
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种数据处理方法和设备,该方法包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取步骤中下次所用的检索词,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件。根据本发明实施例,可以提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。
-
公开(公告)号:CN103514195A
公开(公告)日:2014-01-15
申请号:CN201210212664.5
申请日:2012-06-21
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06N99/005 , G01S5/0252
Abstract: 本发明提供了数据过滤装置和方法、数据处理装置和方法、无线定位设备和方法以及信息处理设备,以至少克服现有的数据过滤技术的处理精度和/或准确度低的问题。数据过滤装置包括:近邻集确定单元,其被配置用于确定待处理数据集中满足预定条件的数据子集中的每个数据的近邻集;计算单元,其被配置用于分别计算上述数据子集中的每个数据的近邻集中包含的数据量;以及过滤单元,其被配置用于基于上述数据子集中的每个数据的近邻集中包含的数据量,对上述数据子集中的数据进行过滤,以获得过滤后的数据集。数据过滤方法用于执行能够实现上述数据过滤装置的功能的处理。本发明的上述技术能够提高数据过滤的精度和/或准确度,可以用于数据处理领域。
-
公开(公告)号:CN102831128A
公开(公告)日:2012-12-19
申请号:CN201110171903.2
申请日:2011-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。
-
公开(公告)号:CN101833554B
公开(公告)日:2012-09-26
申请号:CN200910127231.8
申请日:2009-03-09
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。
-
公开(公告)号:CN102073654A
公开(公告)日:2011-05-25
申请号:CN200910226108.1
申请日:2009-11-20
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。
-
-
-
-
-
-
-
-
-