-
公开(公告)号:CN103514192A
公开(公告)日:2014-01-15
申请号:CN201210212254.0
申请日:2012-06-21
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
-
公开(公告)号:CN103377199A
公开(公告)日:2013-10-30
申请号:CN201210112493.9
申请日:2012-04-16
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供一种信息处理装置和方法。信息处理方法包括:从图片中识别字符串作为备选;响应于得到备选字符串,根据其获取检索词;响应于检索词的获取,使用检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;当作为聚类结果的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
-
公开(公告)号:CN103377186A
公开(公告)日:2013-10-30
申请号:CN201210127438.7
申请日:2012-04-26
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明提供了基于命名实体识别的Web服务整合装置、方法以及设备,以至少克服现有的Web服务整合技术存在的开发效率低和/或不能适用于不同Web应用和服务的问题。Web服务整合装置包括:提取Web应用中包括的文本信息的提取单元;对文本信息进行命名实体识别的命名实体识别单元;确定Web应用的内容类别的确定单元;选择与Web应用相关的Web服务的选择单元;以及将选择的Web服务整合到Web应用中的整合单元。Web服务整合方法用于执行能够实现上述Web服务整合装置的功能的处理。上述设备包括上述Web服务整合装置。应用本发明的上述技术能够适用于不同Web应用和服务,节省时间和人力,可应用于Web服务整合领域。
-
公开(公告)号:CN103294732A
公开(公告)日:2013-09-11
申请号:CN201210056060.6
申请日:2012-03-05
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种网页抓取方法及爬虫。所述方法包括如下步骤:将种子URL注入到Web数据库中;基于Web数据库生成URL列表;按队列的顺序将URL列表中的URL馈送给网页抓取器;由网页抓取器、按照网页对应的访问模式、根据被馈送的URL来对网页进行抓取;以及基于所抓取的网页,更新Web数据库中URL的状态以及注入新发现的URL;其中,所述访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息。
-
公开(公告)号:CN101866342B
公开(公告)日:2013-09-11
申请号:CN200910133976.5
申请日:2009-04-16
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 公开了一种用于生成或显示网页标注的方法和装置,以及基于这种网页标注的信息共享系统。生成网页标注信息的方法,包括:响应于用户在客户端Web浏览器上载入的当前网页上选择了目标网页元素作为被标注对象,提取被标注对象在当前网页的文档对象模型(DOM)树中的XPath路径;基于被标注对象及当前网页中紧邻在被标注对象之前和之后的上下文网页元素的内容,生成被标注对象的特征码CF;以及基于被标注对象的XPath路径、特征码CF以及用户输入的标注,生成网页标注信息,其中,网页标注信息被存储在远程标注服务器的标注数据库中,被标注对象的特征码CF由被标注对象的基于内容的特征(CBF)及其上下文网页元素的CBF构成。
-
-
公开(公告)号:CN102999538A
公开(公告)日:2013-03-27
申请号:CN201110279602.1
申请日:2011-09-08
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了一种人物搜索方法和设备,该方法包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本发明的实施例,能够提高聚类性能,并且能够提高召回率,从而改善了用户体验。
-
公开(公告)号:CN102855264A
公开(公告)日:2013-01-02
申请号:CN201110192577.3
申请日:2011-07-01
Applicant: 富士通株式会社
Abstract: 本申请涉及文档处理方法及其装置,其中对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。
-
公开(公告)号:CN102855263A
公开(公告)日:2013-01-02
申请号:CN201110192171.5
申请日:2011-06-30
Applicant: 富士通株式会社
Abstract: 本发明实施例公开了一种对双语语料库进行句子对齐的方法及装置,其中双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表;根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典;以双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考种子翻译对的上下文内容对双语词典进行扩展;将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;依据相似度对源句子和目标句子进行对齐。通过本发明实施例,能够简化句子对齐时的流程,进而提高句子对齐的效率。
-
-
-
-
-
-
-
-