-
公开(公告)号:CN111104624B
公开(公告)日:2023-08-22
申请号:CN201811249799.2
申请日:2018-10-25
Applicant: 富士通株式会社
IPC: G06F16/958 , G06F16/95
Abstract: 本申请公开了一种内容提取方法和设备以及计算机可读存储介质。该内容提取方法包括:基于HTML标签生成HTML页面的树;检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目;滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点;和确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。
-
公开(公告)号:CN111914092A
公开(公告)日:2020-11-10
申请号:CN201910384663.0
申请日:2019-05-09
Applicant: 富士通株式会社
IPC: G06F16/36
Abstract: 公开了一种针对作者消歧的信息处理装置、方法和介质。所述装置包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。
-
公开(公告)号:CN111339396A
公开(公告)日:2020-06-26
申请号:CN201811549846.5
申请日:2018-12-18
Applicant: 富士通株式会社
IPC: G06F16/9535 , G06F16/35
Abstract: 本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
-
公开(公告)号:CN111339396B
公开(公告)日:2024-04-16
申请号:CN201811549846.5
申请日:2018-12-18
Applicant: 富士通株式会社
IPC: G06F16/9535 , G06F16/35
Abstract: 本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
-
公开(公告)号:CN111104624A
公开(公告)日:2020-05-05
申请号:CN201811249799.2
申请日:2018-10-25
Applicant: 富士通株式会社
IPC: G06F16/958 , G06F16/95
Abstract: 本申请公开了一种内容提取方法和设备以及计算机可读存储介质。该内容提取方法包括:基于HTML标签生成HTML页面的树;检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目;滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点;和确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。
-
-
-
-