一种网页学术报告信息抽取方法和系统

    公开(公告)号:CN107122403A

    公开(公告)日:2017-09-01

    申请号:CN201710174575.9

    申请日:2017-03-22

    Applicant: 安徽大学

    Abstract: 本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

    一种分层递阶的多粒度社团发现方法

    公开(公告)号:CN105260415A

    公开(公告)日:2016-01-20

    申请号:CN201510621622.0

    申请日:2015-09-24

    Applicant: 安徽大学

    CPC classification number: G06F16/958 G06Q50/01

    Abstract: 本发明公开了一种分层递阶的多粒度社团发现方法,其特征是按如下步骤进行:1计算所述网络中任意两个节点的相似度;2构建截距集合;3找出最大相容类集合;4近似获得等价类集合;5根据截距集合,并重复步骤3和4,从而获得不同截距下的社团结构。本发明能在原始网络结构特性的基础上发现所有节点之间的层次关系以及不同粒度的社团结构,从而确保社团划分结果的准确性和层次的唯一性。

    一种网页学术报告信息抽取方法和系统

    公开(公告)号:CN107122403B

    公开(公告)日:2020-08-07

    申请号:CN201710174575.9

    申请日:2017-03-22

    Applicant: 安徽大学

    Abstract: 本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

Patent Agency Ranking