-
公开(公告)号:CN113505288B
公开(公告)日:2023-08-01
申请号:CN202110718272.5
申请日:2021-06-28
Applicant: 南京大学
IPC: G06F16/951 , G06V20/62 , G06F40/289 , G06F40/216 , G06F16/35 , G06F16/955
Abstract: 本发明提供了一种基于统计和桩定位视觉的快速检测和定位方法,包括:步骤1:统计网站库中所有网站的词频;步骤2,建立页面的视觉坐标系,并采集网页内容;步骤3,探测网页中关键词元素的坐标,作为桩标志;步骤4,抓取页面内所有元素的坐标,得到有效纵坐标区域;步骤5,筛选页面中处于有效纵坐标区域内的元素,称为靶元素;步骤6,对靶元素的横坐标进行统计分析,并且划分区间;步骤7,根据筛选策略,选出小于且最接近于桩标志的横有效横坐标区间。步骤8,在页面视觉坐标系中,横坐标落在有效横坐标区间内的元素即为有效元素。然后结合桩标志,实现对列表的目标检测,从而快速定位列表的元素,从而加快网页信息的采集。
-
公开(公告)号:CN112347247A
公开(公告)日:2021-02-09
申请号:CN202011177997.X
申请日:2020-10-29
Applicant: 南京大学
IPC: G06F16/35 , G06F40/242 , G06F40/258 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。
-
公开(公告)号:CN113569044B
公开(公告)日:2023-07-18
申请号:CN202110718603.5
申请日:2021-06-28
Applicant: 南京大学
IPC: G06F16/35 , G06F16/903 , G06F16/951 , G06F16/955
Abstract: 本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法,包括:步骤1,探测网页中包含的所有链接;步骤2,对获取的网页进行依次访问;步骤3,判别对应的网页是否属于对任务有用;步骤4,对网址的模式进行分析,并将其进行归类(有用或者无用);步骤5,对剩余的网址先进行网址模式的匹配,如果已经有类似模式,则按照相应类别的标签进行处理,如果没有发现过类似的模式,则重复步骤2、3、4;步骤6,当所有网址都已经探查完成,返回对任务有益的网址结果表以及探查过的网址模式表。
-
公开(公告)号:CN112347247B
公开(公告)日:2023-10-13
申请号:CN202011177997.X
申请日:2020-10-29
Applicant: 南京大学
IPC: G06F16/35 , G06F40/242 , G06F40/258 , G06F40/289 , G06F18/241 , G06N3/08
Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。
-
公开(公告)号:CN113569044A
公开(公告)日:2021-10-29
申请号:CN202110718603.5
申请日:2021-06-28
Applicant: 南京大学
IPC: G06F16/35 , G06F16/903 , G06F16/951 , G06F16/955
Abstract: 本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法,包括:步骤1,探测网页中包含的所有链接;步骤2,对获取的网页进行依次访问;步骤3,判别对应的网页是否属于对任务有用;步骤4,对网址的模式进行分析,并将其进行归类(有用或者无用);步骤5,对剩余的网址先进行网址模式的匹配,如果已经有类似模式,则按照相应类别的标签进行处理,如果没有发现过类似的模式,则重复步骤2、3、4;步骤6,当所有网址都已经探查完成,返回对任务有益的网址结果表以及探查过的网址模式表。
-
公开(公告)号:CN113505288A
公开(公告)日:2021-10-15
申请号:CN202110718272.5
申请日:2021-06-28
Applicant: 南京大学
IPC: G06F16/951 , G06K9/32 , G06F40/289 , G06F40/216 , G06F16/35 , G06F16/955
Abstract: 本发明提供了一种基于统计和桩定位视觉的快速检测和定位方法,包括:步骤1:统计网站库中所有网站的词频;步骤2,建立页面的视觉坐标系,并采集网页内容;步骤3,探测网页中关键词元素的坐标,作为桩标志;步骤4,抓取页面内所有元素的坐标,得到有效纵坐标区域;步骤5,筛选页面中处于有效纵坐标区域内的元素,称为靶元素;步骤6,对靶元素的横坐标进行统计分析,并且划分区间;步骤7,根据筛选策略,选出小于且最接近于桩标志的横有效横坐标区间。步骤8,在页面视觉坐标系中,横坐标落在有效横坐标区间内的元素即为有效元素。然后结合桩标志,实现对列表的目标检测,从而快速定位列表的元素,从而加快网页信息的采集。
-
-
-
-
-