-
公开(公告)号:CN114547418A
公开(公告)日:2022-05-27
申请号:CN202210180955.4
申请日:2022-02-25
Applicant: 哈尔滨工程大学 , 中国船舶重工集团公司第七一四研究所
IPC: G06F16/951 , G06F30/27 , G06N3/04 , G06N3/08
Abstract: 基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有针对反爬虫技术的爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。
-
公开(公告)号:CN114547418B
公开(公告)日:2024-10-22
申请号:CN202210180955.4
申请日:2022-02-25
Applicant: 哈尔滨工程大学 , 中国船舶重工集团公司第七一四研究所
IPC: G06F16/951 , G06F30/27 , G06N3/0442
Abstract: 基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。
-
公开(公告)号:CN114154475A
公开(公告)日:2022-03-08
申请号:CN202111454545.6
申请日:2021-12-01
Applicant: 中国船舶重工集团公司第七一四研究所
IPC: G06F40/186 , G06F40/289
Abstract: 一种国防科技领域报告的自动生成方法,它属于国防科技领域。本发明解决了基于现有方法获取的摘要生成国防科技领域报告时,生成报告的质量差的问题。本发明将自动摘录式和生成式摘要技术相融合,保证了文档内容理解层次的同时,实现了摘要生成的可控。再通过用户反馈,对模型进行迭代优化,提高自动摘要生成的深度和流畅;再构建报告模板和填写规则,结合用户反馈进行完善补充,实现国防领域综述类高质量报告的自动快速生成,为用户提供更加优良的自动化服务。本发明可以应用于国防科技领域报告的自动生成。
-
-