-
公开(公告)号:CN114547418A
公开(公告)日:2022-05-27
申请号:CN202210180955.4
申请日:2022-02-25
Applicant: 哈尔滨工程大学 , 中国船舶重工集团公司第七一四研究所
IPC: G06F16/951 , G06F30/27 , G06N3/04 , G06N3/08
Abstract: 基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有针对反爬虫技术的爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。
-
公开(公告)号:CN114547418B
公开(公告)日:2024-10-22
申请号:CN202210180955.4
申请日:2022-02-25
Applicant: 哈尔滨工程大学 , 中国船舶重工集团公司第七一四研究所
IPC: G06F16/951 , G06F30/27 , G06N3/0442
Abstract: 基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。
-
公开(公告)号:CN114066321A
公开(公告)日:2022-02-18
申请号:CN202111457082.9
申请日:2021-12-01
Applicant: 中国船舶重工集团公司第七一四研究所
Abstract: 一种科技预警量化方法,它属于科技预警技术领域。本发明解决了现有科技预警方法的预警准确率低的问题。本发明方法首先选取了发展水平、影响程度、技术热度、技术差距、发展速度和政策倾向作为进行科技预警的指标,然后分别计算出每个指标的预警分值,最后对各个指标的预警分值进行加权融合,将获得的融合结果作为科技预警的量化结果。本发明方法将科技预警结果转化为量化数值的形式,利用量化的数值表征科技预警结果,与现有方法相比,本发明方法可以显著提高科技预警的准确率。本发明可以应用于科技预警。
-
公开(公告)号:CN114154475A
公开(公告)日:2022-03-08
申请号:CN202111454545.6
申请日:2021-12-01
Applicant: 中国船舶重工集团公司第七一四研究所
IPC: G06F40/186 , G06F40/289
Abstract: 一种国防科技领域报告的自动生成方法,它属于国防科技领域。本发明解决了基于现有方法获取的摘要生成国防科技领域报告时,生成报告的质量差的问题。本发明将自动摘录式和生成式摘要技术相融合,保证了文档内容理解层次的同时,实现了摘要生成的可控。再通过用户反馈,对模型进行迭代优化,提高自动摘要生成的深度和流畅;再构建报告模板和填写规则,结合用户反馈进行完善补充,实现国防领域综述类高质量报告的自动快速生成,为用户提供更加优良的自动化服务。本发明可以应用于国防科技领域报告的自动生成。
-
-
-