-
公开(公告)号:CN105635038B
公开(公告)日:2018-08-21
申请号:CN201410584314.0
申请日:2014-10-27
Applicant: 任子行网络技术股份有限公司
IPC: H04L29/06
Abstract: 本发明提供了一种甄别音视频网站的方法,基于中心系统和多个与所述中心系统通信的地域系统,该方法包括以下步骤:S1、中心系统通过爬虫采集域名信息;S2、对所述域名信息通过AC自动机对疑似音视频网站的域名进行标记;S3、接收地域系统请求,同步项目所属地域的域名信息给所述地域系统;S4、所述地域系统将接收到的疑似音视频网站放到爬虫采集,根据爬虫的采集情况,判断域名是否为音视频网站。本发明还提供了对应的甄别音视频网站的系统。本发明能自动、快速甄别音视频网站,及提供了高效、便捷的域名信息统一维护方法。
-
公开(公告)号:CN104750463A
公开(公告)日:2015-07-01
申请号:CN201310729260.8
申请日:2013-12-26
Applicant: 任子行网络技术股份有限公司
IPC: G06F9/44
Abstract: 本发明公开了一种插件开发方法及系统,该方法包括:S1、输入URL地址并转换为DOM树;S2、得到Java脚本抽取规则并生成插件;S3、测试插件;S4、测试插件是否通过,若通过,转至S5,若否,转至S2;S5、将插件上传并存储。实施本发明的有益效果是,快速、高效、安全地开发插件。
-
公开(公告)号:CN105828189B
公开(公告)日:2018-10-23
申请号:CN201510004698.9
申请日:2015-01-05
Applicant: 任子行网络技术股份有限公司
IPC: H04N21/442 , H04N21/435
Abstract: 本发明公开了一种多维度检测违规音视频节目的方法,利用关键词比对检测当前音视频节目中的违规关键词、获取当前音视频节目所属网站的音视频节目总数并将其记录、获取当前音视频节目所属网站的违规音视频节目总数并将其记录后;根据所述违规关键词数值、所述音视频节目总数、所述违规音视频节目总数等多维度的检测因子计算当前音视频节目是否违规;通过多维度的检测,来对违规的音视频节目进行检测和判定,进而节约了大量人力,提高了工作效率,节省了工作时间,提高了检测结果的准确性。
-
公开(公告)号:CN105515815B
公开(公告)日:2018-11-06
申请号:CN201410555223.4
申请日:2014-10-17
Applicant: 任子行网络技术股份有限公司
Abstract: 本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统,包括以下步骤:设置一个管理服务模块以及多个发布的Heritrix节点,管理服务模块监听到Heritrix节点信息后自动加入该节点并进行管理,初始种子以及节点任务,分配任务并生成配置文件;管理服务模块获取实际种子,Heritrix从实际种子的配置文件中获取实际种子,并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息,Heritrix自动判别并抽取出满足条件的链接生成初始种子队列,Heritrix节点从初始种子获得实际种子信息,并解析其附加信息实施本发明的有益效果是,本申请有效实现了Heritrix的分布式采集,有效提高了系统工作系能。
-
公开(公告)号:CN104750463B
公开(公告)日:2018-05-22
申请号:CN201310729260.8
申请日:2013-12-26
Applicant: 任子行网络技术股份有限公司
IPC: G06F8/30
Abstract: 本发明公开了一种插件开发方法及系统,该方法包括:S1、输入URL地址并转换为DOM树;S2、得到Java脚本抽取规则并生成插件;S3、测试插件;S4、测试插件是否通过,若通过,转至S5,若否,转至S2;S5、将插件上传并存储。实施本发明的有益效果是,快速、高效、安全地开发插件。
-
公开(公告)号:CN105635038A
公开(公告)日:2016-06-01
申请号:CN201410584314.0
申请日:2014-10-27
Applicant: 任子行网络技术股份有限公司
IPC: H04L29/06
Abstract: 本发明提供了一种甄别音视频网站的方法,基于中心系统和多个与所述中心系统通信的地域系统,该方法包括以下步骤:S1、中心系统通过爬虫采集域名信息;S2、对所述域名信息通过AC自动机对疑似音视频网站的域名进行标记;S3、接收地域系统请求,同步项目所属地域的域名信息给所述地域系统;S4、所述地域系统将接收到的疑似音视频网站放到爬虫采集,根据爬虫的采集情况,判断域名是否为音视频网站。本发明还提供了对应的甄别音视频网站的系统。本发明能自动、快速甄别音视频网站,及提供了高效、便捷的域名信息统一维护方法。
-
公开(公告)号:CN105828189A
公开(公告)日:2016-08-03
申请号:CN201510004698.9
申请日:2015-01-05
Applicant: 任子行网络技术股份有限公司
IPC: H04N21/442 , H04N21/435
Abstract: 本发明公开了一种多维度检测违规音视频节目的方法,利用关键词比对检测当前音视频节目中的违规关键词、获取当前音视频节目所属网站的音视频节目总数并将其记录、获取当前音视频节目所属网站的违规音视频节目总数并将其记录后;根据所述违规关键词数值、所述音视频节目总数、所述违规音视频节目总数等多维度的检测因子计算当前音视频节目是否违规;通过多维度的检测,来对违规的音视频节目进行检测和判定,进而节约了大量人力,提高了工作效率,节省了工作时间,提高了检测结果的准确性。
-
公开(公告)号:CN105515815A
公开(公告)日:2016-04-20
申请号:CN201410555223.4
申请日:2014-10-17
Applicant: 任子行网络技术股份有限公司
Abstract: 本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统,包括以下步骤:设置一个管理服务模块以及多个发布的Heritrix节点,管理服务模块监听到Heriteix节点信息后自动加入该节点并进行管理,初始种子以及节点任务,分配任务并生成配置文件;管理服务模块获取实际种子,Heritrix从实际种子的配置文件中获取实际种子,并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息,Heritrix自动判别并抽取出满足条件的链接生成初始种子队列,Heritrix节点从初始种子获得实际种子信息,并解析其附加信息实施本发明的有益效果是,本申请有效实现了Heritrix的分布式采集,有效提高了系统工作系能。
-
-
-
-
-
-
-