-
公开(公告)号:CN111601314B
公开(公告)日:2023-04-28
申请号:CN202010457020.7
申请日:2020-05-27
Applicant: 北京亚鸿世纪科技发展有限公司 , 国家计算机网络与信息安全管理中心安徽分中心
IPC: G06F16/35 , G06F16/951
Abstract: 预训练模型加短信地址双重判定不良短信的方法和装置涉及信息技术领域。本发明由已分类短信样品集、预训练模型模块、短信采集器、文本处理器、地址提取器、网络爬虫和不良短信判断器组成;实现本发明解决传统机器学习在不良短信识别中对特征的依赖,与深度学习相比,不仅不需要大量的训练集,而且可以通过短信中的url短链接进行判断,使得语义信息稀疏的短信得到很好的识别;同时结合文本信息和短信地址来判断短信的性质比仅依据短信地址的ip判断短信的性质拥有更好的解释性和更直观的分析效果。
-
公开(公告)号:CN111601314A
公开(公告)日:2020-08-28
申请号:CN202010457020.7
申请日:2020-05-27
Applicant: 北京亚鸿世纪科技发展有限公司 , 国家计算机网络与信息安全管理中心安徽分中心
IPC: H04W12/12 , H04W4/14 , G06K9/62 , G06F16/955 , G06F16/951 , G06F16/35
Abstract: 预训练模型加短信地址双重判定不良短信的方法和装置涉及信息技术领域。本发明由已分类短信样品集、预训练模型模块、短信采集器、文本处理器、地址提取器、网络爬虫和不良短信判断器组成;实现本发明解决传统机器学习在不良短信识别中对特征的依赖,与深度学习相比,不仅不需要大量的训练集,而且可以通过短信中的url短链接进行判断,使得语义信息稀疏的短信得到很好的识别;同时结合文本信息和短信地址来判断短信的性质比仅依据短信地址的ip判断短信的性质拥有更好的解释性和更直观的分析效果。
-
公开(公告)号:CN109064189A
公开(公告)日:2018-12-21
申请号:CN201810767589.6
申请日:2018-07-13
Applicant: 北京亚鸿世纪科技发展有限公司
CPC classification number: G06Q30/0185 , G06Q30/0609 , G06Q30/0635
Abstract: 基于密集块检测的刷单检测引擎涉及信息技术领域,本发明由维度定义器,行为定义器,数据连接器,密集块检测器组成;其中密集块检测器由局部搜索器和调节模式算法组成;本发明的基于密集块检测的刷单检测引擎装置采用基于一种新的评价指标来发现在不确定图上的稠密子图,通过随机选取一个块,然后使用一种近似于贪心的方法不断调整这个块的维度,直到其达到局部最优。本发明的方法由于是在多维度对稠密子图进行比较挖掘,因此能够更加准确的找到在多个评价指标下即多个维度下都具有稠密子图特征的集合,因此能够准确而有效的确定虚假销售群体,恶意刷单的群体,具有高准确性,广泛适用性的特征。本发明可以广泛的应用于网络入侵检测、虚假微博转发量检测、僵尸粉分析以及遗传学相关研究。
-
公开(公告)号:CN107403200A
公开(公告)日:2017-11-28
申请号:CN201710680276.2
申请日:2017-08-10
Applicant: 北京亚鸿世纪科技发展有限公司
Abstract: 改进图像分割算法结合深度学习的多重不良图片分类方法涉及信息技术领域尤其是图像识别技术领域,其特征在于包含:肤色识别,肤色区域的主要成分分析,深度学习,基于卷积神经网络的色情图片识别四个主要步骤;首先通过基于YCbCr理论的肤色像素检测与皮肤区域划分算法筛除掉非色情图片,未确定类别的图片将在特征提取以后进入基于LeNet5的卷积神经网络模型进行判别。与传统的基于肤色和特征的识别相比,本发明能较好地排除非人体部位图片的噪声影响,不受光线遮挡和人体姿势的约束的优势,可以大幅度提高传统色情图片分类的准确率;与一般的基于卷积神经网络的深度学习比较,不需要海量的标注图片,其次深度残差网络的特点决定了模型能更好地分析出色情图片的特点,只需十小时左右的训练,就可达到90%以上的识别效果。
-
公开(公告)号:CN113822338B
公开(公告)日:2024-05-14
申请号:CN202110964492.6
申请日:2021-08-23
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: G06F18/214 , G06F40/232 , G06F18/2321 , G06F18/241 , G06F18/22
Abstract: 面向自然语言处理的数据投毒防御方法及系统涉及信息技术领域,本发明由由词提取器、距离字库生成器、错误词距离计算器、候选正确词集计算器、正确词替换模块、离群样本清洗器和分类器比较器组成;实现本发明的步骤包括:1)单词纠错2)离群样本清洗3)分类器更新,本发明对中文文本攻击数据投毒起到有效的防御效果。
-
公开(公告)号:CN113822338A
公开(公告)日:2021-12-21
申请号:CN202110964492.6
申请日:2021-08-23
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: G06K9/62 , G06F40/232
Abstract: 面向自然语言处理的数据投毒防御方法及系统涉及信息技术领域,本发明由由词提取器、距离字库生成器、错误词距离计算器、候选正确词集计算器、正确词替换模块、离群样本清洗器和分类器比较器组成;实现本发明的步骤包括:1)单词纠错2)离群样本清洗3)分类器更新,本发明对中文文本攻击数据投毒起到有效的防御效果。
-
公开(公告)号:CN106599155B
公开(公告)日:2020-05-26
申请号:CN201611117608.8
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
IPC: G06F16/35 , G06F40/284 , G06K9/62
Abstract: 本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
-
公开(公告)号:CN106599155A
公开(公告)日:2017-04-26
申请号:CN201611117608.8
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
Abstract: 本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
-
-
-
-
-
-
-