文本信息的查重方法、装置及电子设备

    公开(公告)号:CN109359183B

    公开(公告)日:2021-04-23

    申请号:CN201811185091.5

    申请日:2018-10-11

    Abstract: 本发明提供了一种文本信息的查重方法、装置及电子设备,涉及信息处理的技术领域,包括获取待查询文本;对待查询文本进行段落拆分处理,得到待查询文本的多个拆分段落;对每个拆分段落进行哈希函数处理,得到拆分段落的特征指纹;将拆分段落的特征指纹进行分段处理,得到多个特征指纹片段,并将每个特征指纹片段与其对应的特征指纹片段库中的预设特征指纹片段进行匹配,根据匹配结果确定查重结果。该方法通过将每个特征指纹片段与其对应的特征指纹片段库进行匹配,能够快速的得到查重结果,并且是对每个拆分段落进行的查重,查重结果的相似度性能好,缓解了现有的文本信息查重方法存在检索速度慢、检索结果的相似度性能差的技术问题。

    一种基于AC自动机的字符串多模模糊匹配方法

    公开(公告)号:CN112100361B

    公开(公告)日:2021-02-26

    申请号:CN202011259026.X

    申请日:2020-11-12

    Abstract: 本发明公开了一种基于AC自动机的字符串多模模糊匹配方法,该方式包括以下步骤:利用规则对多组带有标签的模式串集合进行定义,将定义后的带有标签的模式串加入数据库;判断文本内容是否为首次查询;若文本内容为首次查询,则将数据库中所有带有标签的模式串读取,并通过预先配置的方法实现对Trie树的构建;在Trie树上采用预设规则完成fail指针的构建;采用预设方法实现文本内容与多组带有标签的模式串集合之间的查询匹配。有益效果:本发明在AC自动机的基础上加入模糊匹配的功能,不仅能够有效利用到多模字符串中的公共前缀,减少比较次数,而且能支持模糊匹配,具有一定的鲁棒性,简单高效。

    基于领域实体提取和关联分析的信息溯源方法及装置

    公开(公告)号:CN111737488B

    公开(公告)日:2021-02-02

    申请号:CN202010533329.X

    申请日:2020-06-12

    Abstract: 本发明提供的一种基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;在所述预设实体关系模型输入查询实体后,获取初始查询结果,实现较准确的定位到与泄密相关的员工信息。当输入要查询的实体后,会从预设实体关系模型中查询到相关信息,由于预设实体关系模型内包含了所有的原始数据,使得数据比较全面,且均提取了原始数据中有用信息,然后利用这些有用信息得到查询结果,可以较准确的定位到与泄密相关的员工信息。

    基于小粒度策略混合模型的汉语命名实体识别方法及系统

    公开(公告)号:CN111881685A

    公开(公告)日:2020-11-03

    申请号:CN202010697183.2

    申请日:2020-07-20

    Abstract: 本发明公开了基于小粒度策略混合模型的汉语命名实体识别方法及系统,该方法包括:S1、预先配置待识别语料文本和待标注语料文本;S2、采用预设规则对待标注语料文本进行预处理,并标注出待标注语料文本中的分词与词性;S3、通过人工方式将训练集中的需要识别的实体采用预设方法在小粒度策略下进行训练集标注;S4、利用测试集对训练后的识别模型的性能进行测评;S5、将待识别语料文本输入训练后的识别模型,得到命名实体识别初步结果,并通过预先构建好的词典对命名实体识别初步结果进行二次识别。有益效果:该基于小粒度策略混合模型的汉语命名实体识别方法具有更高的准确率、识别能力。

    图像隐写检测方法、装置及设备
    25.
    发明公开

    公开(公告)号:CN115272702A

    公开(公告)日:2022-11-01

    申请号:CN202211080486.5

    申请日:2022-09-05

    Abstract: 本申请提供一种图像隐写检测方法、装置及设备,涉及图像处理技术领域。该图像隐写检测方法包括:对待处理图像进行多维特征提取,得到多个维度的图像特征;对多个维度的图像特征进行深度特征提取,得到多个尺度的深度特征;对多个尺度的深度特征进行融合,得到融合特征;对融合特征进行分类预测,得到预测结果,预测结果用于表示待处理图像是否为隐写图像。本申请通过提取多维特征,以捕获不同隐写算法带来的特征信息,通过融合特征以强化特征矩阵中隐写的特征信息,最后通过预测结构判断图像是否隐写。采用本申请提供的方法,针对待处理图像仅检测一次,便可以分析多种隐写算法,既提高了图像隐写检测的准确度,还有效降低了计算复杂度。

    一种复杂文档图像倾斜校正方法
    26.
    发明公开

    公开(公告)号:CN114140785A

    公开(公告)日:2022-03-04

    申请号:CN202111465849.2

    申请日:2021-12-03

    Abstract: 本发明公开了文档图像倾斜校正技术领域的一种复杂文档图像倾斜校正方法,该方法的具体步骤为:S1:文本区域提取;S2:文字连通域筛选;S3:文本行提取;S4:校正图像;本发明支持复杂文档图像,通过文本区域提取,去除了文档图像中的复杂内容干扰,提高方法的鲁棒性;通过文字连通域筛选,进一步去除文档图像中可能存在的线段以及噪声点,并且根据文档图像中存在相同大小文字的先验知识,计算文字连通域最小外接矩形面积聚集点,据此得到有效的文字区域,提高算法精度;通过文本行方向探索以及逐渐扩张方法,降低文本行扩张出错的概率,最后筛选出置信度最高的文本行以计算文档倾斜角度,保证校正方法的精度。

    一种基于基因表达式编程的动态搜索空间设计方法

    公开(公告)号:CN114120073A

    公开(公告)日:2022-03-01

    申请号:CN202111295586.5

    申请日:2021-11-03

    Abstract: 本发明公开了互联网技术领域的一种基于基因表达式编程的动态搜索空间设计方法,包括以下步骤将视频分片切割,从中获取图像数组和语音信息;通过特征提取器提取图像数组的图像特征和语音信息的语音特征,构成图像特征列表和语音特征列表;将图像特征列表与音频特征列表中的特征融合的方式表示成基因表达式;使用基于半监督学习的方法评估各表达式的性能,依据评估性能选出最佳的融合模块。与传统NAS搜索空间设计方法相比,本发明提供结构差异更加明显的基本单元结构,可搜索出更加灵活、自动化程度更高的网络结构。

    一种任意字符组合的OCR数据生成的方法

    公开(公告)号:CN113435163A

    公开(公告)日:2021-09-24

    申请号:CN202110978686.1

    申请日:2021-08-25

    Abstract: 本发明公开了光学字符识别技术领域的一种任意字符组合的OCR数据生成的方法,包括通过字符字典、字体库和语料库生成字符‑字体映射字典,得到字符和所有支持的字体之间的对应关系;从语料库中获取待生成图片的一行文本,切分文本成多个字符串,找到各个字符串与其对应的字体;将找到的各个字符串对应的字体进行排列得到文字图片;将文字图片进行拼接得到最终图片;本发明改进了以往OCR数据生成时,在背景图片上绘制指定文字的环节,实现了任意字符组合的OCR数据生成方式,简单高效。

    异常流量检测方法、装置及电子设备

    公开(公告)号:CN110519290B

    公开(公告)日:2021-01-26

    申请号:CN201910830803.2

    申请日:2019-09-03

    Abstract: 本发明提供了一种异常流量检测方法、装置及电子设备,涉及网络安全技术领域,该方法包括:获取待检测流量的指标数据,该指标数据包括源IP地址、目的IP地址和通信时间中的一种或多种;根据该指标数据和预先建立的流量数据库中存储的指标统计信息,确定待检测流量对应的目标流量特征;根据该目标流量特征和预先建立的异常检测模型,确定待检测流量的异常检测结果。该方法中,待检测流量对应的目标流量特征是基于预先存储在流量数据库中的指标统计信息得到的,相对于现有技术中直接统计待检测流量的所有相关数据流来得到目标流量特征的方式,降低了计算量且适用于分布式计算架构,因此能够加快计算速度,提高检测效率。

Patent Agency Ranking