-
公开(公告)号:CN111125413B
公开(公告)日:2023-10-13
申请号:CN201911365221.8
申请日:2019-12-26
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/583 , G06F16/535
Abstract: 本发明提供了一种文本图片的过滤方法、装置及电子设备,涉及图像处理技术领域,该方法包括:将待过滤的彩色图片转换为颜色空间模型;将待过滤的彩色图片中的文本颜色确定为目标颜色,并获取目标颜色的颜色空间范围值;根据目标颜色的颜色空间范围值对颜色空间模型进行颜色转换,得到待过滤的彩色图片对应的文本图片。本发明提升了文本图片过滤的精确度。
-
公开(公告)号:CN115565175A
公开(公告)日:2023-01-03
申请号:CN202211245543.0
申请日:2022-10-12
Applicant: 南京中孚信息技术有限公司
IPC: G06V30/14 , G06V30/146
Abstract: 本申请提供一种文本识别方法、电子设备及存储介质,涉及数据处理技术领域。首先实现了待识别的文本图像的自动化裁剪;而后,针对裁剪得到的相邻的两张裁剪图像,进行拼接区域图像的确定,得到拼接区域图像对应的各文件检测框,以解决上述进行图像裁剪时可能造成的相邻裁剪图像的连接处文字被截断,从而导致文本信息识别不完整或重复的问题。而针对重复识别的问题,还可进一步地通过拼接区域图像对应的文本检测框对裁剪图像对应的文本检测框进行去重处理。最后通过对各裁剪图像和拼接区域图像进行排序,并依次识别各裁剪图像对应的文件检测框和各拼接区域图像对应的文本检测框,得到待识别的文本图像(长图)的文本信息识别结果。
-
公开(公告)号:CN109271639B
公开(公告)日:2021-03-05
申请号:CN201811185146.2
申请日:2018-10-11
Applicant: 南京中孚信息技术有限公司
IPC: G06F40/216 , G06F40/289
Abstract: 本发明提供了一种热门事件发现方法及装置,涉及信息处理的技术领域,包括:获取当前时间段内流过待监测网络节点上的文本内容;对文本内容进行数据处理,得到文本内容中所包含的候选热词、候选热词所对应的词频和目标词组所对应的词频;基于候选热词所对应的词频和目标词组所对应的词频对候选热词进行综合热度值计算,得到每个候选热词的综合热度值;根据每个候选热词的综合热度值确定当前时间段内待监测网络节点上的热门事件。该方法能够通过数据处理得到信息含量较多的候选热词,并对候选热词进行综合热度值计算,得到综合热度值,计算过程中考虑的信息更加全面,缓解了现有的热词发现方法中热词信息量少,热度计算考虑不全面的技术问题。
-
公开(公告)号:CN112100361A
公开(公告)日:2020-12-18
申请号:CN202011259026.X
申请日:2020-11-12
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/332 , G06F16/9532
Abstract: 本发明公开了一种基于AC自动机的字符串多模模糊匹配方法,该方式包括以下步骤:利用规则对多组带有标签的模式串集合进行定义,将定义后的带有标签的模式串加入数据库;判断文本内容是否为首次查询;若文本内容为首次查询,则将数据库中所有带有标签的模式串读取,并通过预先配置的方法实现对Trie树的构建;在Trie树上采用预设规则完成fail指针的构建;采用预设方法实现文本内容与多组带有标签的模式串集合之间的查询匹配。有益效果:本发明在AC自动机的基础上加入模糊匹配的功能,不仅能够有效利用到多模字符串中的公共前缀,减少比较次数,而且能支持模糊匹配,具有一定的鲁棒性,简单高效。
-
公开(公告)号:CN111737488A
公开(公告)日:2020-10-02
申请号:CN202010533329.X
申请日:2020-06-12
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/36 , G06F16/951
Abstract: 本发明提供的一种基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;在所述预设实体关系模型输入查询实体后,获取初始查询结果,实现较准确的定位到与泄密相关的员工信息。当输入要查询的实体后,会从预设实体关系模型中查询到相关信息,由于预设实体关系模型内包含了所有的原始数据,使得数据比较全面,且均提取了原始数据中有用信息,然后利用这些有用信息得到查询结果,可以较准确的定位到与泄密相关的员工信息。
-
公开(公告)号:CN113536779B
公开(公告)日:2024-02-02
申请号:CN202110827216.5
申请日:2021-07-21
Applicant: 南京中孚信息技术有限公司
IPC: G06F40/258 , G06F40/211 , G06F40/295 , G06F16/35 , G06F16/34
Abstract: 本申请提供了一种基于公文标题的热门话题数据处理方法、装置及电子设备,涉及数据处理技术领域,缓解了感知公文热点话题较难的技术问题。该方法包括:获取多个待分析公文标题;对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
-
公开(公告)号:CN114357158A
公开(公告)日:2022-04-15
申请号:CN202111500332.2
申请日:2021-12-09
Applicant: 南京中孚信息技术有限公司 , 中孚安全技术有限公司 , 中孚信息股份有限公司 , 北京中孚泰和科技发展股份有限公司
Abstract: 本发明公开了计算机自然语言处理技术领域的基于句粒度语义和相对位置编码的长文本分类技术,包括句粒度语义预测提取和篇章主题预测,在垂直领域内多主题分布的长文本分类业务场景下,从语言语义分析、特征工程出发,运用计算机自然语言处理技术进行流水线、模块化开发,提高长文本分类业务开发的敏捷性和质量;引入流水线机制,将长文本分类分解为句粒度语义预测提取和篇章主题预测两个步骤,采用轻量级预训练模型提取句粒度语义特征,兼顾模型的准确性和效率。
-
公开(公告)号:CN109460555B
公开(公告)日:2021-03-19
申请号:CN201811372564.2
申请日:2018-11-16
Applicant: 南京中孚信息技术有限公司
IPC: G06F40/216 , G06F40/289
Abstract: 本发明提供了一种公文判定方法、装置及电子设备,涉及计算机算法技术领域,该方法包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明能够有效提升公文判定的准确率。
-
公开(公告)号:CN110275943A
公开(公告)日:2019-09-24
申请号:CN201910564117.5
申请日:2019-06-26
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/33 , G06F16/9535
Abstract: 本发明提供了一种文章推送方法及装置,涉及文章推送技术领域。该方法由服务器执行,服务器与用户终端通信连接,该方法包括:如果接收到用户终端发送的文章获取请求,判断文章获取请求中是否携带有搜索词;如果文章获取请求中携带有搜索词,则筛选出携带有搜索词的目标文章,并判断用户终端对应的用户账号中是否存在用户词表;用户词表中包括多个词语及每个词语所对应的权重;如果用户终端对应的用户账号中存在用户词表,则基于用户词表对目标文章进行排序,并将排序后的目标文章推送至用户终端。本发明是根据用户词表对目标文章进行排序的,会根据员工的用户词表推送员工想处理的文章,降低了员工重复工作的概率。
-
公开(公告)号:CN109460555A
公开(公告)日:2019-03-12
申请号:CN201811372564.2
申请日:2018-11-16
Applicant: 南京中孚信息技术有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种公文判定方法、装置及电子设备,涉及计算机算法技术领域,该方法包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明能够有效提升公文判定的准确率。
-
-
-
-
-
-
-
-
-