-
公开(公告)号:CN113486178B
公开(公告)日:2023-12-01
申请号:CN202110785051.X
申请日:2021-07-12
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/35 , G06F40/289 , G06F40/295 , G06F18/241 , G06N3/0442 , G06N3/047 , G06N3/082 , G06N3/088 , G06N3/09 , G06N3/0464
Abstract: 本发明实施例公开了一种文本识别模型训练方法、文本识别方法、装置以及介质。所述文本识别模型训练方法,包括:获取待处理短文本训练数据;根据待处理短文本训练数据生成文本向量序列;对文本向量序列进行序列特征提取处理,得到序列特征提取结果,并将序列特征提取结果确定为短文本分类结果;短文本分类结果包括第一短文本分类标签和第一标签概率;对序列特征提取结果进行实体特征提取处理,得到实体特征提取结果;根据序列特征提取结果和实体特征提取结果对文本识别模型进行训练。本发明实施例的技术方案能够利用对短文本提取的多维(56)对比文件US 2016110343 A1,2016.04.21US 2021173862 A1,2021.06.10杨丹浩;吴岳辛;范春晓.一种基于注意力机制的中文短文本关键词提取模型.计算机科学.2020,(第01期),第199-204页.陈鹏;郭小燕.基于LSTM-Attention的农业短文本信息分类研究.软件导刊.2020,(第09期),第27-32页.
-
公开(公告)号:CN112733112B
公开(公告)日:2024-05-03
申请号:CN202011636054.9
申请日:2020-12-31
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F21/32 , G06Q10/02 , G06Q10/0631 , G06Q50/40
Abstract: 本发明公开了一种用户出行方式的确定方法、装置、电子设备和存储介质,包括:根据通信位置话单获取漫入用户进入指定区域后指定时间范围内的用户位置序列;获取位置特征区域数据集;根据位置特征区域数据集从漫入用户的用户位置序列中提取序列指纹;根据每个漫入用户的序列指纹创建指纹库;将待测用户的序列指纹与指纹库进行匹配,以确定待测用户的出行方式。通过通信位置话单就可以获取漫入用户的序列指纹,并根据每个漫入用户的序列指纹创建指纹库,将待测用户的序列指纹与所创建的指纹库进行匹配,从而准确高效的确定出用户的出行方式。
-
公开(公告)号:CN113553487B
公开(公告)日:2024-04-09
申请号:CN202110859771.6
申请日:2021-07-28
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/906 , G06F16/95 , G06F18/24
Abstract: 本发明实施例公开了一种网址类型的检测方法、装置、电子设备及存储介质。该方法包括:获取待检测网址,将待检测网址进行预处理,得到目标检测网址,对目标检测网址进行网址特征提取,得到目标检测网址的网址特征数据;将网址特征数据输入至预先训练完成的Deep模型中,得到待检测网址的网址类型的第一输出结果;将网址特征数据中的离散特征数据输入至预先训练完成的Wide模型中,得到待检测网址的网址类型的第二输出结果;根据第一输出结果和第二输出结果得到目标输出结果,根据目标输出结果确定待检测网址的网址类型,本发明实施例的技术方案,解决了传统网址类型的检测方法存在网址类型的检测能力较低的技术问题。
-
公开(公告)号:CN113553487A
公开(公告)日:2021-10-26
申请号:CN202110859771.6
申请日:2021-07-28
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/906 , G06F16/95 , G06K9/62
Abstract: 本发明实施例公开了一种网址类型的检测方法、装置、电子设备及存储介质。该方法包括:获取待检测网址,将待检测网址进行预处理,得到目标检测网址,对目标检测网址进行网址特征提取,得到目标检测网址的网址特征数据;将网址特征数据输入至预先训练完成的Deep模型中,得到待检测网址的网址类型的第一输出结果;将网址特征数据中的离散特征数据输入至预先训练完成的Wide模型中,得到待检测网址的网址类型的第二输出结果;根据第一输出结果和第二输出结果得到目标输出结果,根据目标输出结果确定待检测网址的网址类型,本发明实施例的技术方案,解决了传统网址类型的检测方法存在网址类型的检测能力较低的技术问题。
-
公开(公告)号:CN113486178A
公开(公告)日:2021-10-08
申请号:CN202110785051.X
申请日:2021-07-12
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/35 , G06F40/289 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了一种文本识别模型训练方法、文本识别方法、装置以及介质。所述文本识别模型训练方法,包括:获取待处理短文本训练数据;根据待处理短文本训练数据生成文本向量序列;对文本向量序列进行序列特征提取处理,得到序列特征提取结果,并将序列特征提取结果确定为短文本分类结果;短文本分类结果包括第一短文本分类标签和第一标签概率;对序列特征提取结果进行实体特征提取处理,得到实体特征提取结果;根据序列特征提取结果和实体特征提取结果对文本识别模型进行训练。本发明实施例的技术方案能够利用对短文本提取的多维特征完成短文本分类以及实体识别,从而提高文本识别模型的精准度。
-
公开(公告)号:CN113553309B
公开(公告)日:2025-03-11
申请号:CN202110859470.3
申请日:2021-07-28
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/18
Abstract: 本发明实施例公开了一种日志模板的确定方法、装置、电子设备及存储介质。日志模板的确定方法,包括:在接收到待处理日志时,按照匹配规则库中各匹配规则的优先级顺序,依次从匹配规则库中获取目标匹配规则;采用目标匹配规则,执行将待处理日志和日志模板库中的各日志模板进行匹配的操作;如果未能获取与待处理日志匹配的日志模板,则返回执行按照匹配规则库中各匹配规则的优先级顺序,依次从匹配规则库中获取目标匹配规则的操作;在确定使用全部匹配规则均未能获取与待处理日志匹配的日志模板时,将待处理日志作为新的日志模板加入至日志模板库中。本发明实施例的技术方案能够降低日志模板提取的计算复杂度,提高日志模板提取的通用性。
-
公开(公告)号:CN112733112A
公开(公告)日:2021-04-30
申请号:CN202011636054.9
申请日:2020-12-31
Applicant: 恒安嘉新(北京)科技股份公司
Abstract: 本发明公开了一种用户出行方式的确定方法、装置、电子设备和存储介质,包括:根据通信位置话单获取漫入用户进入指定区域后指定时间范围内的用户位置序列;获取位置特征区域数据集;根据位置特征区域数据集从漫入用户的用户位置序列中提取序列指纹;根据每个漫入用户的序列指纹创建指纹库;将待测用户的序列指纹与指纹库进行匹配,以确定待测用户的出行方式。通过通信位置话单就可以获取漫入用户的序列指纹,并根据每个漫入用户的序列指纹创建指纹库,将待测用户的序列指纹与所创建的指纹库进行匹配,从而准确高效的确定出用户的出行方式。
-
公开(公告)号:CN113449816B
公开(公告)日:2024-10-01
申请号:CN202110820105.1
申请日:2021-07-20
Applicant: 恒安嘉新(北京)科技股份公司
Abstract: 本发明实施例公开了一种网址分类模型训练、网址分类方法、装置、设备及介质。该网址分类模型训练方法,包括:获取网址训练数据;其中,所述网址训练数据包括URL地址和地址分类标签;根据所述网址训练数据生成字符向量矩阵和词向量矩阵;提取所述字符向量矩阵的特征向量作为第一特征向量,并提取所述词向量矩阵的特征向量作为第二特征向量;对所述第一特征向量和所述第二特征向量进行拼接,得到拼接特征向量;根据所述拼接特征向量对网址分类模型进行模型训练。本发明实施例的技术方案能够提高网址分类模型的查全率,从而提高网址分类模型的准确率和分类精度。
-
公开(公告)号:CN112492606B
公开(公告)日:2024-05-17
申请号:CN202011247127.5
申请日:2020-11-10
Applicant: 恒安嘉新(北京)科技股份公司
IPC: H04W12/088 , H04W12/128 , G06F16/35 , H04W4/14
Abstract: 本发明公开了一种垃圾短信的分类识别方法、装置、计算机设备及存储介质。该方法包括:对短信文本集合进行文本过滤,获得垃圾短信文本集合;将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。使用本发明的技术方案,可以实现对海量短信的精确分类识别,并准确提取垃圾短信中的实体信息。
-
公开(公告)号:CN113553309A
公开(公告)日:2021-10-26
申请号:CN202110859470.3
申请日:2021-07-28
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/18
Abstract: 本发明实施例公开了一种日志模板的确定方法、装置、电子设备及存储介质。日志模板的确定方法,包括:在接收到待处理日志时,按照匹配规则库中各匹配规则的优先级顺序,依次从匹配规则库中获取目标匹配规则;采用目标匹配规则,执行将待处理日志和日志模板库中的各日志模板进行匹配的操作;如果未能获取与待处理日志匹配的日志模板,则返回执行按照匹配规则库中各匹配规则的优先级顺序,依次从匹配规则库中获取目标匹配规则的操作;在确定使用全部匹配规则均未能获取与待处理日志匹配的日志模板时,将待处理日志作为新的日志模板加入至日志模板库中。本发明实施例的技术方案能够降低日志模板提取的计算复杂度,提高日志模板提取的通用性。
-
-
-
-
-
-
-
-
-