-
公开(公告)号:CN117709298B
公开(公告)日:2024-05-07
申请号:CN202410160617.3
申请日:2024-02-05
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F40/12 , G06F16/2455
Abstract: 本申请提供了一种双字符流的扫描方法、电子设备、存储介质及系统,涉及数据处理技术领域,其中,该方法包括确定第一待输入字符串和第二待输入字符串是否满足合并扫描条件;若是,则基于第一待输入字符串和第二待输入字符串,生成多个合并字符串,并将多个合并字符串依次输入预设扫描引擎进行扫描;若否,则将第一待输入字符串和第二待输入字符串依次输入预设扫描引擎进行扫描,以降低单体DFA在多字符串流输入时的扫描时间。
-
公开(公告)号:CN117690153A
公开(公告)日:2024-03-12
申请号:CN202410153901.8
申请日:2024-02-04
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06V30/412 , G06V30/148 , G06V30/19
Abstract: 本申请提供了一种基于确定型有限自动机的文本检测方法、装置及设备,涉及计算机技术领域,该方法包括:确定待检测文本中当前文本段的字符数量是否符合文本分割要求;若符合要求,选取多个候选字符,确定每个候选字符转移为目标状态的次数;根据次数从多个候选字符中选取当前分割字符,利用当前分割字符对当前文本段进行分割获得新的当前文本段;将当前分割字符作为新的前一分割字符,返回执行确定是否符合文本分割要求的步骤;利用多线程中设置的多个确定型有限自动机同时对所有文本段进行检测,获得文本检测结果。通过采用上述基于确定型有限自动机的文本检测方法、装置及设备,解决了现有技术中,检测效率低及检测效率不稳定的问题。
-
公开(公告)号:CN117540060A
公开(公告)日:2024-02-09
申请号:CN202311527259.7
申请日:2023-11-15
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/903 , G06F16/901
Abstract: 本申请提供了一种字符串的扫描方法、系统及存储介质,涉及数据处理领域,其中,该方法包括针对待扫描文本的每个字符串,将该字符串与该字符串对应的第一拼接值进行拼接,以获取第一拼接字符串;针对每个字符串,基于该字符串对应的第一拼接字符串的哈希值与哈希表的命中关系,确定出该字符串对应的启始状态;针对每个字符串,基于该字符串对应的启始状态,按照预设的扫描规则对该字符串进行扫描。以在提高DFA扫描速度的同时,不会增大DFA扫描表的空间。
-
公开(公告)号:CN110457603B
公开(公告)日:2021-08-06
申请号:CN201910757832.0
申请日:2019-08-16
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/9536 , G06F16/9535 , G06K9/62 , G06Q50/00
Abstract: 本申请提出一种用户关系抽取方法、装置、电子设备及可读存储介质,涉及数据处理技术领域。首先获得待分析的舆情文本,然后判断该舆情文本是否为目标舆情文本。其中,目标舆情文本中包括第一用户组、第二用户组及位于第一用户组与第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户。若是目标舆情文本,则从舆情文本的两个用户组中分别选出一个目标用户,并根据舆情文本获得两个目标用户之间的关系。最后根据两个目标用户之间的关系确定舆情文本的两个用户组中任意两个用户之间的关系。由此,可自动从舆情文本中获得任意两个用户之间的关系。
-
公开(公告)号:CN112667901A
公开(公告)日:2021-04-16
申请号:CN202011629590.6
申请日:2020-12-31
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本申请提供了一种社交媒体数据的获取方法及系统,包括:由主控节点获取待执行主任务,并对待执行主任务分别进行拆分、聚类以及聚合处理,生成目标子任务;主控节点将目标子任务放到任务池中,并标注任务状态;由从属节点中的虚拟采集节点从任务池中抓取执行优先级最高的目标子任务,以及申请执行任务所必要的资源,并将获取结果返回给主控节点;由主控节点对获取结果进行存取及可视化。这样,本申请通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而可以有效的提高数据获取速度和效率。
-
公开(公告)号:CN118227668A
公开(公告)日:2024-06-21
申请号:CN202410153985.5
申请日:2024-02-02
Applicant: 北京邮电大学 , 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/2455 , G06F16/242 , G06F16/2457 , G06N5/04 , G06F16/901
Abstract: 本发明公开知识图谱检索方法、装置、介质及产品,涉及图谱检索技术领域,所述方法包括:获取问题文本和多个关键字的向量表示;在知识图谱中,确定关键节点和对应的候选关系;计算各候选关系与问题向量表示之间的匹配得分;基于匹配得分构建子图;生成多个推理指令;利用各推理指令逐步确定子图中各关系的关系推理得分;基于所有关系推理得分,确定对应节点的节点推理得分;节点推理得分最大值满足预设置信阈值时,将节点推理得分最大值的节点对应的实体确定为答案;否则,将节点推理得分从大到小排序,将前第二预设个数个节点作为候选节点;基于大语言模型以及各候选节点和对应的关系构建问题回复模型,实现了面向复杂查询条件的知识图谱检索。
-
公开(公告)号:CN117975485A
公开(公告)日:2024-05-03
申请号:CN202410361724.2
申请日:2024-03-28
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06V30/19
Abstract: 本申请提供了一种字符串的扫描方法、装置、电子设备及存储介质,涉及数据处理领域,其中,方法包括响应快速扫描模式指令,从获取到的长度为N的待测字符串中按序提取M个字符作为未处理字符组,其中M小于N;针对当前的未处理字符组,确定未处理字符组中是否存在非信任字符;若不存在,则更新未处理字符组;若存在,则确定首个非信任字符为目标字符,根据目标字符所对应的多个预设扫描状态值,确定是否退出快速扫描模式,进而避免了大量的扫描状态占用资源,同时提高了正则表达式匹配中字符串扫描的速度。
-
公开(公告)号:CN117690153B
公开(公告)日:2024-04-05
申请号:CN202410153901.8
申请日:2024-02-04
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06V30/412 , G06V30/148 , G06V30/19
Abstract: 本申请提供了一种基于确定型有限自动机的文本检测方法、装置及设备,涉及计算机技术领域,该方法包括:确定待检测文本中当前文本段的字符数量是否符合文本分割要求;若符合要求,选取多个候选字符,确定每个候选字符转移为目标状态的次数;根据次数从多个候选字符中选取当前分割字符,利用当前分割字符对当前文本段进行分割获得新的当前文本段;将当前分割字符作为新的前一分割字符,返回执行确定是否符合文本分割要求的步骤;利用多线程中设置的多个确定型有限自动机同时对所有文本段进行检测,获得文本检测结果。通过采用上述基于确定型有限自动机的文本检测方法、装置及设备,解决了现有技术中,检测效率低及检测效率不稳定的问题。
-
公开(公告)号:CN111611394B
公开(公告)日:2021-09-07
申请号:CN202010636759.4
申请日:2020-07-03
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/35 , G06F40/247 , G06F40/289 , G06K9/62
Abstract: 本申请提供了一种文本分类方法、装置、电子设备及可读存储介质,其中,所述文本分类方法包括:获取待分类文本的至少一个文本段,以及待分类文本对应的关键词特征;基于文本段中每个字词与关键词特征的相似度,确定文本段对应的待扩展文本段;将待扩展文本段中的预设词性的字词进行同义词替换,得到文本段对应的扩展文本段;基于文本段以及扩展文本段,对待分类文本进行分类。这样,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
-
公开(公告)号:CN111581459B
公开(公告)日:2021-06-15
申请号:CN202010538767.5
申请日:2020-06-13
Applicant: 中国电子信息产业集团有限公司第六研究所
IPC: G06F16/903
Abstract: 本申请提供了一种字符串匹配方法及字符串匹配系统,先将待匹配文本分成多段待匹配字符串,同时为了避免遗漏每段待匹配字符串的边界字符,从任意相邻两段待匹配字符串的相互邻接一侧各提取出至少一个边界字符,得到多段待匹配边界字符串,在进行字符串匹配时,从多段待匹配字符串和多段待匹配边界字符串中,确定出与参照字符串匹配的目标字符串。进而,本申请在进行字符串匹配时,可以保证匹配过程中全部字符被匹配的完整性,有效提高字符串匹配效率,大大减少字符串匹配时间的消耗,有助于提高字符串的匹配性能。
-
-
-
-
-
-
-
-
-