语料相似检测方法、装置、智能终端及存储介质

    公开(公告)号:CN114218918B

    公开(公告)日:2025-02-14

    申请号:CN202111447284.5

    申请日:2021-11-30

    Abstract: 本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。

    语料相似检测方法、装置、智能终端及存储介质

    公开(公告)号:CN114218918A

    公开(公告)日:2022-03-22

    申请号:CN202111447284.5

    申请日:2021-11-30

    Abstract: 本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。

    文本检测方法、装置、设备和存储介质

    公开(公告)号:CN117332039B

    公开(公告)日:2024-07-02

    申请号:CN202311218607.2

    申请日:2023-09-20

    Abstract: 本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。

    文本标注方法和装置、计算机设备及存储介质

    公开(公告)号:CN117540730B

    公开(公告)日:2024-10-18

    申请号:CN202311316116.1

    申请日:2023-10-10

    Abstract: 本申请实施例提供了一种文本标注方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取原始文本和原始标注信息;对原始文本分类得到自动标注信息;接收由标注端对原始文本扩展得到同义文本,根据自动标注信息对同义文本筛选的扩展文本;将扩展文本和原始文本拼接得到候选文本,将自动标注信息和原始标注信息拼接得到候选标注信息;获取候选文本中候选标注信息的标注类别数量;根据标注类别数量对候选标注信息筛选得到目标标注信息;获取目标标注信息的标注比例;若标注比例低于预设比例阈值,生成反馈信息至专家系统以接收专家标注信息;将专家标注信息和候选文本组合得到目标文本数据。本申请实施例能够提高文本标注质量。

    文本检测方法、装置、设备和存储介质

    公开(公告)号:CN117332039A

    公开(公告)日:2024-01-02

    申请号:CN202311218607.2

    申请日:2023-09-20

    Abstract: 本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。

    基于Spark的大规模数据全局去重方法、电子设备及介质

    公开(公告)号:CN116561110A

    公开(公告)日:2023-08-08

    申请号:CN202310439940.X

    申请日:2023-04-18

    Abstract: 本申请提出一种基于Spark的大规模数据去重方法、电子设备和存储介质,通过将大规模语料数据进行预处理,将预处理后得到的第一处理文档存储至不同存储分区,再在各个存储分区内对第一处理文档进行分组,从而排除大量完全不相关的文档,再进行相似检测得到每个第一处理文档的相似对,并在文档分组、存储分区以及全局三种粒度上对相似对进行合并,在文档分组和存储分区的粒度上通过分布式并行运行的方法对相似对进行高效率合并,大大减少系统全局粒度上合并的计算量,从而实现对大规模数据的高效率模糊去重。

    基于多计算平台的AI在线交互式开发方法及相关设备

    公开(公告)号:CN115495048A

    公开(公告)日:2022-12-20

    申请号:CN202210923679.6

    申请日:2022-08-02

    Abstract: 本发明公开了基于多计算平台的AI在线交互式开发方法及相关设备,所述方法包括:交互式开发平台接收开发任务请求后选择适配的智算中心资源;根据平台调度策略选择适配智算中心,并获取适配智算中心的智能计算平台的授权信息;以及根据适配智算中心的API接口要求将开发任务请求进行封装;智能计算平台根据分配资源环境请求分配开发任务请求所需的资源和环境,并发送访问资源链接至交互式开发平台;交互式开发平台将访问资源链接与开发任务请求进行关联,并将访问资源链接发送至注册用户。通过建立统一的交互式开发平台,接入多个智能计算平台并通过互联网面向用户提供AI交互式开发环境,提高了开发的便利性和降低了开发成本。

    一种分布式图推理计算方法、装置、终端及存储介质

    公开(公告)号:CN115409180A

    公开(公告)日:2022-11-29

    申请号:CN202210921276.8

    申请日:2022-08-02

    Abstract: 本发明公开了一种分布式图推理计算方法、装置、终端及存储介质,方法包括:对图数据进行预处理,得到图数据所构造的全图,并更新全图上的基础信息;对全图中所有点的hop值进行初始化处理,分别获取预设点、一度邻居以及二度邻居所对应的特征,得到二度子图特征;将所获取的二度子图特征输入至已训练的GNN编码器模型中,并输出得到对应的嵌入向量;根据输出的嵌入向量生成对应边的邮件信息,并通过邮件传递机制将邮件信息发送至对应边的目的点;通过已训练的GNN解码器模型对全图特征进行解码,根据各边目的点上的邮件信息输出全图特征的逻辑推理结果。本发明解决了现有的图神经网络模型无法适应实时性要求高的场景的技术问题。

    自动数据标注方法、系统、设备和存储介质

    公开(公告)号:CN116467598A

    公开(公告)日:2023-07-21

    申请号:CN202310401758.5

    申请日:2023-04-11

    Abstract: 本发明实施例提供自动数据标注方法、系统、设备和存储介质,涉及人工智能技术领域。该方法包括:通过在标注主系统的显示界面上显示输入选择标识,然后响应于针对输入选择标识的第一触发操作接收目标数据集并获取目标标注任务,再响应于针对标注启动标识的第二触发操作,利用标注代理模块调用标注模型算法模块,将目标数据集的预设输入地址发送至标注脚本;以使得标注脚本利用自动标注模型对目标数据集进行标注生成目标标注数据存储在预设输出地址;接着利用标注代理模块获取预设输出地址存储的目标标注数据,并将目标标注数据基于预设显示方式在标注主系统的显示界面上进行显示。在降低自动标注学习成本的同时提高自动标注的标注效率。

    计算任务分配方法、装置、计算机设备及存储介质

    公开(公告)号:CN119806787A

    公开(公告)日:2025-04-11

    申请号:CN202510287888.X

    申请日:2025-03-12

    Abstract: 本申请实施例公开一种计算任务分配方法、装置、计算机设备及存储介质。根据第一算力平台第一算力平台发送的计算任务处理请求确定待处理计算任务;在多个算力平台中确定用于执行待处理计算任务的第二算力平台;当第二算力平台未安装预设数据资源访问工具时,将预设数据资源访问工具发送至第二算力平台,使第二算力平台安装预设数据资源访问工具;将待处理计算任务发送至第二算力平台,使第二算力平台通过预设数据资源访问工具访问第一算力平台相应存储路径中待处理计算任务的目标数据;接收第二算力平台根据目标数据执行待处理计算任务的任务处理结果,通过预设数据资源访问工具将任务处理结果发送至第一算力平台。实现算力平台之间的算力共享。

Patent Agency Ranking