一种数据的检索方法、装置及设备

    公开(公告)号:CN116303917A

    公开(公告)日:2023-06-23

    申请号:CN202211095738.1

    申请日:2022-09-08

    Abstract: 本说明书实施例公开了一种数据的检索方法、装置及设备,该方法包括:获取目标事件的查询请求,该查询请求中包括目标事件的事实行为数据;基于目标事件的事实行为数据,从预先建立的检索数据库中由事实行为数据和证据信息生成的索引信息中,获取与目标事件的事实行为数据相匹配的第一索引信息;获取第一索引信息对应的历史事件的文书信息,并确定每个历史事件的文书信息与目标事件的事实行为数据的匹配特征,对匹配特征进行池化处理和/或卷积处理,得到处理后的数据;对处理后的数据进行融合处理,得到历史事件的文书信息中与目标事件的事实行为数据匹配的目标历史事件的文书信息。

    一种舆情信息的分组方法、装置及设备

    公开(公告)号:CN111552706B

    公开(公告)日:2023-05-12

    申请号:CN202010343982.X

    申请日:2020-04-27

    Abstract: 本说明书实施例公开了一种舆情信息的分组方法、装置及设备,该方法包括:获取待分组的目标舆情信息;分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。

    一种舆情聚类方法、装置以及设备

    公开(公告)号:CN113032566A

    公开(公告)日:2021-06-25

    申请号:CN202110318186.5

    申请日:2021-03-25

    Abstract: 本说明书实施例公开了一种舆情聚类方法、装置以及设备。方案包括:对待聚类舆情文本进行分句,得到多个分句片段,并确定分句片段的分句指纹;根据分句指纹,在历史舆情分句指纹库中进行匹配;根据匹配的结果,在历史舆情库中进行模糊搜索,得到与待识别舆情文本具有相同分句片段的候选历史舆情集合;通过将待聚类舆情文本在候选历史舆情集合中进行相似性比较,从候选历史舆情集合中筛选出相似的历史舆情;根据相似的历史舆情所属的聚类组,对待聚类舆情文本进行中心漂移校验;若中心漂移校验通过,则将待聚类舆情文本加入聚类组中。

    一种数据的检索方法、装置及设备

    公开(公告)号:CN117312492A

    公开(公告)日:2023-12-29

    申请号:CN202311141896.0

    申请日:2023-09-05

    Abstract: 本说明书实施例公开了一种数据的检索方法、装置及设备,该方法包括:获取目标事件的查询请求,查询请求中包括目标事件的事件文本,获取针对查询请求的历史事件文书集,对事件文本进行关键信息提取,得到事件文本对应的事件信息,事件信息包括目标事件的事件触发词,对事件信息和事件文本进行编码处理,得到第一编码信息,并对第一编码信息中事件触发词对应的编码信息进行池化处理,得到第二编码信息,对历史事件文书进行编码处理,得到第三编码信息集,基于预先训练的表征模型对第二编码信息和第三编码信息集进行处理,并基于处理后的第二编码信息和第三编码信息集,从历史事件文书集中确定查询到的与目标事件相匹配的历史事件文书。

    数据处理方法、装置及设备
    5.
    发明公开

    公开(公告)号:CN116757208A

    公开(公告)日:2023-09-15

    申请号:CN202310466681.X

    申请日:2023-04-26

    Abstract: 本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:获取用于训练第一模型的文本数据样本及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,基于由初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定的初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。

    数据处理方法、装置及设备
    6.
    发明公开

    公开(公告)号:CN116541509A

    公开(公告)日:2023-08-04

    申请号:CN202310507025.X

    申请日:2023-05-04

    Abstract: 本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:接收针对目标文本数据的相似文本检索请求,响应于相似文本检索请求,获取由基于训练后的目标模型得到的目标文本数据包含的语句对应的第一特征向量、目标文本数据包含的语句对应的预测类别、候选文本数据包含的语句对应的第二特征向量,以及候选文本数据包含的语句对应的预测类别,确定的目标文本数据和候选文本数据之间的目标相似度,基于目标相似度,从候选文本数据中筛选出与目标文本数据存在匹配关系的候选文本数据,并将筛选出的候选文本数据确定为针对目标文本数据的相似文本检索结果。

    数据处理方法、装置及设备
    7.
    发明公开

    公开(公告)号:CN116522939A

    公开(公告)日:2023-08-01

    申请号:CN202310466522.X

    申请日:2023-04-26

    Abstract: 本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于由第二样本对应的语义向量构建的正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。

    文本分类的方法和装置
    8.
    发明公开

    公开(公告)号:CN113626603A

    公开(公告)日:2021-11-09

    申请号:CN202110956610.9

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分,得到若干文本片段;针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。

    文本分类的方法和装置
    9.
    发明公开

    公开(公告)号:CN113626602A

    公开(公告)日:2021-11-09

    申请号:CN202110955119.4

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分得到若干文本片段;针对每个文本片段,将其作为入参输入已训练的片段语义提取模型,得到文本片段对应的片段语义向量;将片段语义向量作为入参输入已训练的第一分类模型,得到文本片段的分类结果;若任一文本片段的分类结果满足预设的置信要求,则根据满足置信要求的分类结果,确定待分类文本所属的文本分类;若所有文本片段的分类结果均不满足置信要求,则将若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量;将文本语义向量作为入参输入已训练的第二分类模型,确定待分类文本所属的文本分类。

    大模型幻觉检测方法、装置、存储介质及电子设备

    公开(公告)号:CN119990124A

    公开(公告)日:2025-05-13

    申请号:CN202510089598.4

    申请日:2025-01-20

    Abstract: 本说明书实施例公开了一种大模型幻觉检测方法、装置、存储介质及电子设备。首先,获取待检测文本,并在待检测文本中插入扰动字符,生成多个扰动文本。然后,将多个扰动文本并行输入目标大模型中,得到各扰动文本在目标大模型每层输出的表征向量,并由每层输出的各表征向量组成对应层的向量集合。进一步地,将各向量集合进行中心化处理,得到与各向量集合对应的一致性值,其中一致性值用于衡量各向量集合中不同表征向量之间的相关性。最后,根据各一致性值计算得到目标大模型在输入扰动下的稳定度得分,并根据稳定度得分判断得到目标大模型的幻觉检测结果。

Patent Agency Ranking