一种文本原创识别方法、装置、电子设备及存储介质

    公开(公告)号:CN113553839B

    公开(公告)日:2024-05-10

    申请号:CN202010340711.9

    申请日:2020-04-26

    Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。

    知识融合方法、装置、设备、系统及介质

    公开(公告)号:CN114139547B

    公开(公告)日:2023-07-04

    申请号:CN202111416144.1

    申请日:2021-11-25

    Abstract: 本公开涉及一种知识融合方法、装置、设备、系统及介质。其中,知识融合法包括:基于第一实体数据中的第一实体名,获取第一实体数据对应的实体的至少一个实体别称,得到实体名称集;基于实体名称集,检测第一实体名和第二实体数据中的第二实体名是否匹配;在检测到第一实体名和第二实体名匹配时,将第一实体数据和第二实体数据进行融合,得到融合实体数据。根据本公开实施例,能够根据两条实体数据中的实体名是否匹配来判断它们是否需要融合,以减少计算量,提高融合效率,并且在两条实体数据中的实体名不匹配时,能够根据该两条实体数据的多维度相似度进行融合判别,以提高判别精度,进而实现多来源知识的融合,达到精准有效融合效果。

    一种虚开发票行为检测方法、装置、电子设备及存储介质

    公开(公告)号:CN112308638A

    公开(公告)日:2021-02-02

    申请号:CN202011187087.X

    申请日:2020-10-29

    Abstract: 本申请实施例提供一种虚开发票行为检测方法、装置、电子设备及存储介质,方法包括:确定目标纳税实体的涉税数据,涉税数据包含开票数据,从涉税数据中提取目标纳税实体的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好的随机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据,若虚开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。本方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加精细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税实体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于指标评价体系的方案中指标阈值难以科学合理确定的局限和不足。

Patent Agency Ranking