一种新闻主体识别方法、设备和计算机可读存储介质

    公开(公告)号:CN113496118A

    公开(公告)日:2021-10-12

    申请号:CN202010266045.9

    申请日:2020-04-07

    Abstract: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。

    一种面向领域的文本信息抽取聚类方法、设备和存储介质

    公开(公告)号:CN111026866B

    公开(公告)日:2020-10-23

    申请号:CN201911019149.3

    申请日:2019-10-24

    Abstract: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。

    基于BERT的媒体信息观点抽取方法、装置、设备和存储介质

    公开(公告)号:CN113139116B

    公开(公告)日:2024-03-01

    申请号:CN202010060445.4

    申请日:2020-01-19

    Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观

    一种文本原创识别方法、装置、电子设备及存储介质

    公开(公告)号:CN113553839A

    公开(公告)日:2021-10-26

    申请号:CN202010340711.9

    申请日:2020-04-26

    Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。

    一种面向领域的文本信息抽取聚类方法、设备和存储介质

    公开(公告)号:CN111026866A

    公开(公告)日:2020-04-17

    申请号:CN201911019149.3

    申请日:2019-10-24

    Abstract: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。

Patent Agency Ranking