-
公开(公告)号:CN104408093B
公开(公告)日:2018-01-26
申请号:CN201410645944.4
申请日:2014-11-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN103268339B
公开(公告)日:2016-06-01
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN104408093A
公开(公告)日:2015-03-11
申请号:CN201410645944.4
申请日:2014-11-14
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30905 , G06F17/2765
Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
-
-
-