一种人物属性抽取训练数据集构建方法

    公开(公告)号:CN109033166A

    公开(公告)日:2018-12-18

    申请号:CN201810636331.2

    申请日:2018-06-20

    Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。

    一种新闻事件中人物观点抽取方法

    公开(公告)号:CN108984521A

    公开(公告)日:2018-12-11

    申请号:CN201810635449.3

    申请日:2018-06-20

    Abstract: 本发明公开了一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索3个部分;观点抽取部分负责对原始的新闻文本进行清理,并提取其中的观点要素包括观点持有者、观点评价对象、观点情感强度等;人物观点数据库负责存储人物、观点以及情感,以便检索和查询;观点检索部分负责响应用户的检索请求,对检索结果进行去重和合并,并返回排序的检索结果;本发明方法能够有效识别新闻中的人物观点并构建可供检索的人物观点数据库,提供了一种准确高效的人物观点抽取方法。

    一种概率图模型的近似推理算法

    公开(公告)号:CN107220709A

    公开(公告)日:2017-09-29

    申请号:CN201710175349.2

    申请日:2017-03-22

    CPC classification number: G06N7/005

    Abstract: 本发明公开了一种概率图模型的近似推理算法,首先利用分离算法选择有效的k‑叉环不等式约束;然后将这些k‑叉环不等式约束对应的环组合到一个平面子图上,并逐次添加到对偶子问题中;最后通过优化对偶问题来求解原推理问题,本发明研究概率图模型近似推理算法,提出了一个基于等价性定理的平面子图选择准则,利用该准则设计了一个对偶分解框架下的快速收敛推理算法,该算法首先利用分离算法选择有效的k‑叉环不等式约束,然后将这些k‑叉环不等式约束对应的环组合到一个平面子图上,并逐次添加到对偶子问题中,最后通过优化对偶问题来求解原推理问题。实验表明,该算法与其它主流近似推理算法相比,收敛速度更快。

    一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768A

    公开(公告)日:2016-12-14

    申请号:CN201610559782.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。

    一种互联网恶意代码处置方法

    公开(公告)号:CN103942491A

    公开(公告)日:2014-07-23

    申请号:CN201310729190.6

    申请日:2013-12-25

    CPC classification number: G06F21/552 G06F21/56

    Abstract: 本发明公开了一种互联网恶意代码处置方法,包括:步骤S101,匹配可疑样本,计算可疑样本文件的哈希值,与已分析样本进行对比,判断是否已经分析过,如果是,则直接返回该可疑样本的已有分析结果;如果否,则转步骤S102;步骤S102,对于未分析过的可疑样本,调用杀毒引擎进行病毒扫描,判断该可疑样本是否属于已知恶意代码,如果是,则获得该恶意代码的信息;如果否,则转步骤S103;步骤S103,当可疑样本属于未知恶意代码时,进行全面的动态分析,得到恶意代码分析报告。本发明能自动快速分析各种恶意代码,生成恶意代码分析报告,为研究恶意代码防御和清除方法提供依据。

Patent Agency Ranking