一种新闻话题检测方法
    61.
    发明公开

    公开(公告)号:CN110134787A

    公开(公告)日:2019-08-16

    申请号:CN201910400320.9

    申请日:2019-05-15

    Abstract: 本发明涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。

    基于五笔码的字符级文本分类方法

    公开(公告)号:CN110059192A

    公开(公告)日:2019-07-26

    申请号:CN201910404059.X

    申请日:2019-05-15

    Abstract: 本发明涉及一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型,采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本发明提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。

    基于注意力增强的双向LSTM模型的情感分析方法

    公开(公告)号:CN109710761A

    公开(公告)日:2019-05-03

    申请号:CN201811566673.8

    申请日:2018-12-21

    Abstract: 本发明涉及一种基于注意力增强的双向LSTM模型的情感分析方法,所述方法采用注意力机制与双向LSTM模型相结合,使用双向LSTM模型学习文本语义信息,使用注意力机制加强对重点词的关注,所述方法包括:首先对输入的句子利用预训练好词向量进行表示,然后分别经过双向LSTM模型和注意力模型学习表示,将两部分表示后的向量拼接,最终通过分类器完成文本情感分析的工作。本发明使用双向LSTM学习文本的语义信息,使用在词向量上建立的自注意力机制加强对句中情感关键词的关注度,本发明采用的词向量注意力机制与双向LSTM为并行结构,实验表明,本发明提出的模型表现出优越的性能,并在多个指标上超过了已知的最好模型,可以很好地满足实际应用的需要。

    基于LSTM的金融新闻倾向性分析方法

    公开(公告)号:CN109614490A

    公开(公告)日:2019-04-12

    申请号:CN201811566674.2

    申请日:2018-12-21

    Abstract: 本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。

    一种赛事文字直播关键句抽取方法

    公开(公告)号:CN108549636A

    公开(公告)日:2018-09-18

    申请号:CN201810310247.1

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种赛事文字直播关键句抽取方法,其特征在于,包括:步骤一:利用Word2Vec进行关键词扩展,得到得分相关词集和其他相关词集,将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征;步骤二:把关键句抽取转换为二分类问题,利用Adaboost算法进行分类。本发明首先利用Word2Vec对得分关键词和其他关键词进行扩展,得到得分相关词集和其他相关词集,然后把关键句抽取转换为二分类问题,以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征,并利用Adaboost提升算法进行抽取,得到了更加准确的抽取效果,达到了很好的抽取效果,抽取结果的正确率、召回率和F值均较高,可以很好地满足实际应用的需要。

    一种专利文本相似度计算方法

    公开(公告)号:CN108536677A

    公开(公告)日:2018-09-14

    申请号:CN201810310246.7

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。

    一种体育新闻自动生成方法

    公开(公告)号:CN107766338A

    公开(公告)日:2018-03-06

    申请号:CN201710969649.8

    申请日:2017-10-18

    Abstract: 本发明涉及一种体育新闻自动生成方法,包括以下步骤:步骤1)构建语料数据集;步骤2)对语料数据集中的语料进行标注;步骤3)训练生成模型;步骤4)抽取自动识别出的信息,生成体育新闻。本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。

    基于互联网的术语定义辨析方法

    公开(公告)号:CN104216880B

    公开(公告)日:2017-06-16

    申请号:CN201310206190.8

    申请日:2013-05-29

    Inventor: 吕学强 吴瑞红

    Abstract: 基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定义可信度计算和辨析结果选取。构建的参考释义兼顾术语定义准确性和专业性的特点,应用术语定义的五元组表示方法进行术语定义相似度计算,考虑了术语定义特征词之间的相似度和定义间语义相似度,更好地描绘了术语定义间的相似性;通过归纳术语定义的匹配模板以调整术语定义间相似度,使术语定义可信度更准确。本发明取得了很好的辨析效果,能够解决术语定义不规范、不准确的问题。

    一种应用文自动生成方法
    69.
    发明公开

    公开(公告)号:CN106407168A

    公开(公告)日:2017-02-15

    申请号:CN201610803388.8

    申请日:2016-09-06

    Abstract: 本发明涉及一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;步骤2)选择多个适用实体并输入其对应的具体内容;步骤3)建立模板库并从中选择一个模板;步骤4)对所选择的模板进行润色。本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。

    一种汉语概念复合块标注库规范化处理方法

    公开(公告)号:CN105446956A

    公开(公告)日:2016-03-30

    申请号:CN201510863734.7

    申请日:2015-12-02

    CPC classification number: G06F17/271

    Abstract: 本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。

Patent Agency Ranking