-
公开(公告)号:CN108549636A
公开(公告)日:2018-09-18
申请号:CN201810310247.1
申请日:2018-04-09
Abstract: 本发明涉及一种赛事文字直播关键句抽取方法,其特征在于,包括:步骤一:利用Word2Vec进行关键词扩展,得到得分相关词集和其他相关词集,将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征;步骤二:把关键句抽取转换为二分类问题,利用Adaboost算法进行分类。本发明首先利用Word2Vec对得分关键词和其他关键词进行扩展,得到得分相关词集和其他相关词集,然后把关键句抽取转换为二分类问题,以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征,并利用Adaboost提升算法进行抽取,得到了更加准确的抽取效果,达到了很好的抽取效果,抽取结果的正确率、召回率和F值均较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108536677A
公开(公告)日:2018-09-14
申请号:CN201810310246.7
申请日:2018-04-09
IPC: G06F17/27
Abstract: 本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107766338A
公开(公告)日:2018-03-06
申请号:CN201710969649.8
申请日:2017-10-18
Abstract: 本发明涉及一种体育新闻自动生成方法,包括以下步骤:步骤1)构建语料数据集;步骤2)对语料数据集中的语料进行标注;步骤3)训练生成模型;步骤4)抽取自动识别出的信息,生成体育新闻。本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108549635A
公开(公告)日:2018-09-18
申请号:CN201810310200.5
申请日:2018-04-09
IPC: G06F17/27
Abstract: 本发明涉及一种专利文献领域术语抽取方法,包括:专利文本预处理、术语标注、字序列标注、语料划分和CRFs模型训练及预测。本发明利用条件随机场模型对专利文献中的术语进行抽取,采用字序列标注的方法,建立字级层面的特征来抽取术语,减少了分词对特征提取带来的噪音干扰,同时,基于构建的领域核心词典自动标注训练语料和测试语料中的术语,减少了人工标注的成本,在不同词位类别标注下训练的模型的抽取效果好,准确率、召回率和F值较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107665356A
公开(公告)日:2018-02-06
申请号:CN201710969648.3
申请日:2017-10-18
Abstract: 本发明涉及一种图像标注方法,包括以下步骤:步骤1)定义图像标注模型的目标函数;步骤2)将图像输入CNN模型,得到原始图像特征;步骤3)对原始图像特征进行加权;步骤4)向LSTM模型中输入信息;步骤5)对预测结果产生的误差进行反向传播。本发明提供的图像标注方法,首先通过卷积神经网络提取图像底层特征,然后使用聚焦机制提取图像特定位置区域与图像标注词相关的图像特征输入到长短期记忆网络模型中,生成相应的预测标注词,最终实现图像标注,标注性能优异,标注精度高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108549634A
公开(公告)日:2018-09-18
申请号:CN201810310198.1
申请日:2018-04-09
Abstract: 本发明涉及一种中文专利文本相似度计算方法,包括:对文本进行分词;对分词结果计算TF-IDF值,抽取TF-IDF值较高的作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本的关键句,基于关键句的句子相似度计算文本的相似度。本发明利用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领域本体来进行专利文本相似度的计算,计算结果的正确率和召回率较高,能够更准确地描述专利之间的相似程度,能够加快专利审查的速度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108536821A
公开(公告)日:2018-09-14
申请号:CN201810310248.6
申请日:2018-04-09
Abstract: 本发明涉及一种赛事新闻领域词库的构建方法,包括:识别赛事新闻中的领域词、识别球员名和球队名;本发明提供的赛事新闻领域词库的构建方法,通过改进互信息方法得到构建领域词的方法,通过词语在领域内的频度和分散度以及领域间的集中度改进了互信息方法,并把其他领域的互信息平均值也作为考虑项,用本领域的改进互信息值与其他领域改进互信息的平均值的差,来作为计算词语对类别领域值的计算方法,本发明提出的方法没有涉及到领域内知识,可扩展性比较强,能够取得很好的识别效果,识别准确率高,而且把识别出来的球队名、球员名和领域词添加到领域词库中,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107807971A
公开(公告)日:2018-03-16
申请号:CN201710969647.9
申请日:2017-10-18
CPC classification number: G06F17/30268 , G06N3/0454 , G06N3/084
Abstract: 本发明涉及一种自动图像语义描述方法,包括构建及训练基于CNN和GRU的自动图像语义描述模型,具体为:步骤1)定义目标函数;步骤2)进行从图像到语义描述翻译的过程;步骤3)对误差进行反向的传播。本发明提供的自动图像语义描述方法,将CNN提取的某层全连接层特征作为GRU模型的输入,有效融合图像的底层特征和图像语义描述高层语义信息,精度高,准确度高,使用较少的参数就达到较高的语义描述精度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN115601588A
公开(公告)日:2023-01-13
申请号:CN202211196793.X
申请日:2022-09-30
Applicant: 北京信息科技大学(CN)
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明涉及计算机视觉领域的模型解释方法,特别涉及针对图像分类深度学习模型得到模型可解释性语句,提升模型解释效果,包括以下步骤:计算分类模型神经元置信度分数;利用反向传播推导出对应神经元权重并与置信度相乘作为最终评分找出重要神经元;使用类激活图将重要神经元在图像上的关注区域可视化,提取视觉特征,并用同样方法构建对应类的神经元视觉特征数据集;将视觉特征数据集标注对应语义信息并使用分类网络对其进行训练;使用训练好的分类网络提取重要神经元视觉特征对应的语义信息;结合神经元重要程度分数、视觉特征、语义信息组成描述此模型分类过程的解释性语句。
-
公开(公告)号:CN110134787A
公开(公告)日:2019-08-16
申请号:CN201910400320.9
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35
Abstract: 本发明涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-