-
公开(公告)号:CN105678327A
公开(公告)日:2016-06-15
申请号:CN201610001335.4
申请日:2016-01-05
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
Abstract: 本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105447159A
公开(公告)日:2016-03-30
申请号:CN201510863732.8
申请日:2015-12-02
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本发明涉及一种用户间查询关联度的查询扩展方法,包括以下步骤:步骤1)统计一个用户所浏览的网页的总数;步骤2)划分兴趣类别;步骤3)统计该用户所浏览的网页所包含的兴趣类别的种类数目以及网页的数目;步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;步骤5)构建出该用户的用户偏好模型;步骤6)利用步骤1)至步骤5)的方法构建出多个用户偏好模型;步骤7)形成多个用户群;步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间。本发明优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率。
-
公开(公告)号:CN115601588A
公开(公告)日:2023-01-13
申请号:CN202211196793.X
申请日:2022-09-30
Applicant: 北京信息科技大学(CN)
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明涉及计算机视觉领域的模型解释方法,特别涉及针对图像分类深度学习模型得到模型可解释性语句,提升模型解释效果,包括以下步骤:计算分类模型神经元置信度分数;利用反向传播推导出对应神经元权重并与置信度相乘作为最终评分找出重要神经元;使用类激活图将重要神经元在图像上的关注区域可视化,提取视觉特征,并用同样方法构建对应类的神经元视觉特征数据集;将视觉特征数据集标注对应语义信息并使用分类网络对其进行训练;使用训练好的分类网络提取重要神经元视觉特征对应的语义信息;结合神经元重要程度分数、视觉特征、语义信息组成描述此模型分类过程的解释性语句。
-
公开(公告)号:CN110134787A
公开(公告)日:2019-08-16
申请号:CN201910400320.9
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35
Abstract: 本发明涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。
-
公开(公告)号:CN110059192A
公开(公告)日:2019-07-26
申请号:CN201910404059.X
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35
Abstract: 本发明涉及一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型,采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本发明提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109614490A
公开(公告)日:2019-04-12
申请号:CN201811566674.2
申请日:2018-12-21
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。
-
公开(公告)号:CN108549636A
公开(公告)日:2018-09-18
申请号:CN201810310247.1
申请日:2018-04-09
Abstract: 本发明涉及一种赛事文字直播关键句抽取方法,其特征在于,包括:步骤一:利用Word2Vec进行关键词扩展,得到得分相关词集和其他相关词集,将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征;步骤二:把关键句抽取转换为二分类问题,利用Adaboost算法进行分类。本发明首先利用Word2Vec对得分关键词和其他关键词进行扩展,得到得分相关词集和其他相关词集,然后把关键句抽取转换为二分类问题,以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征,并利用Adaboost提升算法进行抽取,得到了更加准确的抽取效果,达到了很好的抽取效果,抽取结果的正确率、召回率和F值均较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108536677A
公开(公告)日:2018-09-14
申请号:CN201810310246.7
申请日:2018-04-09
IPC: G06F17/27
Abstract: 本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107766338A
公开(公告)日:2018-03-06
申请号:CN201710969649.8
申请日:2017-10-18
Abstract: 本发明涉及一种体育新闻自动生成方法,包括以下步骤:步骤1)构建语料数据集;步骤2)对语料数据集中的语料进行标注;步骤3)训练生成模型;步骤4)抽取自动识别出的信息,生成体育新闻。本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105446956A
公开(公告)日:2016-03-30
申请号:CN201510863734.7
申请日:2015-12-02
IPC: G06F17/27
CPC classification number: G06F17/271
Abstract: 本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-