-
公开(公告)号:CN110990564B
公开(公告)日:2023-12-01
申请号:CN201911133898.9
申请日:2019-11-19
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F16/33 , G06F16/9535 , G06F40/30
Abstract: 本发明公开了一种基于情感计算与多头注意力机制的负面新闻识别方法,涉及网络舆情监测技术领域,解决的技术问题是如何解决客观性负面新闻难以识别的问题,包括如下具体步骤:建立并扩充负向情感种子词库并进行感倾向度计算;(3)进行向量化表示,确定判别模型的输入;(4)建立负面新闻判别模型;(5)进行负面新闻识别。本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。(1)对网络新闻文本数据进行采集和预处理;(2)
-
公开(公告)号:CN109543086B
公开(公告)日:2022-11-22
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN113342950A
公开(公告)日:2021-09-03
申请号:CN202110625585.6
申请日:2021-06-04
Applicant: 北京信息科技大学
IPC: G06F16/332 , G06F16/35 , G06F40/211 , G06F40/253 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于语义联合的答案选取方法,文本预处理与输入层对原始数据预处理,删除无正确答案问题,将问题与答案语义联合拼成文段序列,使用特殊标志分割将问题和答案句子区分,得到格式数组;语义编码层将格式数组输入,用自注意力机制使单词成为隐藏文段中其他单词信息的语义向量,并输入向前传播层,得到文段的向量表示;特征提取层获取向量表示作为问题和答案的语义信息,用线性函数将高维向量转化为低维;并用进行特征提取,获得语义语法信息;语义关联层使用分类,对语义语法信息的相关联程度进行评分,得到二维向量,选取后一维度的数值,得到关联度。本发明的方法在问答数据集上表现出优越的性能,提取答案与问题关键信息能力显著。
-
公开(公告)号:CN107169873B
公开(公告)日:2021-05-11
申请号:CN201710455299.3
申请日:2017-06-16
Applicant: 北京信息科技大学
Abstract: 本发明公开了一种多特征融合的微博用户权威度评价方法,该方法在新浪微博的用户信息体系的基础上,总结出了用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数4项影响用户权威度的特征,并分别给出了提取与计算方法。在用户信息传播影响力的计算中,提出了一种基于PageRank算法改进的UserRank模型,并通过实验验证了其相对于PageRank算法更加有效。最后,基于层次分析法确定了4项用户特征的权值,构建了多特征融合的微博用户权威度评价模型并进行了相关实验。实验结果表明,本发明提出的方法计算的微博用户权威度比较合理,为用户权威度的定量评价提供了一种可行的解决方案。
-
公开(公告)号:CN111026976A
公开(公告)日:2020-04-17
申请号:CN201911282150.5
申请日:2019-12-13
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/35 , G06F40/289 , G06Q50/00 , G06K9/62
Abstract: 一种微博特定事件关注群体识别方法,通过改进PageRank算法对特定事件的重点用户进行识别,在对特定事件的重点关注用户进行识别的基础上,对重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,然后采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次。本发明的方法能够很好的识别出特定事件的重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。
-
公开(公告)号:CN110543564A
公开(公告)日:2019-12-06
申请号:CN201910784200.3
申请日:2019-08-23
Applicant: 北京信息科技大学
Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题-短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
-
公开(公告)号:CN114742593B
公开(公告)日:2024-09-17
申请号:CN202210428659.1
申请日:2022-04-22
Applicant: 北京信息科技大学
IPC: G06Q30/0204 , G06F18/23213 , G06Q10/087
Abstract: 本发明公开了一种物流仓储中心优化选址方法及系统,该方法包括:获取数据集,包括目标地区各行政区域的政务中心位置数据及经济适应量;采用K均值聚类法对数据集中数据点进行基于位置数据的聚类;构建物流仓储中心的选址模型,基于选址模型,对各聚类区域分别采用帝王蝶优化法优化选取物流仓储中心地址。本发明更能契合实际问题的解决,可进一步降低物流运输时间和成本。
-
公开(公告)号:CN117786112A
公开(公告)日:2024-03-29
申请号:CN202311840550.X
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/30 , G06N3/045 , G06F40/151 , G06N5/04
Abstract: 本发明公开了一种大语言模型驱动的立场感知事实核查方法,涉及自然语言处理技术领域,首先,使用大语言模型推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角,其次,通过语义相似度计算,分别衡量了每个证据句子与原始声明及辩证声明之间的相关性,并从中选择了与两者语义上最相近的k个句子,以作为支持或反对原始声明的证据,该步骤获得了代表不同立场的证据,有助于事实核查模型综合多角度的信息,从而更准确地评估声明的真实性,最后,引入了BERT‑StuSE模型,利用多头注意力机制充分融合证据的语义和立场信息,并对声明和证据的关系进行更全面、客观的判断。
-
公开(公告)号:CN110543564B
公开(公告)日:2023-06-20
申请号:CN201910784200.3
申请日:2019-08-23
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/284 , G06F40/289 , G06Q10/0639
Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
-
公开(公告)号:CN112989802A
公开(公告)日:2021-06-18
申请号:CN202110115490.X
申请日:2021-01-28
Applicant: 北京信息科技大学
IPC: G06F40/216 , G06F40/289 , G06F16/35 , G06K9/62 , G06K9/32
Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。
-
-
-
-
-
-
-
-
-