-
公开(公告)号:CN103778243A
公开(公告)日:2014-05-07
申请号:CN201410047277.X
申请日:2014-02-11
Applicant: 北京信息科技大学
Abstract: 本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。
-
公开(公告)号:CN101660406B
公开(公告)日:2013-01-23
申请号:CN200910307879.3
申请日:2009-09-28
Applicant: 北京信息科技大学
Abstract: 一种存储式压力采集系统及其油井压力采集方法,包括下位机和上位机,下位机内包括采集压力参量的信息并转换成电信号的压力传感器、放大器、模数转换器、用于系统的数据采集、数据存取和时钟参数设置并对所述数字信号进行处理的单片机、实时时钟电路、存储器、液晶显示模块、用于输入存储编号和采样间隔时间的按键控制电路、用于将信息传输给微型计算机的通信接口和用于给上述系统供电的电源模块和电源,可以实现压力数据采集、A/D转换、数据处理以及保存显示等功能,以满足油田获取最大采油率的需要。存储式压力采集系统实现大量压力数据存储,实现时间、油井号的输入,以及传送数据到上位机的功能。
-
公开(公告)号:CN114742593B
公开(公告)日:2024-09-17
申请号:CN202210428659.1
申请日:2022-04-22
Applicant: 北京信息科技大学
IPC: G06Q30/0204 , G06F18/23213 , G06Q10/087
Abstract: 本发明公开了一种物流仓储中心优化选址方法及系统,该方法包括:获取数据集,包括目标地区各行政区域的政务中心位置数据及经济适应量;采用K均值聚类法对数据集中数据点进行基于位置数据的聚类;构建物流仓储中心的选址模型,基于选址模型,对各聚类区域分别采用帝王蝶优化法优化选取物流仓储中心地址。本发明更能契合实际问题的解决,可进一步降低物流运输时间和成本。
-
公开(公告)号:CN117786112A
公开(公告)日:2024-03-29
申请号:CN202311840550.X
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/30 , G06N3/045 , G06F40/151 , G06N5/04
Abstract: 本发明公开了一种大语言模型驱动的立场感知事实核查方法,涉及自然语言处理技术领域,首先,使用大语言模型推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角,其次,通过语义相似度计算,分别衡量了每个证据句子与原始声明及辩证声明之间的相关性,并从中选择了与两者语义上最相近的k个句子,以作为支持或反对原始声明的证据,该步骤获得了代表不同立场的证据,有助于事实核查模型综合多角度的信息,从而更准确地评估声明的真实性,最后,引入了BERT‑StuSE模型,利用多头注意力机制充分融合证据的语义和立场信息,并对声明和证据的关系进行更全面、客观的判断。
-
公开(公告)号:CN110543564B
公开(公告)日:2023-06-20
申请号:CN201910784200.3
申请日:2019-08-23
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/284 , G06F40/289 , G06Q10/0639
Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
-
公开(公告)号:CN112989802A
公开(公告)日:2021-06-18
申请号:CN202110115490.X
申请日:2021-01-28
Applicant: 北京信息科技大学
IPC: G06F40/216 , G06F40/289 , G06F16/35 , G06K9/62 , G06K9/32
Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。
-
公开(公告)号:CN109543086A
公开(公告)日:2019-03-29
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN106017925B
公开(公告)日:2019-01-25
申请号:CN201610304684.3
申请日:2016-05-09
Applicant: 北京信息科技大学
IPC: G01M13/045
-
公开(公告)号:CN104915443A
公开(公告)日:2015-09-16
申请号:CN201510366805.2
申请日:2015-06-29
Applicant: 北京信息科技大学
CPC classification number: G06F17/30864 , G06F17/277 , G06F17/2785 , G06K9/6269 , G06Q50/01
Abstract: 本发明提供一种中文微博评价对象的抽取方法,包括步骤:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;以及利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。本发明的中文微博评价对象的抽取方法具有较高的准确率和较好的召回率。
-
公开(公告)号:CN104133812A
公开(公告)日:2014-11-05
申请号:CN201410341855.0
申请日:2014-07-17
Abstract: 本发明提供了一种面向用户查询意图的汉语句子相似度分层计算方法及装置,通过采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子,再采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子,最后采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子。至此,得到数据集中的所有相似句子。本发明计算简洁,效果良好,可以有效解决关键词差异大、长度长、句子结构复杂等问题。
-
-
-
-
-
-
-
-
-