-
公开(公告)号:CN105447159A
公开(公告)日:2016-03-30
申请号:CN201510863732.8
申请日:2015-12-02
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本发明涉及一种用户间查询关联度的查询扩展方法,包括以下步骤:步骤1)统计一个用户所浏览的网页的总数;步骤2)划分兴趣类别;步骤3)统计该用户所浏览的网页所包含的兴趣类别的种类数目以及网页的数目;步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;步骤5)构建出该用户的用户偏好模型;步骤6)利用步骤1)至步骤5)的方法构建出多个用户偏好模型;步骤7)形成多个用户群;步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间。本发明优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率。
-
公开(公告)号:CN105335351A
公开(公告)日:2016-02-17
申请号:CN201510701365.1
申请日:2015-10-27
CPC classification number: G06F17/2795 , G06F17/277 , G06F17/30705
Abstract: 本发明涉及一种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。本发明提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105224689A
公开(公告)日:2016-01-06
申请号:CN201510726507.X
申请日:2015-10-30
Applicant: 北京信息科技大学
IPC: G06F17/30
CPC classification number: G06F16/35
Abstract: 本发明涉及一种东巴文献分类方法,包括以下步骤:步骤1)划分训练集与测试集;步骤2)文本预处理;步骤3)特征选择;步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;步骤5)特征加权;步骤6)用向量空间模型来表示训练集和测试集的文档,得到其向量空间模型表示形式;步骤7)根据分类规则对测试集进行分类得到分类结果。本发明提出的东巴文献分类方法,设计科学合理,工作效率高,利用GMI特征选择算法选择出文本特征,然后结合文献特征进行二次降维得到东巴文献的分类特征,最后利用支持向量机分类器对东巴文献进行训练和测试,平均正确率和召回率都很高,为东巴文献分类提供了一个非常有效的方法。
-
公开(公告)号:CN105224520A
公开(公告)日:2016-01-06
申请号:CN201510623936.4
申请日:2015-09-28
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种中文专利文献术语自动识别方法,包括以下步骤:步骤1):基于专利标题自动生成词性规则;步骤2):手工构建停用词表;步骤3):对生成的所述词性规则按照所含词性的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序。本发明首先利用统计学方法从专利标题中自动学习出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN103678272A
公开(公告)日:2014-03-26
申请号:CN201210344884.3
申请日:2012-09-17
Applicant: 北京信息科技大学
Abstract: 本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对 回升到 或 ,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。
-
公开(公告)号:CN119991157A
公开(公告)日:2025-05-13
申请号:CN202411597818.6
申请日:2024-11-11
Applicant: 中国人民解放军军事科学院军事科学信息研究中心 , 北京信息科技大学
IPC: G06Q30/02 , G06Q10/0635 , G06Q50/18 , G06F16/353 , G06F18/243 , G06F18/25 , G06N3/045 , G06N3/0455 , G06N3/096 , G06N5/04 , G06N5/01 , G06N20/20
Abstract: 本发明公开多指标融合的中文专利价值评估方法,属于专利价值评估技术领域。该方法包括:步骤1、提取专利文本维度特征;包括:基于大语言模型GLM从说明书摘要中提取短文本特征,以及基于HBert模型从权利要求书中提取长文本特征;步骤2、提取专利基本信息指标特征;包括技术维度指标、经济维度指标、法律维度指标以及企业维度指标;步骤3、基于专利文本维度特征和专利基本信息指标特征,利用XGBoost模型进行专利价值等级评估。
-
公开(公告)号:CN116595169A
公开(公告)日:2023-08-15
申请号:CN202310415758.0
申请日:2023-04-18
Applicant: 北京信息科技大学 , 华能煤炭技术研究有限公司
IPC: G06F16/35 , G06F16/332 , G06F40/186 , G06N3/08 , G06N3/047
Abstract: 本专利摘要涉及一种基于提示学习的煤矿生产领域问答意图分类方法。问答系统是智能化信息处理的重要领域,也是煤矿智能化建设不可或缺的一部分。在实际应用中,意图分类是智能问答的重要子任务,它可以帮助问答系统更好地理解用户查询意图并提供准确答案。本方法通过引入不同的提示模板对BERT预训练模型进行微调,从而提高问答意图分类的准确性。实验结果表明,引入提示模板后,模型的准确率、召回率和F1值均有所提高。此外,该方法还可以在少样本场景下快速适配新领域的任务,具有较好的应用价值。因此,本专利摘要所述的基于提示学习的煤矿生产领域问答意图分类方法可用于问答系统的开发和应用。
-
公开(公告)号:CN115858813A
公开(公告)日:2023-03-28
申请号:CN202211628660.5
申请日:2022-12-20
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F16/35 , G06F16/332 , G06F40/30
Abstract: 本发明涉及面向工程咨询报告的文本检索方法,以改善工程咨询报告撰写过程中人力成本大、编撰周期过长等问题,包括以下步骤:构建面向工程咨询报告的文本检索语料集,使用语料集微调simCSE对比学习模型,将得到的模型参数初始化Vanilla BERT模型,将语料的文本信息送入Vanilla BERT模型得到语义匹配分数。将文本信息和关键词信息通过SAT模型得到词级粒度的义原词向量表示并送入DRMM深度文本交互模型,得到关联匹配分数。将得到的语义匹配分数和关联匹配分数归一化后加权融合,得到最终的匹配分数,完成标题与段落之间的文本检索。本发明联合上下文向量表示和文本交互匹配方法,有效增强了文本检索的效果。
-
公开(公告)号:CN115357187A
公开(公告)日:2022-11-18
申请号:CN202210950209.9
申请日:2022-08-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及存储系统领域中的绿色存储技术以及自然语言处理领域中的数据语义挖掘技术,针对存储系统中数据语义的挖掘,采用多特征融合方法,提升了现有基于单一特征在数据布局策略上的不足,包括以下步骤:(一)、设定实验所需200个访问关键词;(二)、将中国34个省级行政区,按标准划分为四季分明区、夏长冬短区、冬长夏短区和其他区;(三)、获取每个气候区中200个关键词3年每日的访问记录;(四)、利用K‑means聚类,确定关键词在不同气候区的季节属性;(五)、构建存储系统能耗和成本模型,得到不同粒度框架下的能耗和成本。本发明融合“季节+地域”特征,充分提取关键词的季节属性,能够更为有效地降低存储能耗和成本。
-
公开(公告)号:CN115329046A
公开(公告)日:2022-11-11
申请号:CN202211001959.8
申请日:2022-08-21
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
Abstract: 本发明涉及自然语言处理领域的文本检索技术,提升了现有方法在语义匹配上的不足,包括以下步骤:围绕在工程咨询报告范围获取实验所需数据,每个标题标注60段文本数据;将数据以[CLS]标题[SEP]段落[SEP]的形式传入BERT模型,得到标题和段落的向量表示;基于向量分别构建图拓扑结构,并利用图卷积神经网络GCN获取全局结构特征;针对具有上下文信息和全局特征的向量表示,利用排序模型得到第一个得分;将段落对应关键词利用Word2Vec得到向量表示,基于余弦相似度得到第二个得分,对两个得分加权平均得到最终匹配结果;训练模型并更新参数,在测试集上提取文本特征并进行检索。本发明能够提升文本检索的准确性。
-
-
-
-
-
-
-
-
-