-
公开(公告)号:CN109558905A
公开(公告)日:2019-04-02
申请号:CN201811403709.0
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06K9/62
Abstract: 本发明涉及一种基于K-means的能耗感知的数据分类方法,包括:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。本发明通过提取数据的潮汐特性和季节性特性,利用K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低。
-
-
公开(公告)号:CN108921830A
公开(公告)日:2018-11-30
申请号:CN201810639977.6
申请日:2018-06-21
Applicant: 北京信息科技大学 , 中国电影科学技术研究所
Abstract: 本发明涉及一种基于图像检索的人数统计方法,包括:将原图像分成多个具有相同透视效果的不同尺度子图像块;改进空间金字塔池化网络模型,使用训练数据训练改进的空间金字塔池化网络模型;使用改进的空间金字塔池化网络提取不同尺寸图像的特征;计算待测图像与已知图像间的距离,寻找距离最近的图像,获取其标签,得到待测子图像块的人数;将待测图像所分割的不同子图像块人数累加。本发明提供的基于图像检索的人数统计方法,对传统的空间金字塔池化网络模型进行了改进,采用改进的空间金字塔池化网络模型,避免了在图像尺寸归一化时造成的特征损失,人数识别准确率高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108920454A
公开(公告)日:2018-11-30
申请号:CN201810605920.4
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06F17/27
Abstract: 本发明涉及一种主题短语抽取方法,包括:文档预处理;求文档-主题集、全文词汇链集及名词短语集;求中心词集;求候选主题短语集;求主题短语集。本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少主题词二义性问题;同时,利用中心词提取方法和N-P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,且能够保证主题抽取的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108898166A
公开(公告)日:2018-11-27
申请号:CN201810605917.2
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06K9/62
Abstract: 本发明涉及一种图像标注方法,包括以下步骤:利用改进的FCM聚类算法对数据集中的每一个标签样本进行聚类,将不同语义的数据集划分为不同的类,得到每一个类的聚类中心集合;计算图像到各个类的聚类中心的欧式距离,计算得到图像到各个类的平均距离,求得与图像距离最小的一个类即为图像的标注类;找到图像到类中聚类中心距离最近的一个类,统计类中出现次数最多的标注词即为图像的标注词。本发明提供的图像标注方法,采用改进的FCM聚类算法对每一个语义标签类进行聚类,改进的FCM聚类算法中采用了新的距离测度算法,大大提高了图像标注的准确率,标注效果好,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105389303B
公开(公告)日:2018-11-27
申请号:CN201510701364.7
申请日:2015-10-27
Abstract: 本发明涉及一种异源语料自动融合方法,包括以下步骤:步骤1)构建UNP映射词表;步骤2)对源体系的标注进行归一化处理;步骤3)确定产生歧义的词的词性,对语料体系中词的词义进行评判,进而确定词的词性标记;步骤4)对目标词汇集合中的单类词进行训练,然后用所述特征模板对多类词进行预测,输出预测结果的概率值;步骤5)对概率值的分布曲线进行曲线拟合;步骤6)对预测结果进行置信度评价;步骤7)对预测结果进行正确性验证;步骤8)将标注后的词及词性信息还原到原始语料中,将语料库融合为一个更大规模的语料库。本发明扩展了语料库的规模,统一了标注标准,提高了后续基于语料库语言学的研究分析的准确性,获得了较好的效果。
-
公开(公告)号:CN108829823A
公开(公告)日:2018-11-16
申请号:CN201810605919.1
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06F17/30
Abstract: 本发明涉及一种采用一种改进输入的Attention-Based LSTM模型来进行高校学术活动的文本分类工作,采用字符级语言模型,对输入进行五笔码转化,随后进行文本数据向量表示,再输入Attention-Based LSTM模型进行分类。本发明提供的文本分类方法,利用改进输入的Attention-Based LSTM特征选择模型进行特征选择和分类,能够改善数据质量,降低数据维度,并有效地突出重点信息,优化特征向量,分类结果的准确率、召回率和F值都很高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108776706A
公开(公告)日:2018-11-09
申请号:CN201810610749.6
申请日:2018-06-13
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种基于本体的专利技术主题聚类方法,包括:将专利技术主题中的词语与领域本体中的概念术语建立映射关系;计算概念术语之间的相似度;利用概念术语之间的相似度来计算专利技术主题之间的相似度;根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明提供的基于本体的专利技术主题聚类方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题,聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN104021385B
公开(公告)日:2017-11-21
申请号:CN201310066629.1
申请日:2013-03-02
Applicant: 北京信息科技大学
IPC: G06K9/20
Abstract: 基于模板匹配及曲线拟合的视频字幕细化方法,涉及多媒体信息处理领域。本发明结合汉字的结构特征,对汉字笔划进行提取与重绘,从而达到汉字细化的效果,解决了其他细化算法在对该类对象进行细化时产生的笔划扭曲、丢失及识别率低的问题。本发明技术要点包括:获取视频字幕中汉字图像;确定汉字图像的连通区域;提出模板匹配法提取同一连通区域内汉字笔划;提出用水平、竖直线段重绘 “横”、“竖”笔划,二次Bezier曲线重绘“撇”、“捺”笔划,斜线段重绘“点”笔划的方法,从而实现汉字图像的细化效果。本发明保持了汉字的形状及笔划结构,避免了扭曲现象;保证了笔划的横平竖直及撇捺的弯曲度,更好地重绘出汉字的形态;提高了视频字幕的识别效果。
-
公开(公告)号:CN105701174A
公开(公告)日:2016-06-22
申请号:CN201610001349.6
申请日:2016-01-05
Applicant: 中国电影科学技术研究所 , 北京信息科技大学
IPC: G06F17/30
CPC classification number: G06F17/30262
Abstract: 本发明涉及一种基于动态纹理基元的外观设计专利检索方法,包括以下步骤:步骤1):提取纹理基元;步骤2):对纹理基元提取基于统计分析的LBP特征,并对提取的特征向量进行归一化和相似性度量,返回检索结果。本发明以外观设计专利为基础,针对不同图像纹理基元大小不一定相等的特点,本发明提出一种根据图像内容动态提取纹理基元并对纹理基元提取特征的图像检索算法。在检索具有重复纹理基元的图像时,本发明的检索效果优于已有的基于整幅图像的检索方法,能检索出具有相同纹理基元,但排列结构不同的图像,可用于图像纹理结构相似性判断,具有良好的检索效果,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-