-
公开(公告)号:CN112070114A
公开(公告)日:2020-12-11
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN110503090A
公开(公告)日:2019-11-26
申请号:CN201910614874.9
申请日:2019-07-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。
-
公开(公告)号:CN106339459B
公开(公告)日:2019-11-26
申请号:CN201610741134.8
申请日:2016-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/955 , G06F17/27
Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。
-
公开(公告)号:CN109829499A
公开(公告)日:2019-05-31
申请号:CN201910097903.9
申请日:2019-01-31
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于同一特征空间的图文数据融合情感分类方法和装置。该方法的步骤包括:1)使用自动编码机提取多模态数据中图片的压缩特征表达;2)使用CNN-DCNN网络提取多模态数据中文字的压缩特征表达;3)将步骤1)、2)得到的图片特征和文本特征映射到同一个特征向量空间,得到图文整体特征;4)通过分类器对步骤3)得到的图文整体特征进行分类,得到情感分类结果。本发明将图、文特征映射到同一个空间下,再对整体信息进行情感分类,可以同时捕捉到微博等多模态数据的图、文数据之间语义相关性和情感相关性。
-
公开(公告)号:CN107341135A
公开(公告)日:2017-11-10
申请号:CN201710372929.0
申请日:2017-05-24
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22
Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。
-
公开(公告)号:CN104156400B
公开(公告)日:2017-07-11
申请号:CN201410350005.7
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种海量网络流数据的存储方法及装置,包括以下步骤:采集任一时段内用户提交的数据查询请求,根据数据查询请求得到查询条件;分析查询条件中的时间属性及特征属性,选择超出预设出现频率的阈值的特征属性作为聚簇属性;为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件;采集机接收网络流数据并转发给文件服务器,文件服务器按照配置文件存储接收到的网络流数据。本发明使查询条件直接映射到相应的空间划分中,直接进行数据的写入或查询,在最大程度上降低加载和存储的开销的同时,保证查询性能。
-
公开(公告)号:CN105468298A
公开(公告)日:2016-04-06
申请号:CN201510802190.3
申请日:2015-11-19
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
CPC classification number: G06F3/0613 , G06F3/0643 , G06F3/0676
Abstract: 本发明公开了一种基于日志结构合并树的键值存储方法。本方法为:1)为每一数据存储组件在内存中设置一缓存组件,并对每一缓存组件设置一布隆过滤器;为每个SSTable的每一数据块设置一布隆过滤器;2)对于待合并的数据存储组件Ci,采用布隆过滤器逐级对Ci当前数据块的每一键值对进行跳转判断:若跳跃至Ci+M,则Ci+M及其之前各级组件中没有对应键任何版本的键值对,而Bi+M+1中包含对应版本的键值对;然后将该键值对置于Bi+M中;若跳跃至Bi+N,则Bi+N及其之前各级组件中没有对应键任何版本的键值对,而Ci+N中包含对应版本的键值对;3)对于Bi中待合并的键值对采用相似方法进行处理。
-
公开(公告)号:CN103136338B
公开(公告)日:2016-02-10
申请号:CN201310042675.8
申请日:2013-02-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于目录划分的元数据分布方法,包括以下步骤:获取元数据中的文件名,得到名称文件;对目录进行目录划分,得到多个目录分片文件,并为每个目录分片文件分配一个目录分片号;分别为每个名称文件分配一个目录分片号,将名称文件保存在相应的目录分片文件中;将名称文件存储于当前的目录分片文件中或者将目录分片文件进行分裂,为分裂出的目录分片文件分配目录分片号,将名称文件存储于当前的目录分片文件中或者分裂后的目录分片文件中;根据目录分片号与预定值判断当前的目录分片文件分裂出的目录分片文件的存储位置。本发明提高了系统的并发度,利用了更多并行资源,利用本地性优势,减少对网络带宽的消耗,提升系统的整体性能。
-
公开(公告)号:CN104572828A
公开(公告)日:2015-04-29
申请号:CN201410743826.7
申请日:2014-12-08
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30094 , G06F17/30138
Abstract: 本发明涉及一种基于空间位图模型的辅助索引方法及系统,包括以下步骤:获取日志文件、文件编号及其中的关键字;选择任一关键字作为当前关键字;对当前关键字做检测;在重新申请的索引空间中插入当前的文件编号;判断当前关键字的索引空间中实际有效文件范围是否小于索引空间的预定临界值;保存有效文件范围内的所有索引信息;利用顺序后移指针记录插入位置及偏移量的信息;将临时有效文件范围指针与顺序后移指针整合成新的索引空间的信息;判断整合后的索引空间的信息里是否出现了三个关于偏移量的单增区间;结束处理。本发明能够节省内存空间,在置位率较低或者插入位置较靠近最大更新位置时效率较高,并且能够进行空间动态调整。
-
公开(公告)号:CN114926676B
公开(公告)日:2025-05-02
申请号:CN202210425626.1
申请日:2022-04-21
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V10/774 , G06F17/16 , G06V10/40 , G06V10/74
Abstract: 本发明公开了一种基于特征空间有效面积的自适应加权长尾分类方法及装置,所述方法包括:在原始数据的分布上训练特征提取器与分类器,得到基本分类模型;基于训练后的特征提取器,抽取所述原始数据的特征表示,并根据每一类别中所述特征表示之间的相关系数,构建该类别的相关系数矩阵;基于所述相关系数矩阵,计算每一类别在特征空间中的有效面积,并通过所述有效面积给各类别分配权重,训练所述基本分类模型,以得到分类模型;基于所述分类模型,获取待检测数据的分类结果。本发明通过估计特征空间中的有效面积从而给予不同的类别不同的权重损失,更好的划分特征空间,以对长尾数据进行更有效地分类。
-
-
-
-
-
-
-
-
-