-
公开(公告)号:CN115859983B
公开(公告)日:2023-08-25
申请号:CN202211608377.6
申请日:2022-12-14
Applicant: 成都信息工程大学
IPC: G06F40/295 , G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种细粒度中文命名实体识别方法,基于无标注语料训练BERT,得到训练好的BERT预训练模型;获取中文细粒度命名实体的语料数据,得到中文细粒度命名实体识别数据集;将中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中,提取各batch数据的Embedding词向量;获取特征向量之间深层特征;获取长文本之间依赖的离散特征;获取全局最优命名实体序列;获取模型综合损失,得到训练好的综合模型;利用综合模型对中文细粒度命名实体文本进行命名实体识别,得到识别结果。本发明用以解决现有的命名实体识别技术在细粒度命名实体识别时容易丢失中文长文本之间的信息依赖的缺陷,实现避免长文本的信息依赖丢失、更好提取长文本特征的目的。
-
公开(公告)号:CN111625394A
公开(公告)日:2020-09-04
申请号:CN202010458910.X
申请日:2020-05-27
Applicant: 成都信息工程大学
Abstract: 本发明提供了一种基于纠删码的数据恢复方法、装置、设备及存储介质,首先,对原始数据进行编码处理,生成冗余位,并将原始数据和生成的冗余数据存储;根据原始数据和生成的冗余数据对丢失的数据进行恢复,完成数据的恢复。本发明通过优化校验矩阵,来提高在数据恢复过程中在矩阵操作上所花费的时间,进一步提高数据的恢复效率,并减轻了在数据恢复中对矩阵操作的步骤和复杂度,从而提高了数据恢复的效率,且不会降低恢复效果。
-
公开(公告)号:CN111585581A
公开(公告)日:2020-08-25
申请号:CN202010407334.6
申请日:2020-05-14
Applicant: 成都信息工程大学
IPC: H03M13/15
Abstract: 本发明公开了一种基于二元域运算且支持任意码距的编码方法,其包括以下步骤:S1、获取编码方案数据;S2、将原始数据分块;S3、将所有原始数据块进行分条带处理;S4将条带内的原始数据块阵列;S5、获取阵列中原始数据块对应的值;S6、获取行列号集合;S7、获取与每个行列号集合相对应的k维向量;S8、获取矩阵Q;S9、得到与该条带对应的所有校验数据S10、获取该条带相对应的校验块;S11、将该条带的原始数据块和校验块分别存到不同的存储节点上,完成该条带的编码;S12、重复步骤S4至步骤S11,直至所有条带都编码完成。本发明既可以自由确定码距又可以避免基于高阶多元有限域的复杂运算。
-
公开(公告)号:CN111539870B
公开(公告)日:2023-07-14
申请号:CN202010115336.8
申请日:2020-02-25
Applicant: 成都信息工程大学
Abstract: 本发明公开了一种基于纠删码的新媒体图像的篡改恢复方法及装置,其方法包括:在对N*M纠删码进行编码时,确定用于编造跳跃纠删码的跳跃间隔个数参数J和每行的编码循环起始点参数T;根据所述J和所述T,对所述N*M纠删码中的新媒体图像数据块进行编码处理,得到包含所述纠删码阵列中每行跳跃校验块的N*(M+1)跳跃纠删码;在对所述N*(M+1)跳跃纠删码进行篡改恢复时,利用所述跳跃校验块恢复出所述N*(M+1)跳跃纠删码中被篡改的新媒体图像数据块。
-
公开(公告)号:CN114490932B
公开(公告)日:2022-08-23
申请号:CN202210069600.8
申请日:2022-01-21
Applicant: 成都信息工程大学
Abstract: 本发明公开了基于文本相似度和关键字的语义推测方法,对数据库中存储的文本进行分词处理,得到若干不可再分词,判断数据库中每个不可再分词的字符数,建立短语词典和词汇词典;对用户的输入文本进行分词处理,得到若干不可再分词,判断输入文本中每个不可再分词的字符数,得到短语列表和词汇列表中;将第二短语在所述短语词典中进行匹配,计算第一匹配度:若第一匹配度为1,输出匹配文本作为最终推测结果;若第一匹配度小于1,输出第一匹配度最高的一个或多个文本作为推测结果。本发明提供基于文本相似度和关键字的语义推测方法,以解决现有技术中运算量过大、推测结果不符合预期等问题,实现降低必要运算量、提高推测结果的准确性的目的。
-
公开(公告)号:CN111832299A
公开(公告)日:2020-10-27
申请号:CN202010689156.0
申请日:2020-07-17
Applicant: 成都信息工程大学
IPC: G06F40/289 , G06F40/242
Abstract: 本发明公开了一种中文分词系统,涉及自然语言处理技术领域,所述系统包括:文本获取模块,用于获得文本文件数据;文本预处理模块:用于对文本文件数据进行预处理,获得待分词文本数据;分词模块:用于基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;新词发现模块:用于对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。本发明优化了分词的召回率和准确率,其有了较大的提高;解决了专业领域中专业词库的新词来源;优化了搜索到要匹配的词语的速度,也大大提高了整体分词速度。
-
公开(公告)号:CN111124295A
公开(公告)日:2020-05-08
申请号:CN201911270374.4
申请日:2019-12-11
Applicant: 成都信息工程大学
Abstract: 本发明属于数据存储技术领域,公开了一种基于三元影响因子的农业数据存储处理系统及方法,对于第一次存储的数据块,文件对数据块的引用数量为1,根据程序访问的时间局部性原理,被正在被访问的数据块近期它很可能还会被再次访问;对于已经存储的数据块,动态更新计算数据块的冷热程度也需要综合考虑三个影响因子:文件对数据块的引用数量、数据块的读写频率以及时间间隔周期,对引用数量和读取频率设置不同的初始权重,且权重随时间间隔周期动态变化。本发明对于热度越高的数据可以越快的被访问到,同时对冷数据采用纠删码策略进行冗余存储,节约了系统存储空间。文件对数据块的引用数量表示它被一个或多个文件引用的次数。
-
公开(公告)号:CN117608855A
公开(公告)日:2024-02-27
申请号:CN202311704117.3
申请日:2023-12-12
Applicant: 成都信息工程大学
IPC: G06F9/50
Abstract: 本发明公开了一种动态负载均衡方法及系统及装置及介质,涉及数据处理领域,包括:将目标存储文件进行条带化处理;将存储节点划分为热存储节点或冷存储节点;获得每个热存储节点中的热数据块;对热存储节点、热数据块和冷存储节点进行编码获得编码结果信息;校验编码结果信息;对目标存储节点进行负载均衡,本发明够针对每一个时间窗口内的热数据进行动态的调整数据布局,能够在保证一定存储效率的同时有效的提高热数据的访问性能,并将负载均衡到其他空闲节点,提高系统的负载均衡性能。
-
公开(公告)号:CN111625394B
公开(公告)日:2023-03-21
申请号:CN202010458910.X
申请日:2020-05-27
Applicant: 成都信息工程大学
Abstract: 本发明提供了一种基于纠删码的数据恢复方法、装置、设备及存储介质,首先,对原始数据进行编码处理,生成冗余位,并将原始数据和生成的冗余数据存储;根据原始数据和生成的冗余数据对丢失的数据进行恢复,完成数据的恢复。本发明通过优化校验矩阵,来提高在数据恢复过程中在矩阵操作上所花费的时间,进一步提高数据的恢复效率,并减轻了在数据恢复中对矩阵操作的步骤和复杂度,从而提高了数据恢复的效率,且不会降低恢复效果。
-
公开(公告)号:CN111160414B
公开(公告)日:2021-06-04
申请号:CN201911271371.2
申请日:2019-12-12
Applicant: 成都信息工程大学
Abstract: 本发明涉及一种高精度农作物病虫害图像的识别方法,具体是先对图像进行细化的特征提取,把这些提取到的特征构成一个特征集,再将该特征集里面的特征构造不同的图形,接着通过多维度神经节点依次对每个图形进行覆盖并把在该多维度神经节点覆盖范围里面的特征从特征集里面剥离出去,然后依前述过程逐一对特征空间集里面构造的每个图形进行覆盖,直到将特征集里面的所有特征剥离空为止,此时根据得出的最终覆盖范围来推导出图像识别的不连续落差覆盖率即识别的精确度。本发明构思合理,提高了识别的维度,能在大量异构数据集中很好的提取图像的特征并进行分类识别,不存在随着图像数据量的增大而降低了识别精度的问题,显著提高了图像识别精确度。
-
-
-
-
-
-
-
-
-