-
公开(公告)号:CN112949637A
公开(公告)日:2021-06-11
申请号:CN202110525979.4
申请日:2021-05-14
Applicant: 中南大学
Abstract: 本发明涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法,具体包括如下步骤:S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;S2:计算文本中每个字符的位置向量,得到位置向量;S3:将得到的字向量和位置向量进行拼接,作为嵌入层的输出;S4:构建IDCNN层,将嵌入层的输出输入IDCNN层,进行迭代计算后输出;S5:构建注意力层,将IDCNN层的输出输入至注意力层进行计算并输出;S6:构建CRF层,将注意力层的输出输入CRF层后,计算得到每个字符的标签的概率,得到预测结果。本发明将字向量与位置向量拼接,让模型在学习到语义信息的同时捕获到实体间的依赖关系。
-
公开(公告)号:CN113255330B
公开(公告)日:2021-09-24
申请号:CN202110599111.9
申请日:2021-05-31
Applicant: 中南大学
IPC: G06F40/232 , G06F16/35
Abstract: 本发明公开了一种基于字符特征分类器与软输出的中文拼写检查方法,属于中文拼写检查领域,包括步骤S1:提取词表中所有字符的字音字形特征向量;S2:生成字符特征分类器和软输出矩阵;S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;S4:结合软输出矩阵对字符特征分类器结果进行软输出,将两概率矩阵对应位相乘,得到每个字符被更改为其他字符的概率。字符特征分类器可对更相似的字符给予更高的关注度,同时,使用软输出矩阵对字符特征分类器的结果进行调整,缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题,得到了更为准确地结果。
-
公开(公告)号:CN113190659B
公开(公告)日:2021-08-27
申请号:CN202110728240.3
申请日:2021-06-29
Applicant: 中南大学
IPC: G06F16/33 , G06F16/35 , G06F40/126 , G06F40/216 , G06F40/30 , G06K9/62
Abstract: 本发明提供一种基于多任务联合训练的文言文机器阅读理解方法,包括如下步骤:建立基于多任务联合训练的文言文机器阅读理解模型,然后对文言文进行多任务联合训练;文言文机器阅读理解模型包括:上下文抽取模块、多模型编码模块、双向匹配模块、断句模块和答案分类模块;用上下文抽取模块,对文言文进行抽取,将结果输入多模型编码模块处理;用多模型编码模块对文言文编码,获得其向量化表示;用门机制将其融合;将所得结果输入双向匹配模块和断句模块中处理,用答案分类模块处理双向匹配模块和断句模块的输出结果,得到最终结果。本发明能够准确地针对文言文进行断句处理,并且能够兼顾古文与现代文同时存在的情况,更准确地处理文言文。
-
公开(公告)号:CN112990353A
公开(公告)日:2021-06-18
申请号:CN202110402126.1
申请日:2021-04-14
Applicant: 中南大学
Abstract: 本发明涉及汉字易混淆集构建领域,公开了一种基于多模态模型的汉字易混淆集构建方法。S1:得到字形编码的相似度,S2:得到字音编码的相似度,S3:构建并训练出一个图像分类的神经网络模型,由图像分类的神经网络模型输出一个M维的向量,S4:构建并训练出一个音频分类的神经网络模型,由音频分类的神经网络模型输出一个M维的向量,S5:将汉字字符Ci的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量,加权组合为一个向量,作为音形易混淆向量,从而依据音形易混淆向量中每个维度上的相似度,选择对应的字典Dic中的汉字,构成音形易混淆集。本发明能够模拟人的视觉和听觉构建易混淆集。
-
公开(公告)号:CN113255330A
公开(公告)日:2021-08-13
申请号:CN202110599111.9
申请日:2021-05-31
Applicant: 中南大学
IPC: G06F40/232 , G06F16/35
Abstract: 本发明公开了一种基于字符特征分类器与软输出的中文拼写检查方法,属于中文拼写检查领域,包括步骤S1:提取词表中所有字符的字音字形特征向量;S2:生成字符特征分类器和软输出矩阵;S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;S4:结合软输出矩阵对字符特征分类器结果进行软输出,将两概率矩阵对应位相乘,得到每个字符被更改为其他字符的概率。字符特征分类器可对更相似的字符给予更高的关注度,同时,使用软输出矩阵对字符特征分类器的结果进行调整,缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题,得到了更为准确地结果。
-
公开(公告)号:CN113190659A
公开(公告)日:2021-07-30
申请号:CN202110728240.3
申请日:2021-06-29
Applicant: 中南大学
IPC: G06F16/33 , G06F16/35 , G06F40/126 , G06F40/216 , G06F40/30 , G06K9/62
Abstract: 本发明提供一种基于多任务联合训练的文言文机器阅读理解方法,包括如下步骤:建立基于多任务联合训练的文言文机器阅读理解模型,然后对文言文进行多任务联合训练;文言文机器阅读理解模型包括:上下文抽取模块、多模型编码模块、双向匹配模块、断句模块和答案分类模块;用上下文抽取模块,对文言文进行抽取,将结果输入多模型编码模块处理;用多模型编码模块对文言文编码,获得其向量化表示;用门机制将其融合;将所得结果输入双向匹配模块和断句模块中处理,用答案分类模块处理双向匹配模块和断句模块的输出结果,得到最终结果。本发明能够准确地针对文言文进行断句处理,并且能够兼顾古文与现代文同时存在的情况,更准确地处理文言文。
-
公开(公告)号:CN112990353B
公开(公告)日:2021-07-30
申请号:CN202110402126.1
申请日:2021-04-14
Applicant: 中南大学
Abstract: 本发明涉及汉字易混淆集构建领域,公开了一种基于多模态模型的汉字易混淆集构建方法。S1:得到字形编码的相似度,S2:得到字音编码的相似度,S3:构建并训练出一个图像分类的神经网络模型,由图像分类的神经网络模型输出一个M维的向量,S4:构建并训练出一个音频分类的神经网络模型,由音频分类的神经网络模型输出一个M维的向量,S5:将汉字字符Ci的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量,加权组合为一个向量,作为音形易混淆向量,从而依据音形易混淆向量中每个维度上的相似度,选择对应的字典Dic中的汉字,构成音形易混淆集。本发明能够模拟人的视觉和听觉构建易混淆集。
-
-
-
-
-
-