中文字符和拼音相结合的词向量表示方法、装置、介质

    公开(公告)号:CN112464655A

    公开(公告)日:2021-03-09

    申请号:CN202011356716.7

    申请日:2020-11-27

    Abstract: 本发明公开了一种中文字符和拼音相结合的词向量表示方法、装置、介质。该方法包括步骤:S11:将待转换为词向量表示的中文文本中每个中文字符转化为拼音;S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示;S13:针对中文文本中每个中文字符的拼音,利用预训练的拼词嵌入模型,得到拼音的词向量表示;S14:针对中文文本中每个中文字符,融合两种词向量表示得到字符融合表示向量。本发明通过中文字符和拼音相合的方法,在可区分同音字的基础上,建立了同音字之间的关系信息,从而能够很好地处理同音字噪声。本发明可以用于但不限于不良信息的过滤。

    一种图中数据的自动提取方法

    公开(公告)号:CN110909732A

    公开(公告)日:2020-03-24

    申请号:CN201910972334.8

    申请日:2019-10-14

    Abstract: 本发明公开了一种图中数据的自动提取方法。方法的主要包括以下步骤:文本区域定位与文本框分类;坐标轴定位,以及坐标轴的刻度标记位置定位;图例的定位与信息提取;根据图例颜色提取对应的柱体或者折线连通分量,并进行过滤和分类;确定X轴关键点并定位每个关键点对应的X轴标签;根据X轴关键点定位柱体和折线的关键点,确定关键点对应的标注数值文本框,并进行数值识别;计算每个像素对应数值,并估计柱体或者折线关键点对应的数值;根据估计值与识别的标注数值之间的差距来确定最终结果。本发明方法能够应对水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。实验证明方法具有较高的准确率和精确度。

    一种图中数据的自动提取方法

    公开(公告)号:CN110909732B

    公开(公告)日:2022-03-25

    申请号:CN201910972334.8

    申请日:2019-10-14

    Abstract: 本发明公开了一种图中数据的自动提取方法。方法的主要包括以下步骤:文本区域定位与文本框分类;坐标轴定位,以及坐标轴的刻度标记位置定位;图例的定位与信息提取;根据图例颜色提取对应的柱体或者折线连通分量,并进行过滤和分类;确定X轴关键点并定位每个关键点对应的X轴标签;根据X轴关键点定位柱体和折线的关键点,确定关键点对应的标注数值文本框,并进行数值识别;计算每个像素对应数值,并估计柱体或者折线关键点对应的数值;根据估计值与识别的标注数值之间的差距来确定最终结果。本发明方法能够应对水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。实验证明方法具有较高的准确率和精确度。

    一种确定加权朴素贝叶斯算法权值的方法

    公开(公告)号:CN111079943A

    公开(公告)日:2020-04-28

    申请号:CN201911281633.3

    申请日:2019-12-13

    Abstract: 本发明涉及一种确定加权朴素贝叶斯算法权值的方法,包括:S1设定初始权值并选择权值增长幅度;S2在训练集中,初始权值下程序的预测准确率;S3调整权值,以使调整后的权值等于初始权值加上权值增长幅度,得到调整后的权值下程序的预测准确率;S4比较权值修改前后的预测准确率,若修改权值后的预测准确率更高,则保持修改后权值不变,使权值增长幅度增加1;否则,恢复权值为修改前状态,使权值增长幅度减小0.1;S5判断权值增长幅度是否为0,若是,则转至步骤S6;否则,转至步骤S3;S6所得权值即为最优权值,输出最优权值。本发明在假设朴素贝叶斯算法属性特征之间极不满足“朴素”的条件下,进行快速确定权值的优化方法。

    一种通过比较向量距离对癫痫进行分类的方法

    公开(公告)号:CN111079824A

    公开(公告)日:2020-04-28

    申请号:CN201911281611.7

    申请日:2019-12-13

    Abstract: 本发明属于机器学习领域,具体涉及一种通过比较向量距离对癫痫进行分类的方法,包括以下步骤:S1、确定特征属性,获取训练样本;S2、将训练样本中癫痫发作个体与不发作个体分成两组,分别求两组数据的平均值向量a1和a0;S3、输入待判定个体,分别获取待判定个体特征属性向量与a1和a0之间的距离d1和d0;S4、比较d1和d0,输出较小的值所对应的分组,即为待判定个体的分组。本发明的通过比较向量距离对癫痫进行分类的方法,基于朴素贝叶斯分类器的思想,将比对概率换成比对距离,这种方法不需要依赖特征条件独立的假设,所以其不受特征属性相关性的影响,所以能够得到更好的结果。

    一种基于拼音的同音字变体处理方法

    公开(公告)号:CN114357984A

    公开(公告)日:2022-04-15

    申请号:CN202111414363.6

    申请日:2021-11-25

    Inventor: 姚金良 胡创

    Abstract: 本发明公开了一种基于拼音的同音字变体处理方法,包括步骤:S1:使用拼音生成工具,生成正常文本序列对应的拼音序列;S2:将正常文本的拼音序列作为输入,正常文本序列作为输出,训练拼音转汉字模型;S3:使用拼音生成工具,生成带有同音字变体文本序列对应的拼音序列;S4:将生成的带有同音变体文本的拼音序列作为S2中拼音转汉字模型的输入,得到的输出即正常文本序列。现有变体处理方法无法很好地处理同音字变体,本发明中基于拼音还原了同音字变体对应的文本,最终进一步提高了不良文本识别的准确率。

Patent Agency Ranking