-
公开(公告)号:CN111026835A
公开(公告)日:2020-04-17
申请号:CN201911365829.0
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/31 , G06F16/903 , G06F16/335 , G06F16/35
Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。
-
公开(公告)号:CN111581970A
公开(公告)日:2020-08-25
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/04
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111143560A
公开(公告)日:2020-05-12
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN112711943B
公开(公告)日:2023-11-24
申请号:CN202011497407.1
申请日:2020-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/53 , G06F40/58 , G06F16/33 , G06N7/01
Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。
-
公开(公告)号:CN111581970B
公开(公告)日:2023-01-24
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/048 , G06N3/09
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111143560B
公开(公告)日:2022-07-01
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN111026835B
公开(公告)日:2022-06-10
申请号:CN201911365829.0
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/31 , G06F16/903 , G06F16/335 , G06F16/35
Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。
-
公开(公告)号:CN112052687A
公开(公告)日:2020-12-08
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06K9/62
Abstract: 本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质,该方法包括:获取聊天数据使用词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量;使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度,并设计了多尺度深度可分离一维卷积核获取子片段的语义特征,再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量,其提取语义特征连续,更为符合聊天数据的上下文特征。
-
公开(公告)号:CN110399489A
公开(公告)日:2019-11-01
申请号:CN201910611047.4
申请日:2019-07-08
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种聊天数据分段方法及装置,该方法包括以下步骤:S1:对聊天数据进行切分获得多个预分段段落;S2:通过话题切换的特征语句库与预分段段落的句子向量相似度判断预分段段落是否是包含不同话题内容的段落,若是,则对预分段段落进行再分段获得再分段段落,并对再分段段落重复步骤S2,若否,则进入下一步;以及S3:通过计算相邻的再分段段落的段落向量相似度判断再分段段落是否存在内容相关的相邻的段落,若是,则对再分段段落进行合并获得终分段段落,对终分段段落重复步骤S3,若否,则将再分段段落作为终分段段落。通过此方法可以将不同话题的聊天数据进行有效的分段,提高聊天数据处理效率。
-
公开(公告)号:CN112052687B
公开(公告)日:2023-11-21
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06F18/214
-
-
-
-
-
-
-
-
-