一种维吾尔文语种识别方法、装置及存储介质

    公开(公告)号:CN112711943B

    公开(公告)日:2023-11-24

    申请号:CN202011497407.1

    申请日:2020-12-17

    Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。

    一种基于多源特征的文本分类方法、终端设备及存储介质

    公开(公告)号:CN114444497A

    公开(公告)日:2022-05-06

    申请号:CN202111564960.7

    申请日:2021-12-20

    Abstract: 本发明涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明提高文本分类的准确率。

    一种网页分类方法、终端设备及存储介质

    公开(公告)号:CN112131506A

    公开(公告)日:2020-12-25

    申请号:CN202011013718.6

    申请日:2020-09-24

    Abstract: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。

    一种聊天主题检测方法、装置、存储介质

    公开(公告)号:CN111026835A

    公开(公告)日:2020-04-17

    申请号:CN201911365829.0

    申请日:2019-12-26

    Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。

    一种聊天主题检测方法、装置、存储介质

    公开(公告)号:CN111026835B

    公开(公告)日:2022-06-10

    申请号:CN201911365829.0

    申请日:2019-12-26

    Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。

    一种构建人物关系图谱的方法、装置以及存储介质

    公开(公告)号:CN114443836A

    公开(公告)日:2022-05-06

    申请号:CN202111599101.1

    申请日:2021-12-24

    Abstract: 本发明公开了一种构建人物关系图谱的方法、装置以及存储介质,所述方法包括:获取群聊数据,群聊数据包含时间信息和文本信息;根据时间信息和文本信息,将群聊数据分为一个或多个群聊片段;提取群聊片段的话题类别,根据话题类别对群聊片段进行分类,得到一个或多个话题数据,话题数据包含一个或多个群聊片段;对话题数据包含的所有群聊片段进行分析,得到成员的人物关系,人物关系包括成员的活跃程度、成员间的互动强度和成员间的社会关系;根据成员的人物关系,构建成员的人物关系图谱。本发明提供的一种构建人物关系图谱的方法和装置,有助于进一步挖掘关键聊天内容、成员信息及成员关系。

    一种聊天数据分段方法、装置及存储介质

    公开(公告)号:CN110399489A

    公开(公告)日:2019-11-01

    申请号:CN201910611047.4

    申请日:2019-07-08

    Abstract: 本发明公开了一种聊天数据分段方法及装置,该方法包括以下步骤:S1:对聊天数据进行切分获得多个预分段段落;S2:通过话题切换的特征语句库与预分段段落的句子向量相似度判断预分段段落是否是包含不同话题内容的段落,若是,则对预分段段落进行再分段获得再分段段落,并对再分段段落重复步骤S2,若否,则进入下一步;以及S3:通过计算相邻的再分段段落的段落向量相似度判断再分段段落是否存在内容相关的相邻的段落,若是,则对再分段段落进行合并获得终分段段落,对终分段段落重复步骤S3,若否,则将再分段段落作为终分段段落。通过此方法可以将不同话题的聊天数据进行有效的分段,提高聊天数据处理效率。

    一种聊天数据分段方法、装置及存储介质

    公开(公告)号:CN110399489B

    公开(公告)日:2022-06-17

    申请号:CN201910611047.4

    申请日:2019-07-08

    Abstract: 本发明公开了一种聊天数据分段方法及装置,该方法包括以下步骤:S1:对聊天数据进行切分获得多个预分段段落;S2:通过话题切换的特征语句库与预分段段落的句子向量相似度判断预分段段落是否是包含不同话题内容的段落,若是,则对预分段段落进行再分段获得再分段段落,并对再分段段落重复步骤S2,若否,则进入下一步;以及S3:通过计算相邻的再分段段落的段落向量相似度判断再分段段落是否存在内容相关的相邻的段落,若是,则对再分段段落进行合并获得终分段段落,对终分段段落重复步骤S3,若否,则将再分段段落作为终分段段落。通过此方法可以将不同话题的聊天数据进行有效的分段,提高聊天数据处理效率。

    一种网页分类方法、终端设备及存储介质

    公开(公告)号:CN112131506B

    公开(公告)日:2022-04-29

    申请号:CN202011013718.6

    申请日:2020-09-24

    Abstract: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。

Patent Agency Ranking