一种聊天数据分段方法、装置及存储介质

    公开(公告)号:CN110399489B

    公开(公告)日:2022-06-17

    申请号:CN201910611047.4

    申请日:2019-07-08

    Abstract: 本发明公开了一种聊天数据分段方法及装置,该方法包括以下步骤:S1:对聊天数据进行切分获得多个预分段段落;S2:通过话题切换的特征语句库与预分段段落的句子向量相似度判断预分段段落是否是包含不同话题内容的段落,若是,则对预分段段落进行再分段获得再分段段落,并对再分段段落重复步骤S2,若否,则进入下一步;以及S3:通过计算相邻的再分段段落的段落向量相似度判断再分段段落是否存在内容相关的相邻的段落,若是,则对再分段段落进行合并获得终分段段落,对终分段段落重复步骤S3,若否,则将再分段段落作为终分段段落。通过此方法可以将不同话题的聊天数据进行有效的分段,提高聊天数据处理效率。

    一种网页分类方法、终端设备及存储介质

    公开(公告)号:CN112131506B

    公开(公告)日:2022-04-29

    申请号:CN202011013718.6

    申请日:2020-09-24

    Abstract: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。

    一种维吾尔文语种识别方法、装置及存储介质

    公开(公告)号:CN112711943A

    公开(公告)日:2021-04-27

    申请号:CN202011497407.1

    申请日:2020-12-17

    Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。

    一种维吾尔文语种识别方法、装置及存储介质

    公开(公告)号:CN112711943B

    公开(公告)日:2023-11-24

    申请号:CN202011497407.1

    申请日:2020-12-17

    Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。

    一种基于多源特征的文本分类方法、终端设备及存储介质

    公开(公告)号:CN114444497A

    公开(公告)日:2022-05-06

    申请号:CN202111564960.7

    申请日:2021-12-20

    Abstract: 本发明涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明提高文本分类的准确率。

    一种基于手机短信的行为分析方法和装置

    公开(公告)号:CN115983248A

    公开(公告)日:2023-04-18

    申请号:CN202211501760.1

    申请日:2022-11-28

    Abstract: 本发明给出了一种基于手机短信的行为分析方法,包括提取手机短信信息;对提取的短信数据进行人工标注,并根据不同短信内容将其归到不同类别;通过分层抽样的方法,按8:1:1区将数据分训练集、验证集和测试集;通过关键词比对、正则表达式、行为意图识别及关键要素提取进行处理,得到分析结果;将分析结果融合汇聚,输出用户的相关行为的刻画分析。在传统内容关键词比对、正则表达式分析基础上,利用人工智能文本语义分析技术及相关方法,面对海量的数据,全面深入智能分析短信内容,不用人工翻阅统计,刻画目标对象短信行为事件,为用户第一时间发现线索、固定证据、分析研判提供高效的技术手段。

Patent Agency Ranking