一种基于大数据的细粒度商品命名实体识别方法

    公开(公告)号:CN115422939A

    公开(公告)日:2022-12-02

    申请号:CN202211260276.4

    申请日:2022-10-14

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法,包括:采用无标注的商品数据S对预训练NEZHA模型进行增量训练,得到继续预训练模型M;构建GPNER模型包括文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;GPNER模型使用特征融合层融入词组信息,增强实体识别的准确率;采用实体边界层和实体分类层多任务的方式对模型参数进行调优。本发明不仅使用了无标注数据对预训练模型NEZHA模型进行了继续预训练,能模型更加适应垂直领域,同时GPNER模型利用了文本长度、词汇信息等知识融入到数据,使模型更加精准的识别到实体边界和辨别实体的种类。

    一种基于人工智能的文本匹配方法

    公开(公告)号:CN115422362A

    公开(公告)日:2022-12-02

    申请号:CN202211226353.4

    申请日:2022-10-09

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于人工智能的文本匹配方法,包括:获取问题匹配的文本,其中包含用户的输入问题和标准问题,对数据集S进行预处理;构建BERT_MF模型包括BERT模型层、知识增强层、精确匹配层、相似度匹配层;BERT_MF模型利用拼音、词性以及句法知识,使用精确匹配层提取局部细粒度表征和全局细粒度表征;采用横向拼接的方式对多粒度特征进行融合,经过Softmax函数进行文本匹配。本发明不仅使用了预训练模型ERNIE‑Gram进行了微调,能够得到文本匹配程度,同时充分使用预训练模型的语义表征和词语表征,可以对文本的局部信息和全局信息进行辨识,进而细粒度的区分文本语义上的匹配。

    一种基于舆情大数据分析的多标签文本分类方法

    公开(公告)号:CN112487143B

    公开(公告)日:2022-11-18

    申请号:CN202011368536.0

    申请日:2020-11-30

    Abstract: 本发明属于自然语言处理的文本分类领域,具体涉及一种基于舆情大数据分析的多标签文本分类方法,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络;本发明采用GCN图卷积网络解决了从高校新闻评论数据错综复杂的信息结构中提取信息的困难,通过词句分级层次的对高校文本语料提取特征,充分挖掘文本词与词,句与句之间的文字内涵,同时为模型训练加入更加丰富的语料信息,对特征引入基于注意力的类残差融合,进一步分解文本对标签预测的影响。

    一种基于大数据的金融信息负面主体判定分类方法

    公开(公告)号:CN112445913B

    公开(公告)日:2022-09-27

    申请号:CN202011333726.9

    申请日:2020-11-25

    Abstract: 本发明涉及自然语言处理,人工智能领域,具体涉及一种基于大数据的金融信息负面主体判定分类方法,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到训练好的BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情;本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换,构建联合模型,同时结合了负面信息判定和负面主体判定之间的相互关联性,避免了流水线模型的缺点,提高了识别准确率。

    一种基于大数据的短视频活跃用户预测方法

    公开(公告)号:CN109784997B

    公开(公告)日:2022-07-01

    申请号:CN201910027207.0

    申请日:2019-01-11

    Abstract: 本发明请求保护一种基于大数据的短视频活跃用户预测方法,包括:101对用户的历史行为数据进行预处理操作;102根据注册时间将用户划分成训练集候选用户和测试集候选用户103将训练集候选用户和测试集候选用户根据历史行为转化为时序序列,作为训练集和测试集;104对处理好的时序序列进行打标;105通过时序序列建立many‑to‑many结构的LSTM模型;106根据用户历史行为时间序列,对当月注册用户在未来一周是否会使用相应短视频APP进行预测。本发明主要是通过对用户历史数据进行预处理和分析,提取特征,转换时序序列工作,建立深度学习模型,对当月注册用户在未来一周是否会使用该短视频APP进行预测,为短视频领域寻找活跃用户提供更为精准的个性化推送服务。

    基于关键信息抽取的金融舆情细分方面检测方法和设备

    公开(公告)号:CN114398480A

    公开(公告)日:2022-04-26

    申请号:CN202111425815.0

    申请日:2021-11-26

    Abstract: 本发明涉及大数据人工智能技术领域,公开了一种基于关键信息抽取的金融舆情细分方面检测方法和设备,步骤包括对金融文本数据和金融舆情标签描述集合进行预处理;对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;构建标签关键句组合输入金融文本,进行细分舆情分类。本发明通过标签描述和片段句建立关键信息句抽取辅助模型,然后抽取关键信息句,构建预训练模型输入,从而有效提升金融舆情细分方面检测的准确率。

    基于时序交互图神经网络的文本分类方法、装置及介质

    公开(公告)号:CN114398479A

    公开(公告)日:2022-04-26

    申请号:CN202111343626.9

    申请日:2021-11-13

    Abstract: 本发明公开了一种基于时序交互图神经网络的文本分类方法,该方法包括:获取文本数据以及文本数据对应的标签值,并将文本数据构建为自适应图结构数据;基于自适应距离权重算法对图节点集合和图有向边集合进行处理,得到输入特征矩阵;将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;基于总损失值、交叉熵损失函数和梯度下降算法对时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型。本发明还公开了一种文本分类装置和一种介质。本发明能够实现增强图神经网络的特征提取能力,改善图读出器函数对文本数据的表达以及分类,降低图神经网络出现过度平滑问题出现的概率。

    一种用于智能语音助手的对话短文本语句匹配方法

    公开(公告)号:CN114281987A

    公开(公告)日:2022-04-05

    申请号:CN202111422626.8

    申请日:2021-11-26

    Abstract: 本发明涉及一种用于智能语音助手的对话短文本语句匹配方法,属于人工智能技术领域。该方法包括:S1:对智能语音助手对话系统中的文本数据进行向量化,使用堆叠CNN和并行CNN提取文本的短语特征;S2:使用堆叠的BiLSTM提取上下文特征,再经过新的句内自注意力机制,提取文本内部的关键特征;S3:使用句间注意力机制提取交互特征,并通过压缩函数将多个交互特效进行聚合压缩,得到文本的匹配特征;S4:将匹配特征输入MLP中,预测出文本的标签并进行后处理。本发明可以有效地对智能语音助手的对话文本进行语句匹配,预测两个文本是否属于同一语义。

    基于WIFI AP的人流量分布预测方法

    公开(公告)号:CN107086935B

    公开(公告)日:2020-05-12

    申请号:CN201710457666.3

    申请日:2017-06-16

    Abstract: 本发明涉及基于WIFI AP记录的机场客流分布预测方法,涉及大数据挖掘处理技术领域,从控制中心获取WIFI AP记录进行预处理操作,通过WIFI AP接入设备数量分类WIFI AP,为各类WIFI AP分别构建训练样本集,使用各自的训练样本集分别构建回归模型,根据回归模型获取测试样本集,集合第一类模型和第二类模型的测试样本集获得预测结果,预测机场客流分布。本发明利用相关特性,使用数据挖掘及机器学习的相关方法,对机场的客流分布进行预测,达到有效利用机场资源。

Patent Agency Ranking