-
公开(公告)号:CN116361468B
公开(公告)日:2024-05-03
申请号:CN202310347374.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
-
公开(公告)号:CN116361468A
公开(公告)日:2023-06-30
申请号:CN202310347374.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
-
公开(公告)号:CN115982395A
公开(公告)日:2023-04-18
申请号:CN202310267414.X
申请日:2023-03-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/45 , G06F18/2415 , G06F18/25 , G06F18/2135
Abstract: 本发明涉及多模态情感预测领域,特别是涉及一种基于量子的媒体信息的情感预测方法、介质及设备。包括如下步骤:对每一模态的表示信息进行预处理,生成每一模态的表示信息对应的复数词向量集A1及A2,对A1及A2进行特征转换处理,生成对应的特征密度矩阵集ρt及ρv;对ρt及ρv进行特征融合处理,生成融合特征fp;根据fp与多个预设情感类型的投影算子,生成fp为每一种预设情感类型的概率值。将P(e1),P(e2),…,P(ew)中最大值对应的情感类型,作为目标媒体信息的情感类型。通过利用量子理论的模型,可以更加有效的捕获不同模态之间的信息交互,进而可以提高对媒体信息所表达情绪的预测结果的精度。
-
公开(公告)号:CN115934752A
公开(公告)日:2023-04-07
申请号:CN202211585614.1
申请日:2022-12-09
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种构建检索模型的方法、电子设备和存储介质,包括:获取目标文本的目标文本词向量,获取目标文本对应的候选代表词集合和候选随机词集合,将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接,输入到量子概率注意力值模型,获取对应的注意力值,将注意力值分别输入多层感知机,获取候选代表词为代表词的概率和候选随机词为代表词的概率,基于候选代表词为代表词的概率和候选随机词为代表词的概率,最小化两者的损失函数,获取目标检索模型;从而取得更好的检索效果。
-
公开(公告)号:CN114281944B
公开(公告)日:2022-08-23
申请号:CN202111619353.6
申请日:2021-12-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/33 , G06F40/289 , G06F16/242 , G06N3/08
Abstract: 本申请实施例提供一种文档匹配模型的构建方法、装置、电子设备及存储介质,其中,该方法包括:步骤一,获取查询词汇特征集合和文档特征集合;步骤二,获得查询词汇特征集合和文档特征集合的相关性特征值;步骤三,获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征;步骤四,获得第二文档特征;步骤五,将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四;步骤六,根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数构建匹配模型。实施本申请实施例,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率和检索性能。
-
公开(公告)号:CN114492420A
公开(公告)日:2022-05-13
申请号:CN202210340732.X
申请日:2022-04-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质,该方法包括:对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在所述文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述技术方案,将文本转化到量子领域进行处理,减少计算成本的同时,提升了文本的分类准确率,提升用户的使用体验。
-
公开(公告)号:CN112613324A
公开(公告)日:2021-04-06
申请号:CN202011596697.5
申请日:2020-12-29
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
Abstract: 本申请涉及一种语义情绪识别方法、装置、设备及存储介质,所述方法包括:获取待识别文本,然后对待识别文本的全局语义信息进行提取,得到第一语义向量,再利用预训练的词向量模型确定待识别文本的词向量矩阵,之后根据词向量矩阵确定第二语义向量,根据词向量矩阵计算待识别文本中每个词的词向量与预设情绪词语的词向量的相似度,并将计算得到的所有相似度确定为第三语义向量,最后根据第一语义向量、第二语义向量和第三语义向量确定待识别文本所属的情绪类别,如此,便可以根据待识别文本的全局语义信息以及待识别文本的词向量矩阵确定待识别文本的情绪类别,考虑了待识别文本的词语义、词组语义以及句子语义信息,提高了情绪识别的准确性。
-
公开(公告)号:CN112364641A
公开(公告)日:2021-02-12
申请号:CN202011259475.4
申请日:2020-11-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC: G06F40/284 , G06F40/166
Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
-
-
-
-
-
-