-
公开(公告)号:CN116361470A
公开(公告)日:2023-06-30
申请号:CN202310347961.9
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN113656660B
公开(公告)日:2022-06-28
申请号:CN202111199634.0
申请日:2021-10-14
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/903 , G06K9/62 , G06N3/08 , G06N3/04
Abstract: 本公开涉及一种跨模态数据的匹配方法、装置、设备及介质。其中,跨模态数据的匹配方法包括:获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;基于分布信息,进行相关性特征计算,得到待匹配数据与候选数据之间的相关性特征参数;在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。根据本公开实施例,能够提高跨模态信息的匹配精度。
-
公开(公告)号:CN114155530A
公开(公告)日:2022-03-08
申请号:CN202111328925.5
申请日:2021-11-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V30/148 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种文本识别及问答方法、装置、设备及介质。其中,文本识别方法包括:获取待识别图像;对待识别图像进行文本识别,得到文本识别结果,文本识别结果包括多个连续文本片段;计算待拼接文本片段对的语义关联得分;在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。根据本公开实施例,能够提高图文识别精度。
-
公开(公告)号:CN113282754A
公开(公告)日:2021-08-20
申请号:CN202110646720.5
申请日:2021-06-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F40/205 , G06K9/62 , G06N3/04
Abstract: 本发明实施例公开了一种针对新闻事件的舆情检测方法、装置、设备和存储介质。该方法包括:获取待检测新闻事件的目标评论文章;将所述目标评论文章输入至舆情数据提取模型中,得到所述待检测新闻事件的舆情数据,所述舆情数据包括各评论者的评论者数据、观点数据和立场数据;根据所述舆情数据生成所述待检测新闻事件的舆情检测结果;显示所述舆情检测结果。本发明实施例通过采用上述技术方案,能够实现新闻事件舆情的深层次检测,提高新闻事件的舆情检测结果的准确性。
-
公开(公告)号:CN116361470B
公开(公告)日:2024-05-14
申请号:CN202310347961.9
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116361469A
公开(公告)日:2023-06-30
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116049414B
公开(公告)日:2023-06-06
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116049414A
公开(公告)日:2023-05-02
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN114462425B
公开(公告)日:2022-08-02
申请号:CN202210380446.6
申请日:2022-04-12
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/30 , G06F40/289 , G06F16/35
Abstract: 本公开涉及一种社交媒体文本处理方法、装置、设备及存储介质。本公开通过对社交媒体文本进行分词处理,得到多个词项;针对任一词项,基于该词项在不同应用场景上下文中的语义,确定该词项的词向量,由于词向量包含了该词项在不同应用场景上下文中的语义,因此,利用词向量,可以提高文本上下文特征提取能力和隐式情感的推断能力;进而,基于多个词项各自的词向量,确定社交媒体文本的全局语义向量;并基于多个词项各自的词向量和多个词项各自在社交媒体文本的权重,确定社交媒体文本的局部语义向量;基于全局语义向量和局部语义向量,确定社交媒体文本对应的情感类型,从而提高了社交媒体文本的情感类型的预测准确性。
-
公开(公告)号:CN114462425A
公开(公告)日:2022-05-10
申请号:CN202210380446.6
申请日:2022-04-12
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/30 , G06F40/289 , G06F16/35
Abstract: 本公开涉及一种社交媒体文本处理方法、装置、设备及存储介质。本公开通过对社交媒体文本进行分词处理,得到多个词项;针对任一词项,基于该词项在不同应用场景上下文中的语义,确定该词项的词向量,由于词向量包含了该词项在不同应用场景上下文中的语义,因此,利用词向量,可以提高文本上下文特征提取能力和隐式情感的推断能力;进而,基于多个词项各自的词向量,确定社交媒体文本的全局语义向量;并基于多个词项各自的词向量和多个词项各自在社交媒体文本的权重,确定社交媒体文本的局部语义向量;基于全局语义向量和局部语义向量,确定社交媒体文本对应的情感类型,从而提高了社交媒体文本的情感类型的预测准确性。
-
-
-
-
-
-
-
-
-