-
公开(公告)号:CN111859979A
公开(公告)日:2020-10-30
申请号:CN202010549940.1
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/953 , G06N3/04
Abstract: 本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
-
公开(公告)号:CN107577656A
公开(公告)日:2018-01-12
申请号:CN201710565733.3
申请日:2017-07-12
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明涉及文本隐含语义激活方法及系统,所述激活方法包括:获取待测文本的待测词项信息;根据文本集合知识库及所述待测文本的待测词项信息,确定所述文本集合知识库的词表中每个参考词项的激活系数;所述文本集合知识库包括多个参考词项共同构成的词表、对应各参考词项的参考词向量及参考词频;根据各激活系数,选取对应的参考词项构成待测文本的隐含语义集合;将所述隐含语义集合添加到所述待测文本中进行语义扩充。从而能够准确确定待测文本的隐含信息,准确度高。
-
公开(公告)号:CN101515269A
公开(公告)日:2009-08-26
申请号:CN200810057879.8
申请日:2008-02-20
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种实现观点搜索引擎排序的方法,包括:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;对转换以后的用户评论信息建立倒排序索引;对建立倒排序索引的用户评论信息进行排序;对用户评论信息进行统计分析及可视化。利用本发明,有效地融合了用户评论信息的品质因素,并充分考虑了时间维度信息,能够为潜在用户提供更准确、更相关、更及时的观点信息服务。
-
公开(公告)号:CN114818733B
公开(公告)日:2025-01-03
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
公开(公告)号:CN117313736A
公开(公告)日:2023-12-29
申请号:CN202310974595.X
申请日:2023-08-03
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/279 , G06F16/35 , G06F40/205 , G06F18/24 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种评论文本的隐式需求识别方法及装置,其中,该方法包括:获取评论文本;采用需求预测模型挖掘评论文本的第一隐式需求;对第一隐式需求重构得到具体表述的第二隐式需求;采用需求预测模型根据第二隐式需求和评论文本判别得到第一隐式需求所对应的具体需求层面及需求强度,其中,需求层面用于表征第一隐式需求的需求类型,需求强度用于表征第一隐式需求的强烈程度;输出评论文本的隐式需求识别结果,其中,隐式需求识别结果包括:第一隐式需求,需求层面,需求强度。通过本发明实施例,解决现有方法难以深层建模用户隐式需求,以及无法联合分析需求层级与强度的技术问题,实现从海量评论中对用户隐式需求进行自动深层次的挖掘。
-
公开(公告)号:CN111859980A
公开(公告)日:2020-10-30
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN107577656B
公开(公告)日:2020-02-14
申请号:CN201710565733.3
申请日:2017-07-12
Applicant: 中国科学院自动化研究所
IPC: G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明涉及文本隐含语义激活方法及系统,所述激活方法包括:获取待测文本的待测词项信息;根据文本集合知识库及所述待测文本的待测词项信息,确定所述文本集合知识库的词表中每个参考词项的激活系数;所述文本集合知识库包括多个参考词项共同构成的词表、对应各参考词项的参考词向量及参考词频;根据各激活系数,选取对应的参考词项构成待测文本的隐含语义集合;将所述隐含语义集合添加到所述待测文本中进行语义扩充。从而能够准确确定待测文本的隐含信息,准确度高。
-
公开(公告)号:CN103106616B
公开(公告)日:2016-01-20
申请号:CN201310062057.X
申请日:2013-02-27
Applicant: 中国科学院自动化研究所
IPC: G06Q50/00
Abstract: 本发明涉及社会信息化传播网络中用户行为的数据挖掘,本发明具体公开了一种基于资源整合与信息传播特征的社区发现及演化方法,从而更加精确地定义用户社区,并发现有意义的社区演化模式。本发明针对现有社区发现与演化方法中网络资源整合度低和信息传播因素考虑较少等特点,提出了基于资源整合的社区发现方法,利用共享潜在特征的协同矩阵分解方法将用户行为和用户交互行为有机地结合到一起;并以信息传播理论为指导,纳入用户的好友影响为信息传播特征,基于一阶马尔科夫假设,采用机器学习方法完成社区演化模式的挖掘。实验表明这一方案能有效地提高用户社区的挖掘与演化质量。
-
公开(公告)号:CN101493819B
公开(公告)日:2011-09-14
申请号:CN200810056726.1
申请日:2008-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种搜索引擎作弊检测的优化方法,该方法包括:步骤S1:预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。利用本发明,解决了现有技术中启发式作弊检测方法的不稳定性问题,并最大程度上优化了搜索引擎作弊检测的性能。
-
公开(公告)号:CN111859980B
公开(公告)日:2024-04-09
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
-
-
-
-
-
-
-
-