-
公开(公告)号:CN103106616A
公开(公告)日:2013-05-15
申请号:CN201310062057.X
申请日:2013-02-27
Applicant: 中国科学院自动化研究所
IPC: G06Q50/00
Abstract: 本发明涉及社会信息化传播网络中用户行为的数据挖掘,本发明具体公开了一种基于资源整合与信息传播特征的社区发现及演化方法,从而更加精确地定义用户社区,并发现有意义的社区演化模式。本发明针对现有社区发现与演化方法中网络资源整合度低和信息传播因素考虑较少等特点,提出了基于资源整合的社区发现方法,利用共享潜在特征的协同矩阵分解方法将用户行为和用户交互行为有机地结合到一起;并以信息传播理论为指导,纳入用户的好友影响为信息传播特征,基于一阶马尔科夫假设,采用机器学习方法完成社区演化模式的挖掘。实验表明这一方案能有效地提高用户社区的挖掘与演化质量。
-
公开(公告)号:CN101751448A
公开(公告)日:2010-06-23
申请号:CN200910089587.7
申请日:2009-07-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种基于情景信息的个性化资源信息的推荐方法,该方法:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、使用的标签信息,以及标注的时间信息,将用户所有的标注行为的信息存储于数据库;根据数据库中用户对资源使用的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;根据用户近邻的喜好信息向该用户推荐其未标注过的资源,完成协同过滤个性化资源的推荐。实验表明通过集成情景信息可以为用户提供更好的个性化推荐服务。
-
公开(公告)号:CN101441636A
公开(公告)日:2009-05-27
申请号:CN200710177798.7
申请日:2007-11-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于知识库的医疗搜索引擎及系统,抓取中文医疗健康目录构建原始医疗网页库;对原始医疗网页库中的网页进行相关信息抽取,提取对医院、科室、医生的评论信息,构建医疗评论信息库;使用词频统计和调查问卷,对抽取的相关信息进行医疗评论属性字段提取,提取观点短语,观点短语倾向性分析,给出评论评论信息是正面或是反面的分析结果,确定医院、科室、医生的排名;根据医疗知识库对搜索结果进行排序,将高度结构化和高度相关的信息提供给用户。本发明针对通用搜索引擎结果信息是非结构化、相关度和准确度低等缺点,构建医疗知识库,为用户提供高度结构化的医疗信息,提高用户查询医疗信息相关度和准确率,能有效提高搜索结果的准确率和召回率。
-
公开(公告)号:CN114330321B
公开(公告)日:2025-01-03
申请号:CN202111666897.8
申请日:2021-12-31
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC: G06F40/279 , G06N5/02 , G06N3/042 , G06N3/08 , G06N3/0442 , G06F18/22
Abstract: 本发明公开了一种用户先验知识增强的文本风格迁移方法、装置及电子设备,所述方法包括:获取用户先验知识数据,并基于所述用户先验知识数据构建预设神经网络模型;获取用户输入数据,并将所述用户输入数据映射至所述预设神经网络模型中,生成与所述用户输入数据的表达方式不同的目标文本内容表示;获取用户关注领域表示,并结合所述目标文本内容表示和用户关注领域表示,生成目标文本内容。本发明不仅可以实现文本风格的转换,还提升了转换文本内容与用户要求的相关性。
-
公开(公告)号:CN114818733A
公开(公告)日:2022-07-29
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
公开(公告)号:CN101493819A
公开(公告)日:2009-07-29
申请号:CN200810056726.1
申请日:2008-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种搜索引擎作弊检测的优化方法,该方法包括:步骤S1:预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。利用本发明,解决了现有技术中启发式作弊检测方法的不稳定性问题,并最大程度上优化了搜索引擎作弊检测的性能。
-
公开(公告)号:CN101350011A
公开(公告)日:2009-01-21
申请号:CN200710119196.6
申请日:2007-07-18
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明涉及互联网信息检索,公开一种基于小样本集的互联网作弊检测方法,以打击日益严峻的搜索引擎作弊行为,本发明针对检测样本收集成本高这一难题,利用基于分类器的自学习和基于互联网拓扑结构的链接学习过程的迭代执行,不断扩充训练集,以实现在小样本集下对搜索引擎作弊进行检测,并在识别过程中采用集成的降采样策略,充分利用了互联网上广泛存在的高信誉网站所包含的信息。最后进行沿互联网拓扑结构的基于预测作弊度的标号传递,以实现检测结果优化。利用实验表明这一方法能有效地对作弊行为进行检测。
-
公开(公告)号:CN116702746A
公开(公告)日:2023-09-05
申请号:CN202310594620.1
申请日:2023-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/205 , G06F40/211 , G06F40/30 , G06N3/045 , G06N3/047 , G06N3/048 , G06N5/022
Abstract: 本申请涉及一种跨平台多主题的讽刺及动因识别方法、装置、设备及介质,其中,方法包括:获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。解决了无法结合跨平台下文本多维度数据同时识别文本主题、是否讽刺以及讽刺动因的问题。
-
公开(公告)号:CN114912434A
公开(公告)日:2022-08-16
申请号:CN202210495306.3
申请日:2022-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC: G06F40/211 , G06F40/253 , G06F40/268 , G06N3/04 , G06N3/08 , G06N5/02 , G06K9/62
Abstract: 本发明公开了一种风格文本的生成方法及装置、存储介质、电子设备,其中,该方法包括:根据特征词和观点词构建句法模板;根据所述句法模板提取文本特征标签组合;确定目标风格文本的目标写作风格,将所述目标写作风格的风格参数作为生成条件嵌入Bert生成模型中,生成目标Bert语言表征模型;以所述文本特征标签组合为所述目标Bert语言表征模型的输入,生成与所述目标写作风格对应的条件文本。通过本发明,解决了相关技术采用网络模型生成的文本风格单一的技术问题,本方案可用于在信息传播过程中生成更多优质内容和个性化内容,提高文本的丰富度,提升传播影响力。
-
公开(公告)号:CN114357111A
公开(公告)日:2022-04-15
申请号:CN202111619071.6
申请日:2021-12-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种政策关联影响分析方法、装置、电子设备及存储介质,所述方法包括:构建目标异质信息网络,构建预训练语言模型以及构建目标向量运算模型;获取待测政策数据,待测政策数据包括政策要素以及政策要素之间的关联关系,政策要素包括政策内容和政策背景;将待测政策数据映射至目标异质信息网络中,得到包含关联关系的政策要素的节点学习结果;将待测政策数据映射至预训练语言模型中,得到包含政策背景的政策内容的训练学习结果;将节点学习结果和训练学习结果映射至目标向量运算模型中,得到政策关联影响分析结果。本发明信息利用充分、分析结果准确度高。
-
-
-
-
-
-
-
-
-