-
公开(公告)号:CN119513312A
公开(公告)日:2025-02-25
申请号:CN202411503651.2
申请日:2024-10-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/353 , G06F16/334 , G06F40/186 , G06F18/241
Abstract: 本发明提供了一种针对文本的讽刺检测方法,包括:获取待分析文本及其讽刺上下文信息,其中,讽刺上下文信息是指用于辅助判断待分析文本是否带有讽刺情绪的语境信息;根据待分析文本及其讽刺上下文信息,评估待分析文本的讽刺上下文信息的充足性;在待分析文本的讽刺上下文信息不充足的情况下,根据预设的上下文信息检索库提供补充的上下文信息,得到更新的讽刺上下文信息;根据待分析文本及其最新的讽刺上下文信息,确定待分析文本是否带有讽刺的情绪。
-
公开(公告)号:CN117235640A
公开(公告)日:2023-12-15
申请号:CN202311067335.0
申请日:2023-08-23
Applicant: 中国科学院计算技术研究所
IPC: G06F18/2433 , G06F18/24 , G06F18/23 , G06F18/213 , G06F40/35
Abstract: 本发明提出一种异常话题检测方法、装置,方法包含:采集社交媒体平台的热搜榜单话题数据作为样本数据,对所述榜单话题数据进行特征表达,确定话题特征,构造特征判定规则模型;对所有话题特征进行聚类,划分自然话题群体、异常话题群体;识别不属于所述自然话题群体和所述异常话题群体的离群异常话题,动态调整话题归属,构造话题归属模型;将待检测话题依次输入至所述特征判定规则模型与话题归属模型,判定是否为异常话题。该方法有效提高了社交媒体平台榜单异常话题的识别精度,进而有效对抗社交媒体中的操纵和攻击。
-
公开(公告)号:CN117076598A
公开(公告)日:2023-11-17
申请号:CN202310518172.7
申请日:2023-05-09
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/953 , G06F40/30 , G06F18/25
Abstract: 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重、该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果。本发明还提出一种基于自适应权重的语义检索模型融合系统,以及一种用于基于自适应权重的语义检索模型融合的数据处理装置。
-
公开(公告)号:CN116796283A
公开(公告)日:2023-09-22
申请号:CN202310602592.3
申请日:2023-05-25
Applicant: 中国科学院计算技术研究所
IPC: G06F18/25 , G06F18/2413 , G06F18/22 , G06F18/20 , G06N5/025
Abstract: 本发明提出一种基于网络社交平台的社交机器人群体检测方法和系统,包括:构建用于社交机器人个体识别的强特征,将网络社交平台中符合该强特征的账号识别为种子账号;基于该种子账号的社交网络关系进行扩线分析,并结合昵称检测进行相似昵称范式社群的发现和总结,得到基于种子账号的社交机器人社群;采用图卷积聚类社群发现方法,将该网络社交平台的图结构和文本信号融入到社群检测当中,并通过该社交机器人社群和种子账号,确定机器人覆盖率大于阈值的重点社群,作为社交机器人群体检测结果。
-
公开(公告)号:CN116126553A
公开(公告)日:2023-05-16
申请号:CN202211689339.8
申请日:2022-12-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于编排执行的信息获取方法,包括:根据对目标信源的多层树状采集需求生成任务树,编排该任务树的初始配置;将该初始配置放入任务队列;由原子采集器获取该初始配置,根据该初始配置生成根采集任务;执行该根采集任务,生成该根采集任务的子任务的任务配置,将该任务配置放入任务队列,并输出该根采集任务的采集结果;由原子采集器获取任务配置,根据该任务配置生成当前任务;执行该当前任务,生成该当前任务的子任务的任务配置,将该任务配置放入任务队列,并输出该当前任务的采集结果;重复本步骤,直到完成该任务树。本发明还提出一种基于编排执行的信息获取系统,以及一种用于实现基于编排执行的信息获取的数据处理装置。
-
公开(公告)号:CN110704612B
公开(公告)日:2022-09-16
申请号:CN201910732451.7
申请日:2019-08-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/35 , G06F16/31 , G06F40/216 , G06F40/30 , G06Q50/00
Abstract: 本发明提出了一种社交群体发现方法、装置和存储介质,用以提高社交群体发现精度和准确度。所述社交群体发现方法,包括:利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;根据提取的关联特征信息,确定每一候选用户对应的置信度;确定对应的置信度大于预设阈值的候选用户为目标用户;根据目标用户之间的通信联系建立初始群体网络;利用群体发现算法从所述初始群体网络中发现社交群体子网络。
-
公开(公告)号:CN114528459A
公开(公告)日:2022-05-24
申请号:CN202210044347.0
申请日:2022-01-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/958 , G06F16/35 , G06F40/30 , G06F40/146
Abstract: 本发明提出一种基于语义的网页信息抽取方法,包括:获取目标网页的目标DOM树,对该目标DOM树的目标骨架节点按句进行分裂,得到该目标DOM树的目标骨架子节点;以分类模型按目标任务语义对所有该目标骨架子节点进行分类,获得该目标DOM树的目标信息子节点;对所有该目标信息子节点形成的节点路径进行聚类,获得该目标网页的目标信息树,对该目标信息树中包含的网页信息进行抽取。本发明还提出一种基于语义的网页信息抽取系统,以及一种用于实现基于语义的网页信息抽取的数据处理装置。
-
公开(公告)号:CN114417211A
公开(公告)日:2022-04-29
申请号:CN202111319929.7
申请日:2021-11-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。
-
公开(公告)号:CN114119027A
公开(公告)日:2022-03-01
申请号:CN202110482852.9
申请日:2021-04-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种多属性的耦合稠密异常交易子图检测方法和系统。包括:将具有多属性的信息流建模为两个耦合的张量,并提出了一种新的多属性异常度量来准确地找到其中的稠密子张量。同时,本发明能很好地应用于非法资金转移检测问题:非法资金转移通常是一种从源账户开始,经过中间账户,汇聚到目标账户的资金流动过程,同时还具有快进快出、中间账户清空等性质。使用本发明能够有效捕捉欺诈性账户密集、可疑的非法资金转移行为;本发明设计的多属性异常度量也能够有效结合中间账户在短时间内清空余额的特点,进而准确地检测出非法资金转移交易链。
-
公开(公告)号:CN114077705A
公开(公告)日:2022-02-22
申请号:CN202111120139.6
申请日:2021-09-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明实施例提供了一种对社交平台上的媒体账号进行画像的方法和系统,该方法包括:获取社交平台的账号信息,识别其中符合第一筛选条件的媒体账号以构建第一集合,采集第一集合内的媒体账号的属性数据和历史贴文数据并存储于数据库,第一筛选条件包括地域条件和媒体类型条件;标注种子媒体账号,根据种子媒体账号从数据库检索符合第二筛选条件的关联媒体账号以共同构建第二集合,第二筛选条件从粉丝数、活跃度、双向信息交流的频次、新闻相关性中的至少一个方面进行筛选;基于第二集合中各个媒体账号的属性数据和历史贴文数据,从多个维度对相应媒体账号进行画像,得到多个维度的指标,并根据多个维度的指标计算媒体价值指数以标识媒体价值。
-
-
-
-
-
-
-
-
-