-
公开(公告)号:CN111859074B
公开(公告)日:2023-12-29
申请号:CN202010743881.1
申请日:2020-07-29
Applicant: 东北大学
IPC: G06F16/951 , G06F16/28 , G06F21/31 , G06F18/214 , H04L41/14 , G06N3/08 , G06F18/243
Abstract: 本发明提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据,并将获取的数据处理成统一格式的结构化数据;然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数;对模型进行训练测试,得到测试集上的模型准确率;优化修改模型参数后对模型进行迭代训练,保存准确率最高的模型;最后将获取的多个目标信息源数据输入到准确率最高的模型中,得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源,大大提高舆情(56)对比文件CN 109359857 A,2019.02.19CN 109508373 A,2019.03.22CN 109933656 A,2019.06.25CN 111062202 A,2020.04.24US 2016098738 A1,2016.04.07US 2016267377 A1,2016.09.15何龙.输入理解XG Boost:高效机器学习算法与进阶.机械工业出版社,2020,316-320.环博文化等.网站SEO运营实战手册.机械工业出版社,2019,219-223.郭岩 等.网络舆情信息源影响力的评估研究《.中文信息学报》.2011,64-71.Mohamad Hazim et al..Detectingopinion spams through supervised boostingapproach《.PLOS ONE Journal》.2018,1-23.郭岩等.网络舆情信息源影响力的评估研究.中文信息学报.2011,第25卷(第3期),64-71.Mohamad Hazim等.Detecting opinionspams through supervised boostingapproach.PLOS ONE Journal.2018,第13卷(第6期),1-23.
-
公开(公告)号:CN111913987B
公开(公告)日:2023-08-04
申请号:CN202010794372.1
申请日:2020-08-10
Applicant: 东北大学
IPC: G06F16/2453 , G06F16/22 , G06F16/9537 , G06F9/54
Abstract: 本发明提供一种基于维组‑时空‑概率过滤的分布式查询系统及方法,涉及大数据查询技术领域。首先通过查询优化器对初始查询任务队列进行优化,得到重写查询任务队列;并通过维组过滤器对其属性进行维组过滤,得到查询目标维组候选集合;通过时空过滤器对查询目标维组候选集合进一步筛选,得到查询候选数据集合;概率过滤器对以上两个集合启动分布式采样计算和查询过程,并对样本进行查询计算和置信度计算,汇总得到全局查询结果和总置信度,并写到结果缓存器进行缓存。最后查询优化器并从结果缓存器读取已完成的重写查询任务结果缓存,计算返回初始查询任务的查询结果,实现对多查询任务的优化,减少查询计算代价并提升了查询效率。
-
公开(公告)号:CN111859925A
公开(公告)日:2020-10-30
申请号:CN202010781151.0
申请日:2020-08-06
Applicant: 东北大学
IPC: G06F40/242 , G06F40/289 , G06K9/00 , G06K9/62 , G06N3/04
Abstract: 本发明公开一种基于概率情感词典的情感分析系统及方法,属于计算机自然语言处理技术领域。本发明在基于文本构建情感词典的基础上,提出基于文本、图片、视频构建的情感词典。采用深度置信网络的方式提取图片上的人脸表情特征来构建图像情感词典;采用卷积神经网络对视频的情感特征提取,构建视频情感词典;采用OpenSMILE进行情感特征提取,构建音频情感词典。对于缺失单一模态的情况,通过另外两种模态的信息特征拟合出缺失模态的特征,还增加反语判断机制,提高情感分析的准确度并解决在分析过程中某一模态缺失导致分析结果不准确这一问题。
-
公开(公告)号:CN111859925B
公开(公告)日:2023-08-08
申请号:CN202010781151.0
申请日:2020-08-06
Applicant: 东北大学
IPC: G06F40/242 , G06F40/289 , G06N3/0464 , G06V20/40 , G06V10/774 , G06V40/16 , G06V10/80 , G06V10/82
Abstract: 本发明公开一种基于概率情感词典的情感分析系统及方法,属于计算机自然语言处理技术领域。本发明在基于文本构建情感词典的基础上,提出基于文本、图片、视频构建的情感词典。采用深度置信网络的方式提取图片上的人脸表情特征来构建图像情感词典;采用卷积神经网络对视频的情感特征提取,构建视频情感词典;采用OpenSMILE进行情感特征提取,构建音频情感词典。对于缺失单一模态的情况,通过另外两种模态的信息特征拟合出缺失模态的特征,还增加反语判断机制,提高情感分析的准确度并解决在分析过程中某一模态缺失导致分析结果不准确这一问题。
-
公开(公告)号:CN111859074A
公开(公告)日:2020-10-30
申请号:CN202010743881.1
申请日:2020-07-29
Applicant: 东北大学
Abstract: 本发明提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据,并将获取的数据处理成统一格式的结构化数据;然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数;对模型进行训练测试,得到测试集上的模型准确率;优化修改模型参数后对模型进行迭代训练,保存准确率最高的模型;最后将获取的多个目标信息源数据输入到准确率最高的模型中,得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度。
-
公开(公告)号:CN111984848A
公开(公告)日:2020-11-24
申请号:CN202010868327.6
申请日:2020-08-26
Applicant: 东北大学
IPC: G06F16/951 , G06F16/958 , G06F21/56 , G06K9/62
Abstract: 本发明公开一种基于分布式的网络自适应分类爬虫方法,属于网络爬虫和反爬虫技术领域,该方法首先是采用支持向量基SVM对各信息源网站进行反爬虫技术的精确分类;然后根据反爬虫手段的分类结果选择与之相抗衡的爬虫策略,最后基于分布式的自适应爬虫技术进行数据爬取,对分类模型进行评估。该方法可以用于舆情大数据的获取。这样根据反爬虫技术的不同分类,能更加精准有效的采用与之相抗衡的爬虫技术破解,快速获取信息源的数据。极大程度上减少了不必要的测试被反爬手段规避掉的风险。
-
公开(公告)号:CN111913987A
公开(公告)日:2020-11-10
申请号:CN202010794372.1
申请日:2020-08-10
Applicant: 东北大学
IPC: G06F16/2453 , G06F16/22 , G06F16/9537 , G06F9/54
Abstract: 本发明提供一种基于维组-时空-概率过滤的分布式查询系统及方法,涉及大数据查询技术领域。首先通过查询优化器对初始查询任务队列进行优化,得到重写查询任务队列;并通过维组过滤器对其属性进行维组过滤,得到查询目标维组候选集合;通过时空过滤器对查询目标维组候选集合进一步筛选,得到查询候选数据集合;概率过滤器对以上两个集合启动分布式采样计算和查询过程,并对样本进行查询计算和置信度计算,汇总得到全局查询结果和总置信度,并写到结果缓存器进行缓存。最后查询优化器并从结果缓存器读取已完成的重写查询任务结果缓存,计算返回初始查询任务的查询结果,实现对多查询任务的优化,减少查询计算代价并提升了查询效率。
-
-
-
-
-
-