-
公开(公告)号:CN111857983A
公开(公告)日:2020-10-30
申请号:CN202010355882.9
申请日:2020-04-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了一种基于分布式数据采集任务调度方法,其包括:获取待处理任务;对待处理任务分类得到多个周期性重复任务;记录每个周期性重复任务在前n次执行中每次执行的起止时间点;计算每个周期性重复任务在前n次执行中的平均间隔时长 每个周期性重复任务下一次执行的起始时间点,确定多个周期性重复任务的下一次执行顺序;记录每个任务执行器的负载;向多个任务执行器分别发送任务请求信号,并接受各个任务执行器的反馈信号;向接受到的第一个反馈信号对应的任务执行器发送需要最先执行的周期性重复任务。本发明还公开了一种基于分布式数据采集任务调度装置。本发明能够使得分布式系统执行任务时取得最优效果,运行更加稳健。
-
公开(公告)号:CN106557552B
公开(公告)日:2020-08-21
申请号:CN201610958001.6
申请日:2016-10-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9535 , G06F16/335 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。
-
公开(公告)号:CN103678564A
公开(公告)日:2014-03-26
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN109977219B
公开(公告)日:2021-04-09
申请号:CN201910207415.9
申请日:2019-03-19
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06Q30/02 , G06Q30/06 , G06Q50/30
Abstract: 本发明公开了基于启发式规则的文本摘要自动生成方法,包括:S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。以及,基于启发式规则的文本摘要自动生成装置。采用本发明的方法生成的文本摘要的句子组织连贯性好,可读性强。
-
公开(公告)号:CN109960756A
公开(公告)日:2019-07-02
申请号:CN201910207437.5
申请日:2019-03-19
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/953 , G06F16/34 , G06F16/35 , G06F17/27
Abstract: 本发明公开了一种新闻事件信息归纳方法,包括:收集新闻素材,创建新闻库;从新闻库中获取目标事件的所有新闻文本,并进行热度分析,获取拐点新闻文本,抽取所述拐点新闻文本中的事件信息并保存;其中,获取拐点新闻文本的方法包括:统计所有新闻文本的热度值,按照新闻文本发布的时间顺序排序,构建热度值随时间变化的曲线图,取曲线图的所有极大点对应的新闻文本,即为所述拐点新闻文本,所述热度值为新闻的页面浏览量和网站独立访客量之和。本发明的方法通过选择对于目标新闻事件处于关键节点时的新闻文本——即拐点新闻文本进行摘要分析处理,准确地反映了新闻事件的发展态势。
-
公开(公告)号:CN108628828A
公开(公告)日:2018-10-09
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self-attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN113254632B
公开(公告)日:2022-07-22
申请号:CN202110437683.7
申请日:2021-04-22
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
-
公开(公告)号:CN108628828B
公开(公告)日:2022-04-01
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F40/30 , G06F40/289 , G06F16/35
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN113312478A
公开(公告)日:2021-08-27
申请号:CN202110445975.5
申请日:2021-04-25
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06F40/216 , G06N5/02
Abstract: 本发明公开了基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场;以及,基于阅读理解的观点挖掘装置。本发明具有使观点挖掘结果更加准确的优点。
-
公开(公告)号:CN113254632A
公开(公告)日:2021-08-13
申请号:CN202110437683.7
申请日:2021-04-22
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
-
-
-
-
-
-
-
-
-