-
公开(公告)号:CN107229668A
公开(公告)日:2017-10-03
申请号:CN201710131780.7
申请日:2017-03-07
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-
公开(公告)号:CN106656603A
公开(公告)日:2017-05-10
申请号:CN201611210941.3
申请日:2016-12-24
Applicant: 桂林电子科技大学
CPC classification number: H04L67/10 , H04L41/5038
Abstract: 本发明公开了一种基于多参数区间数多属性决策的云服务信任评估方法,首先,以多参数区间数形式采集QoS指标数据并列出决策矩阵,将多参数区间数形式的指标值转换成二元联系数,再按照成本型和效益型对决策矩阵规范化处理得到规范化决策矩阵;其次,基于联系数的属性权重未知的权重设定,确定QoS指标权重;最后,基于规范化决策矩阵和QoS指标权重,采用主值模型对云服务信任评估。本发明以多参数区间数形式采集QoS指标数据并规范化处理,保证数据的真实性和客观性;基于联系数的属性权重未知的区间数多属性决策方法确定指标权重,提高决策的客观性;依据主值模型对云服务信任评估,降低了评估方法的时间复杂度。本发明方法具有较强的客观性和实用性。
-
公开(公告)号:CN107229668B
公开(公告)日:2020-04-21
申请号:CN201710131780.7
申请日:2017-03-07
Applicant: 桂林电子科技大学
IPC: G06F16/957 , G06F40/284
Abstract: 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-
-