一种基于语句相似度的话题观点聚类方法

    公开(公告)号:CN106372208B

    公开(公告)日:2019-07-12

    申请号:CN201610801675.5

    申请日:2016-09-05

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。

    基于动态可分裂BloomFilter的网络爬虫URL去重方法

    公开(公告)号:CN104809182A

    公开(公告)日:2015-07-29

    申请号:CN201510185467.2

    申请日:2015-04-17

    Applicant: 东南大学

    Inventor: 杨鹏 袁志伟 刘旋

    Abstract: 本发明公开了一种基于动态可分裂Bloom Filter的网络爬虫URL去重方法,该方法的基础是一个动态可分裂Bloom Filter(简记DSBF),它与Interner Archive爬虫和Apoide爬虫中均匀负担URL存取任务的固定结构Bloom Filter不同,而是具有可按需灵活分裂成多层的动态可扩展结构。基于动态可分裂Bloom Filter实现网络爬虫URL去重,既可保证当已处理的URL数目不断增大时,仍然能够把Bloom Filter的假阳性误判率控制在给定范围内,又能将让Bloom Filter具有易于分布实现的灵活存储结构,从而更加适合于构造大规模、分布式、多网络爬虫的并行处理环境,支持互联网海量网页信息的高效采集和处理。

    基于观点语句可信度的话题观点强度计算方法

    公开(公告)号:CN106649433B

    公开(公告)日:2020-08-11

    申请号:CN201610802312.3

    申请日:2016-09-05

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于观点语句可信度的话题观点强度计算方法。该方法综合考虑了网页的可信度和网页对话题观点语句的支持程度,结合这两方面因素计算出话题观点类中每一个观点语句的可信度,最后通过对多个观点语句的可信度求和,得到每一个话题观点类的强度值。本发明能够帮助用户定量地了解不同观点的观点强度,区分主要观点和次要观点,揭示话题不同观点的细节。

    基于虚拟节点存储优化的Swift负载均衡方法

    公开(公告)号:CN105657064B

    公开(公告)日:2019-03-12

    申请号:CN201610171589.0

    申请日:2016-03-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于虚拟节点存储优化的Swift负载均衡方法,该方法可以动态均衡云存储服务组件Swift中各存储服务器的负载。与传统负载均衡方法不同的是,该方法既非单一的全局负载均衡,也非单一的局部负载均衡,而是通过采用分组、合并的机制,实现全局和局部相结合的动态负载均衡。该方法既能保证云存储系统的负载保持平衡状态,提升存储资源的利用率,又能提高云存储系统的存取效率,更加适用于大规模、分布式云存储服务需求。

    基于观点语句可信度的话题观点强度计算方法

    公开(公告)号:CN106649433A

    公开(公告)日:2017-05-10

    申请号:CN201610802312.3

    申请日:2016-09-05

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于观点语句可信度的话题观点强度计算方法。该方法综合考虑了网页的可信度和网页对话题观点语句的支持程度,结合这两方面因素计算出话题观点类中每一个观点语句的可信度,最后通过对多个观点语句的可信度求和,得到每一个话题观点类的强度值。本发明能够帮助用户定量地了解不同观点的观点强度,区分主要观点和次要观点,揭示话题不同观点的细节。

    基于动态可分裂BloomFilter的网络爬虫URL去重方法

    公开(公告)号:CN104809182B

    公开(公告)日:2016-08-17

    申请号:CN201510185467.2

    申请日:2015-04-17

    Applicant: 东南大学

    Inventor: 杨鹏 袁志伟 刘旋

    Abstract: 本发明公开了一种基于动态可分裂Bloom Filter的网络爬虫URL去重方法,该方法的基础是一个动态可分裂Bloom Filter(简记DSBF),它与Interner Archive爬虫和Apoide爬虫中均匀负担URL存取任务的固定结构Bloom Filter不同,而是具有可按需灵活分裂成多层的动态可扩展结构。基于动态可分裂Bloom Filter实现网络爬虫URL去重,既可保证当已处理的URL数目不断增大时,仍然能够把Bloom Filter的假阳性误判率控制在给定范围内,又能将让Bloom Filter具有易于分布实现的灵活存储结构,从而更加适合于构造大规模、分布式、多网络爬虫的并行处理环境,支持互联网海量网页信息的高效采集和处理。

    基于虚拟节点存储优化的Swift负载均衡方法

    公开(公告)号:CN105657064A

    公开(公告)日:2016-06-08

    申请号:CN201610171589.0

    申请日:2016-03-24

    Applicant: 东南大学

    CPC classification number: H04L67/1097 H04L67/1002 H04L67/1008 H04L67/2833

    Abstract: 本发明公开了一种基于虚拟节点存储优化的Swift负载均衡方法,该方法可以动态均衡云存储服务组件Swift中各存储服务器的负载。与传统负载均衡方法不同的是,该方法既非单一的全局负载均衡,也非单一的局部负载均衡,而是通过采用分组、合并的机制,实现全局和局部相结合的动态负载均衡。该方法既能保证云存储系统的负载保持平衡状态,提升存储资源的利用率,又能提高云存储系统的存取效率,更加适用于大规模、分布式云存储服务需求。

    一种基于语句相似度的话题观点聚类方法

    公开(公告)号:CN106372208A

    公开(公告)日:2017-02-01

    申请号:CN201610801675.5

    申请日:2016-09-05

    Applicant: 东南大学

    CPC classification number: G06F16/35 G06K9/6215 G06K9/6219

    Abstract: 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。

Patent Agency Ranking