一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279B

    公开(公告)日:2020-12-15

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    词向量模型的构建方法、关键词匹配方法及装置

    公开(公告)号:CN109614478A

    公开(公告)日:2019-04-12

    申请号:CN201811552104.8

    申请日:2018-12-18

    Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279A

    公开(公告)日:2018-11-06

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种文字传播路径分析方法及系统

    公开(公告)号:CN108595439B

    公开(公告)日:2022-04-12

    申请号:CN201810435632.9

    申请日:2018-05-04

    Abstract: 本发明涉及一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算相应的汉明距离判断互联网稿件与参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。在本发明实施例中,根据互联网稿件和参考稿件分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。

    词向量模型的构建方法、关键词匹配方法及装置

    公开(公告)号:CN109614478B

    公开(公告)日:2020-12-08

    申请号:CN201811552104.8

    申请日:2018-12-18

    Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

    一种新闻流行度预测方法、设备和存储介质

    公开(公告)号:CN110334275B

    公开(公告)日:2020-12-04

    申请号:CN201910471730.2

    申请日:2019-05-31

    Abstract: 本发明公开了一种新闻流行度预测方法、设备和存储介质。该方法包括:获取待预测信息;按照预先确定的流行度影响特征类别,提取所述待预测信息的流行度影响特征;将所述流行度影响特征输入预先训练的集成了多个预测模型的多模型预测器中,获得所述多模型预测器输出的所述待预测信息的流行度。本发明使用集成了多个预测模型的多模型预测器对待预测信息进行信息流行度预测,采用多模型预测器预测信息流行度不仅可以提高预测模型预测结果的稳定性,还可以显著提高预测模型的预测性能,使得流行度预测更加稳定,预测结果更加精准。

    一种图片相似度检测方法及系统

    公开(公告)号:CN108960280B

    公开(公告)日:2020-07-24

    申请号:CN201810488427.9

    申请日:2018-05-21

    Abstract: 本发明涉及一种图片相似度检测方法及系统,该检测方法包括:分别筛选出互联网图片和参考图片中的互联网图片特征点和参考图片特征点;根据所有互联网图片特征点和所有参考图片特征点得到互联网图片和参考图片中的匹配特征点;当匹配特征点的个数大于或等于预设阈值时,互联网图片和参考图片相似。本发明实施例通过获取进行对比的两个图片的特征点,获取得到互联网图片和参考图片的特征点是否相匹配,并统计相匹配的特征点的数量,当匹配的特征点的数量超过预设阈值时,即可确认互联网图片和参考图片相似,本发明实施例计算数据量少,抗噪能力强,实现了快速识别检验图片之间是否相似。

    一种信息流行度预测方法、设备和存储介质

    公开(公告)号:CN110334275A

    公开(公告)日:2019-10-15

    申请号:CN201910471730.2

    申请日:2019-05-31

    Abstract: 本发明公开了一种信息流行度预测方法、设备和存储介质。该方法包括:获取待预测信息;按照预先确定的流行度影响特征类别,提取所述待预测信息的流行度影响特征;将所述流行度影响特征输入预先训练的集成了多个预测模型的多模型预测器中,获得所述多模型预测器输出的所述待预测信息的流行度。本发明使用集成了多个预测模型的多模型预测器对待预测信息进行信息流行度预测,采用多模型预测器预测信息流行度不仅可以提高预测模型预测结果的稳定性,还可以显著提高预测模型的预测性能,使得流行度预测更加稳定,预测结果更加精准。

    一种图片相似度检测方法及系统

    公开(公告)号:CN108960280A

    公开(公告)日:2018-12-07

    申请号:CN201810488427.9

    申请日:2018-05-21

    Abstract: 本发明涉及一种图片相似度检测方法及系统,该检测方法包括:分别筛选出互联网图片和参考图片中的互联网图片特征点和参考图片特征点;根据所有互联网图片特征点和所有参考图片特征点得到互联网图片和参考图片中的匹配特征点;当匹配特征点的个数大于或等于预设阈值时,互联网图片和参考图片相似。本发明实施例通过获取进行对比的两个图片的特征点,获取得到互联网图片和参考图片的特征点是否相匹配,并统计相匹配的特征点的数量,当匹配的特征点的数量超过预设阈值时,即可确认互联网图片和参考图片相似,本发明实施例计算数据量少,抗噪能力强,实现了快速识别检验图片之间是否相似。

    一种文字传播路径分析方法及系统

    公开(公告)号:CN108595439A

    公开(公告)日:2018-09-28

    申请号:CN201810435632.9

    申请日:2018-05-04

    Abstract: 本发明涉及一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算相应的汉明距离判断互联网稿件与参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。在本发明实施例中,根据互联网稿件和参考稿件分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。

Patent Agency Ranking