噪声文档的筛除方法及计算机可读存储介质

    公开(公告)号:CN111209737A

    公开(公告)日:2020-05-29

    申请号:CN201911398056.6

    申请日:2019-12-30

    Abstract: 本发明公开了一种噪声文档的筛除方法及计算机可读存储介质,方法包括:根据种子词集合,检索得到原始语料;从原始语料中提取有效文本;对有效文本进行分句,并进行数据清洗;获取共现句中的重点词语,得到关键词集合;根据种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算相关类关键词表中的各相关词语在有效文本中作为重点句法成分的出现比例,得到各相关词语的关键词权重;分别计算各无关词语的关键词权重;获取有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算有效文本的得分;若得分小于预设的阈值,则判定为噪声文本。本发明可剔除无关文本,提高搜索结果语料质量。

    一种基于改进textCNN模型的文本分类方法、装置及存储介质

    公开(公告)号:CN109918497A

    公开(公告)日:2019-06-21

    申请号:CN201811572759.1

    申请日:2018-12-21

    Abstract: 本发明提供了一种基于改进textCNN模型的文本分类方法、装置及存储介质。该方法包括:训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。本发明通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法,由于预训练了词嵌入层,使得训练阶段的训练时间和计算量大大减少;由于加深了卷积层的深度以及增加了批归一化层,使得分类准确率较大提高,更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景,如互联网舆情的文本分类等等。

    一种智能回复方法及终端
    13.
    发明公开

    公开(公告)号:CN115329037A

    公开(公告)日:2022-11-11

    申请号:CN202210873391.2

    申请日:2022-07-22

    Abstract: 本发明公开一种智能回复方法及终端,使用预设外部词向量模型和预设本地词向量模型确定待回复文本对应的联合词向量编码;将联合词向量编码输入至训练后的分类模型,输出得到待回复文本对应的文本主题;基于所述待回复文本进行关键词抽取,得到第二关键词;确定与所述文本主题对应的目标主题知识图谱,并根据所述第二关键词基于所述目标主题知识图谱确定与所述待回复文本对应的回复内容,有利于提升自然语言处理相关的后续任务的处理准确度,同时处理长文本的效果更好,提高了文本主题获取的精度,另外通过知识图谱与任务型对话模型的结合能够对大段文本生成对应的有效回复,且可移植到app、客服等场景中,从而针对大段文本实现准确地智能回复。

    一种在分布式环境下动态调度IP代理池的方法、装置及存储介质

    公开(公告)号:CN109743411B

    公开(公告)日:2022-03-01

    申请号:CN201811509275.2

    申请日:2018-12-10

    Abstract: 本发明提供了一种在分布式环境下动态调度IP代理池的方法、装置及存储介质。该方法包括:构建步骤,扫描代理IP资源,为扫描获得的代理IP初始化状态标识后构建IP代理池;检测步骤,对初始代IP理池中的代理IP进行检测,并根据检测结果更新代理IP的状态标识;调度步骤,获取IP代理池中M个代理IP生成代理IP队列以供下载中心请求使用。本发明确保代理池中的可用IP代理保持在一定数量之上,并根据加锁机制和缓存机制,实现单个代理IP在面对多线程调度的情况下可以做到时间维度上的有序响应,防止单个代理IP高频率访问,通过IP代理池、有效性检测及调度的协同,使分布式数据采集系统在保证采集效率的同时,又可以避免因高频率访问导致访问失败。

    一种文本话题标签生成方法、终端设备及存储介质

    公开(公告)号:CN112380866A

    公开(公告)日:2021-02-19

    申请号:CN202011334632.3

    申请日:2020-11-25

    Abstract: 本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。

    一种基于标签与图的网页推荐方法、终端设备及存储介质

    公开(公告)号:CN112380417A

    公开(公告)日:2021-02-19

    申请号:CN202011382566.7

    申请日:2020-12-01

    Abstract: 本发明涉及一种基于标签与图的网页推荐方法、终端设备及存储介质,该方法中包括:S1:对所有的用户信息进行分析,提取所有用户对应的所有兴趣标签与权重;S2:通过爬虫系统采集新的网页,并计算每个网页与每个兴趣标签的关联关系和权重;S3:采用基于图的推荐算法,计算出每个用户的待推荐网页列表,并进行展示。本发明由用户的主动参与变为被动参与,在用户正常的日常操作得到对应标签及通过爬虫方式进行热门网页采集后再推荐给用户,提高用户体验感与不同站点的网页个性化需求。

    一种国际事件风险推演方法及终端

    公开(公告)号:CN111310116A

    公开(公告)日:2020-06-19

    申请号:CN201911401996.6

    申请日:2019-12-30

    Abstract: 本发明公开了一种国际事件风险推演方法及终端,建立风险推演指标体系,并运用改进的层次分析法,得到风险推演指标体系的各项权重;根据专家对各个国际事件进行量化,代入风险推演指标体系得到各个国际事件所造成的国际事件风险等级,使用影响因子IN进行反模糊化,以得出每个国际事件所造成的具体风险指数;本发明结合模糊综合评判的方法,得到一个风险推演指标体系,根据专家所发生的重大国际事件的互联网公开信息的具体量化,代入到对风险推演指标体系以得到风险推演结果,通过引入影响因子,以得到更为具体的风险指数,从而对当前重大国际事件造成的风险进行更加准确具体的分析推演。

    一种在分布式环境下动态调度IP代理池的方法、装置及存储介质

    公开(公告)号:CN109743411A

    公开(公告)日:2019-05-10

    申请号:CN201811509275.2

    申请日:2018-12-10

    Abstract: 本发明提供了一种在分布式环境下动态调度IP代理池的方法、装置及存储介质。该方法包括:构建步骤,扫描代理IP资源,为扫描获得的代理IP初始化状态标识后构建IP代理池;检测步骤,对初始代IP理池中的代理IP进行检测,并根据检测结果更新代理IP的状态标识;调度步骤,获取IP代理池中M个代理IP生成代理IP队列以供下载中心请求使用。本发明确保代理池中的可用IP代理保持在一定数量之上,并根据加锁机制和缓存机制,实现单个代理IP在面对多线程调度的情况下可以做到时间维度上的有序响应,防止单个代理IP高频率访问,通过IP代理池、有效性检测及调度的协同,使分布式数据采集系统在保证采集效率的同时,又可以避免因高频率访问导致访问失败。

    一种正负面情感分析方法、终端设备及存储介质

    公开(公告)号:CN110888983B

    公开(公告)日:2022-07-15

    申请号:CN201911171315.1

    申请日:2019-11-26

    Abstract: 本发明涉及一种正负面情感分析方法、终端设备及存储介质,该方法中包括:S1:构建和维护对应不同行业的行业关键词规则和行业情感词典;S2:判断待分析的文本数据中是否包含行业关键词规则中所包含的关键词,如果包含,进入S3;否则,进入S4;S3:根据关键词所属的行业和行业所对应的行业关键词规则,判断该文本数据所属的所有行业后,根据每个行业对应的行业情感词典计算每个行业的情感得分,进而获得该文本数据的情感正负面分析结果;S4:通过训练后的机器学习模型得到该文本数据的情感正负面分析结果。本发明采用基于行业情感词与机器学习模型融合的情感分析方法,将网络文本分而治之,提高分析效果。

    一种新闻网页的信息抽取方法及终端

    公开(公告)号:CN114329143A

    公开(公告)日:2022-04-12

    申请号:CN202111649035.4

    申请日:2021-12-30

    Abstract: 本发明公开一种新闻网页的信息抽取方法及终端,获取新闻网页的HTML源码,并对所述HTML源码进行一次预处理,得到一次预处理后的HTML源码;根据预设XPATH规则对所述一次预处理后的HTML源码进行信息抽取,得到网页标题、发布标题、发布作者和发布时间;对所述一次预处理后的HTML源码进行二次预处理,得到二次预处理后的HTML源码;利用文本密度公式与符号密度公式对所述二次预处理后的HTML源码进行信息抽取,得到发布内容,实现了新闻网页信息的自动化抽取,且对HTML源码进行一次预处理能够过滤掉其中的无用信息,进而提高信息抽取效率,能够进一步提高发布内容抽取的精确度,从而提高了新闻网页中信息抽取的效率和准确率。

Patent Agency Ranking