企业关联词的选取方法、设备和存储介质

    公开(公告)号:CN111737553A

    公开(公告)日:2020-10-02

    申请号:CN202010547677.2

    申请日:2020-06-16

    Inventor: 龚朝辉

    Abstract: 本发明揭示了一种企业关联词的选取方法、设备和存储介质,所述方法包括:获取初步筛选的与某个企业相关的新闻和新闻量N1;使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。与现有技术相比,本发明企业关联词的选取方法,可以对前端录入的企业关联词进行监控和管理,选取符合要求的企业关联词对企业新闻进行关联,避免直接使用前端录入的企业关联词带来的不可控影响。

    文本聚类的方法、设备和存储介质

    公开(公告)号:CN110532388A

    公开(公告)日:2019-12-03

    申请号:CN201910753636.6

    申请日:2019-08-15

    Abstract: 本发明揭示了一种文本聚类的方法、设备和存储介质,所述方法包括:获取待聚类的文本标题列表;以所述文本标题为顶点,以所述文本标题向量化后的距离为边,构建所述文本标题之间的初始连通图;移除所述初始连通图的大于初始距离阈值的边,得到一个或者多个子连通图;计算每个所述子连通图的聚集程度,若一个所述子连通图的聚集程度大于或等于分簇阈值,所述子连通图对应的文本集合即为一个文本簇。与现有技术相比,本发明能够对文本进行快速、稳定地聚类,同样的文本数据每次聚类的结果是一致的。同时,使用此方法对企业相关的新闻进行聚类,能够快速的实现对企业热点新闻的稳定提取,对于企业相关的新闻热点提取有较好的效果。

    实时检测新闻量异常的方法、设备和存储介质

    公开(公告)号:CN111078974A

    公开(公告)日:2020-04-28

    申请号:CN201911254914.X

    申请日:2019-12-10

    Abstract: 本发明揭示了一种实时检测新闻量异常的方法、设备和存储介质,所述方法包括:以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型;连续获取第二时段内每分钟的新闻量作为样本,通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度;若所述最大偏离度的绝对值大于或等于偏离度阈值的绝对值,判定所述第二时段的新闻量出现异常。与现有技术相比,本发明的实时检测新闻量异常的方法,能够对新闻量的异常进行量化,从而及时检测出筛选系统提取的新闻量的异常,尽早发现筛选系统的故障。

    公司简称自动对应公司全称的方法、设备和存储介质

    公开(公告)号:CN111079434A

    公开(公告)日:2020-04-28

    申请号:CN201911233826.1

    申请日:2019-12-05

    Abstract: 本发明揭示了一种公司简称自动对应公司全称的方法、设备和存储介质,所述方法包括:获取公司简称,通过所述公司简称,检索出相关的候选公司全称;将每个所述候选公司全称分割为多个词,并将分割后的各个词与所述公司简称比对,计算所有候选公司全称的匹配度,选出最高匹配度;若所述最高匹配度大于或等于设定阈值,选取所述最高匹配度对应的候选公司全称与所述公司简称进行对应。与现有技术相比,本发明的公司简称自动对应公司全称的方法,能够自动将文本或口语中出现的公司简称与公司全称进行对应,对应准确率高。同时,通过深度学习的方式,能够实现对大规模的公司简称进行识别,识别准确率高,且能够大大降低硬件成本,提高识别的效率。

    文本关键词自动提取的方法、设备和存储介质

    公开(公告)号:CN110532551A

    公开(公告)日:2019-12-03

    申请号:CN201910754155.7

    申请日:2019-08-15

    Abstract: 本发明揭示了一种文本关键词自动提取的方法、设备和存储介质,所述方法包括:获取n元候选关键词集合;将n元候选关键词集合中的包含有相同n-1元词且所述n-1元词在所述关键词的位置不同的两个关键词进行合并,得到n+1元结果关键词集合,其中n为大于1的正整数。与现有技术相比,本发明的技术方案通过对细分后提取的关键词进行合并,使得被分裂的关键词的语义得到补全,避免了因为分词太细带来的语义不完整的情况。

    热点关键词的选取方法、设备和存储介质

    公开(公告)号:CN111737555A

    公开(公告)日:2020-10-02

    申请号:CN202010561415.1

    申请日:2020-06-18

    Inventor: 龚朝辉

    Abstract: 本发明揭示了一种热点关键词的选取方法、设备和存储介质,所述方法包括:获取一关键词在多个预定周期内的变化速度的均值μ0和标准差S,所述关键词的变化速度是指相邻两个预定周期内所述关键词的标准化词频的差值;获取所述关键词在最近的预定周期内的变化速度μ;根据所述μ0、S和μ,计算所述关键词的变化速度的Z检验的Z值: 根据所述Z值,判断所述关键词是否是热点关键词。与现有技术相比,本发明热点关键词的选取方法,根据相邻时间段内关键词的变化速度服从正太分布的现象,利用Z检验,计算关键词的变化速度的Z值,从而不同关键词的变化速度可以进行比较,根据Z值的大小,科学、快速、准确的选取热点关键词。

    基于场感知因子分解机的推荐召回方法、设备和存储介质

    公开(公告)号:CN110930223A

    公开(公告)日:2020-03-27

    申请号:CN201911145480.X

    申请日:2019-11-21

    Abstract: 本发明揭示了一种基于场感知因子分解机的推荐召回方法、设备和存储介质,所述方法包括:通过物品库中每个物品的物品侧特征域,计算对应每个物品的物品侧特征域的域向量;通过待推荐用户的用户侧特征域,计算待推荐用户的用户侧特征域的域向量;计算Si和Su;通过待推荐用户的所述域向量、物品库中的物品的所述域向量、Si和Su,计算物品库中物品的得分。与现有技术相比,本发明的基于场感知因子分解机的推荐召回方法,将FFM算法用在推荐召回步骤中时,根据待推荐的用户快速精确的对所有的商品进行打分排序,从而给用户推荐召回更加符合心意的商品或信息;同时用一个模型替代了多个召回模型,简化了召回流程,省去多路召回的超参数设置。

    海量文本去重筛选的方法、设备和存储介质

    公开(公告)号:CN110837555A

    公开(公告)日:2020-02-25

    申请号:CN201911096358.8

    申请日:2019-11-11

    Abstract: 本发明揭示了一种海量文本去重筛选的方法、设备和存储介质,所述方法包括:根据待筛选文本的simhash值获得相似文本集合;计算所述待筛选文本与所述相似文本集合中的文本的余弦相似度;根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉。与现有技术相比,本发明将两种文本相似度算法进行整合,利用simhash的速度快、余弦相似度精度高的特点,在海量文本中进行相似度对比,来达到新闻去重的目的,能够对海量文本进行快速而又准确的去重筛选。

    文本新闻的处理方法、设备和存储介质

    公开(公告)号:CN110532556A

    公开(公告)日:2019-12-03

    申请号:CN201910805703.4

    申请日:2019-08-29

    Abstract: 本发明揭示了一种文本新闻的处理方法、设备和存储介质,所述方法包括:对历史文本新闻进行主题训练得到主题模型,并生成新闻主题列表;获取用户对所有新闻主题的多个维度的访问偏好数据;根据所述多个维度的访问偏好数据,计算每个新闻主题的分值,形成新闻主题分值表。与现有技术相比,本发明的文本新闻的处理方法,将大量的历史文本新闻进行主题训练生成新闻主题列表,然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分,形成新闻主题分值表,从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分,从而根据分值的高低实现文本新闻的过滤和推荐,或者为企业关联高质量的文本新闻信息。

Patent Agency Ranking