一种基于多策略的微博信息优先采集方法

    公开(公告)号:CN109670136A

    公开(公告)日:2019-04-23

    申请号:CN201811633421.2

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。

    一种基于Transformer的引导性文本摘要生成方法

    公开(公告)号:CN111897949B

    公开(公告)日:2021-10-26

    申请号:CN202010740782.8

    申请日:2020-07-28

    Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。

    一种基于多策略的微博信息优先采集方法

    公开(公告)号:CN109670136B

    公开(公告)日:2021-04-27

    申请号:CN201811633421.2

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。

    一种基于混合特征的线上图书价值发现方法

    公开(公告)号:CN109670922B

    公开(公告)日:2022-02-08

    申请号:CN201811633423.1

    申请日:2018-12-29

    Abstract: 本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。

    一种基于位置增强的细粒度情感分析方法

    公开(公告)号:CN113705197A

    公开(公告)日:2021-11-26

    申请号:CN202111000430.X

    申请日:2021-08-30

    Abstract: 本发明提出了一种基于位置增强的细粒度情感分析方法,用于解决现有技术对文本进行细粒度情感分析导致的精度低的问题。首先将文本进行预处理,再通过细粒度情感分析模型进行情感分析。模型包括嵌入层、语义表征层、信息交互层和输出层。嵌入层将句子映射为上下文词嵌入和方面词嵌入,语义表征层通过位置强化注意力机制来增强模型的文本语义表征能力,信息交互层通过使用记忆网络增强方面词与其上下文的交互性,将基于方面的上下文语义增强表示作为与方面交互的外部记忆单元,使得外部存储记忆单元能够学习到复杂文本中的语义信息,最后输出层进行情感预测。本发明通过合理界定对方面进行情感表达的上下文范围,提高了细粒度情感分析准确度。

    一种基于位置增强的细粒度情感分析方法

    公开(公告)号:CN113705197B

    公开(公告)日:2024-04-02

    申请号:CN202111000430.X

    申请日:2021-08-30

    Abstract: 本发明提出了一种基于位置增强的细粒度情感分析方法,用于解决现有技术对文本进行细粒度情感分析导致的精度低的问题。首先将文本进行预处理,再通过细粒度情感分析模型进行情感分析。模型包括嵌入层、语义表征层、信息交互层和输出层。嵌入层将句子映射为上下文词嵌入和方面词嵌入,语义表征层通过位置强化注意力机制来增强模型的文本语义表征能力,信息交互层通过使用记忆网络增强方面词与其上下文的交互性,将基于方面的上下文语义增强表示作为与方面交互的外部记忆单元,使得外部存储记忆单元能够学习到复杂文本中的语义信息,最后输出层进行情感预测。本发明通过合理界定对方面进行情感表达的上下文范围,提高了细粒度情感分析准确度。

    一种基于Attention机制的多通道的文本分类方法

    公开(公告)号:CN111061873B

    公开(公告)日:2022-03-15

    申请号:CN201911191475.2

    申请日:2019-11-28

    Abstract: 本发明涉及一种基于Attention机制的多通道的文本分类方法,首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,其次在每层通道上单独引入Attention机制为每个词创建上下文向量,然后将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度,解决了非连续词之间相关性的问题。

    一种基于Transformer的引导性文本摘要生成方法

    公开(公告)号:CN111897949A

    公开(公告)日:2020-11-06

    申请号:CN202010740782.8

    申请日:2020-07-28

    Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。

Patent Agency Ranking