一种基于混合特征的线上图书价值发现方法

    公开(公告)号:CN109670922B

    公开(公告)日:2022-02-08

    申请号:CN201811633423.1

    申请日:2018-12-29

    Abstract: 本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。

    一种自适应的高校专利科研团队识别方法

    公开(公告)号:CN109829634A

    公开(公告)日:2019-05-31

    申请号:CN201910046709.8

    申请日:2019-01-18

    Abstract: 本发明提供了一种自适应的高校专利科研团队的识别方法,属于数据挖掘领域,具体是一种自适应的高校专利科研团队识别方法。主要内容包括:首先对所有专利的全部发明人进行人名频次统计,构建发明人共现矩阵;其次构建专利-发明人矩阵,将专利-发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,根据自适应阈值得到聚类的簇,将簇作为候选专利团队,利用特定规则,对候选专利科研团队进行分类和验证;最后利用主题生成模型对专利科研团队中的专利题目和摘要进行处理,根据处理后的发明内容,对专利进行语义聚类,并将聚类结果用于专利科研子团队识别。

    一种基于CNN与RF的老年人平衡能力特征选择方法

    公开(公告)号:CN110084303B

    公开(公告)日:2022-02-15

    申请号:CN201910347785.2

    申请日:2019-04-28

    Abstract: 本发明涉及一种基于CNN与RF高维多粒度特征选择方法,属于信息处理技术领域。本发明基于高纬多粒度特征数据集,结合深度学习算法和机器学习算法用于解决高纬多粒度特征提取的问题。首先利用深度学习算法CNN模型构建了一种FSelCNN模型,通过该模型将原有数据从多粒度转化为单一粒度,使得该数据成为机器学习算法所需的数据;最后利用机器学习算法RF从该高纬的数据中选择出影响实际问题的有效特征。本发明从高纬多粒度特征数据的单一特征层面出发,将其从多粒度维度转化为单一粒度维度,有效解决了运算复杂度;模型减少了参数量,能够在较短时间内训练完成;适用于各种高纬多粒度数据,自适应能力较强,并且具有较好的效果。

    一种基于Attention机制的多通道的文本分类方法

    公开(公告)号:CN111061873A

    公开(公告)日:2020-04-24

    申请号:CN201911191475.2

    申请日:2019-11-28

    Abstract: 本发明涉及一种基于Attention机制的多通道的文本分类方法,首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,其次在每层通道上单独引入Attention机制为每个词创建上下文向量,然后将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度,解决了非连续词之间相关性的问题。

    一种基于CNN与RF高维多粒度特征选择方法

    公开(公告)号:CN110084303A

    公开(公告)日:2019-08-02

    申请号:CN201910347785.2

    申请日:2019-04-28

    Abstract: 本发明涉及一种基于CNN与RF高维多粒度特征选择方法,属于信息处理技术领域。本发明基于高纬多粒度特征数据集,结合深度学习算法和机器学习算法用于解决高纬多粒度特征提取的问题。首先利用深度学习算法CNN模型构建了一种FSelCNN模型,通过该模型将原有数据从多粒度转化为单一粒度,使得该数据成为机器学习算法所需的数据;最后利用机器学习算法RF从该高纬的数据中选择出影响实际问题的有效特征。本发明从高纬多粒度特征数据的单一特征层面出发,将其从多粒度维度转化为单一粒度维度,有效解决了运算复杂度;模型减少了参数量,能够在较短时间内训练完成;适用于各种高纬多粒度数据,自适应能力较强,并且具有较好的效果。

    一种基于混合特征的线上图书价值发现方法

    公开(公告)号:CN109670922A

    公开(公告)日:2019-04-23

    申请号:CN201811633423.1

    申请日:2018-12-29

    Abstract: 本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。

    一种基于Transformer的引导性文本摘要生成方法

    公开(公告)号:CN111897949B

    公开(公告)日:2021-10-26

    申请号:CN202010740782.8

    申请日:2020-07-28

    Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。

    一种基于多策略的微博信息优先采集方法

    公开(公告)号:CN109670136B

    公开(公告)日:2021-04-27

    申请号:CN201811633421.2

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。

    一种结合注意力机制的深度学习多分类情感分析模型

    公开(公告)号:CN110287320B

    公开(公告)日:2021-03-16

    申请号:CN201910553755.7

    申请日:2019-06-25

    Abstract: 本发明涉及一种结合注意力机制的深度学习多分类情感分析模型,属于自然语言处理技术领域,本发明分析了现有CNN网络和LSTM网络在文本情感分析方面的弱点,提出了一种结合注意力机制的深度学习多分类情感分析模型。该模型运用注意力机制将CNN网络提取的局部特征和LSTM模型提取的语序特征相融合,并在分类层采用集成模型的思想,分别将CNN网络和LSTM网络提取的情感特征拼接,作为模型最终提取的情感特征。通过对比实验,发现该模型的准确率有了显著的提高。

Patent Agency Ranking