-
公开(公告)号:CN109670136A
公开(公告)日:2019-04-23
申请号:CN201811633421.2
申请日:2018-12-29
Applicant: 北京工业大学
IPC: G06F16/958 , G06F16/35 , G06F16/9535
Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。
-
公开(公告)号:CN111897949B
公开(公告)日:2021-10-26
申请号:CN202010740782.8
申请日:2020-07-28
Applicant: 北京工业大学
IPC: G06F16/34 , G06F40/126 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。
-
公开(公告)号:CN109670136B
公开(公告)日:2021-04-27
申请号:CN201811633421.2
申请日:2018-12-29
Applicant: 北京工业大学
IPC: G06F16/958 , G06F16/35 , G06F16/9535
Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。
-
公开(公告)号:CN109670922B
公开(公告)日:2022-02-08
申请号:CN201811633423.1
申请日:2018-12-29
Applicant: 北京工业大学
IPC: G06Q30/06
Abstract: 本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。
-
公开(公告)号:CN113705197A
公开(公告)日:2021-11-26
申请号:CN202111000430.X
申请日:2021-08-30
Applicant: 北京工业大学
IPC: G06F40/211 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06F16/33
Abstract: 本发明提出了一种基于位置增强的细粒度情感分析方法,用于解决现有技术对文本进行细粒度情感分析导致的精度低的问题。首先将文本进行预处理,再通过细粒度情感分析模型进行情感分析。模型包括嵌入层、语义表征层、信息交互层和输出层。嵌入层将句子映射为上下文词嵌入和方面词嵌入,语义表征层通过位置强化注意力机制来增强模型的文本语义表征能力,信息交互层通过使用记忆网络增强方面词与其上下文的交互性,将基于方面的上下文语义增强表示作为与方面交互的外部记忆单元,使得外部存储记忆单元能够学习到复杂文本中的语义信息,最后输出层进行情感预测。本发明通过合理界定对方面进行情感表达的上下文范围,提高了细粒度情感分析准确度。
-
公开(公告)号:CN110543557B
公开(公告)日:2021-04-02
申请号:CN201910841535.4
申请日:2019-09-06
Applicant: 北京工业大学
IPC: G06F16/332 , G06F40/30 , G06F40/289 , G16H80/00 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于注意力机制的医疗智能问答系统的构建方法。首先采集医疗问答数据,并用Word2vec技术进行向量化表示,对每个问题,从回答数据中选取语义相似度最大的句子作为标准答案,构建医疗知识问答训练库。然后构建基于注意力机制的医疗智能问答系统的深度学习模型:包括利用双向LSTM将问题和回答数据进行语义编码和拼接,并增加注意力机制;拼接后的语义编码输入到双向LSTM中进行特征融合,最后由softmax函数输出标准答案。
-
公开(公告)号:CN113705197B
公开(公告)日:2024-04-02
申请号:CN202111000430.X
申请日:2021-08-30
Applicant: 北京工业大学
IPC: G06F40/211 , G06F40/289 , G06F40/30 , G06F18/214 , G06N3/044 , G06F16/33
Abstract: 本发明提出了一种基于位置增强的细粒度情感分析方法,用于解决现有技术对文本进行细粒度情感分析导致的精度低的问题。首先将文本进行预处理,再通过细粒度情感分析模型进行情感分析。模型包括嵌入层、语义表征层、信息交互层和输出层。嵌入层将句子映射为上下文词嵌入和方面词嵌入,语义表征层通过位置强化注意力机制来增强模型的文本语义表征能力,信息交互层通过使用记忆网络增强方面词与其上下文的交互性,将基于方面的上下文语义增强表示作为与方面交互的外部记忆单元,使得外部存储记忆单元能够学习到复杂文本中的语义信息,最后输出层进行情感预测。本发明通过合理界定对方面进行情感表达的上下文范围,提高了细粒度情感分析准确度。
-
公开(公告)号:CN111061873B
公开(公告)日:2022-03-15
申请号:CN201911191475.2
申请日:2019-11-28
Applicant: 北京工业大学
IPC: G06F16/35 , G06F40/242 , G06F40/289
Abstract: 本发明涉及一种基于Attention机制的多通道的文本分类方法,首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,其次在每层通道上单独引入Attention机制为每个词创建上下文向量,然后将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度,解决了非连续词之间相关性的问题。
-
公开(公告)号:CN111897949A
公开(公告)日:2020-11-06
申请号:CN202010740782.8
申请日:2020-07-28
Applicant: 北京工业大学
IPC: G06F16/34 , G06F40/126 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。
-
公开(公告)号:CN110990530A
公开(公告)日:2020-04-10
申请号:CN201911190558.X
申请日:2019-11-28
Applicant: 北京工业大学
Abstract: 本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性格分析模型,用模型输出的大五人格权重表示博主性格,给出人物性格对应的大五人格雷达图。通过实施步骤的实验分析,证明了方法的有效性。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。
-
-
-
-
-
-
-
-
-