-
公开(公告)号:CN111061873B
公开(公告)日:2022-03-15
申请号:CN201911191475.2
申请日:2019-11-28
Applicant: 北京工业大学
IPC: G06F16/35 , G06F40/242 , G06F40/289
Abstract: 本发明涉及一种基于Attention机制的多通道的文本分类方法,首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,其次在每层通道上单独引入Attention机制为每个词创建上下文向量,然后将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度,解决了非连续词之间相关性的问题。
-
公开(公告)号:CN111897949A
公开(公告)日:2020-11-06
申请号:CN202010740782.8
申请日:2020-07-28
Applicant: 北京工业大学
IPC: G06F16/34 , G06F40/126 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。
-
公开(公告)号:CN110990530A
公开(公告)日:2020-04-10
申请号:CN201911190558.X
申请日:2019-11-28
Applicant: 北京工业大学
Abstract: 本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性格分析模型,用模型输出的大五人格权重表示博主性格,给出人物性格对应的大五人格雷达图。通过实施步骤的实验分析,证明了方法的有效性。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。
-
公开(公告)号:CN110543557A
公开(公告)日:2019-12-06
申请号:CN201910841535.4
申请日:2019-09-06
Applicant: 北京工业大学
Abstract: 本发明提出了一种基于注意力机制的医疗智能问答系统的构建方法。首先采集医疗问答数据,并用Word2vec技术进行向量化表示,对每个问题,从回答数据中选取语义相似度最大的句子作为标准答案,构建医疗知识问答训练库。然后构建基于注意力机制的医疗智能问答系统的深度学习模型:包括利用双向LSTM将问题和回答数据进行语义编码和拼接,并增加注意力机制;拼接后的语义编码输入到双向LSTM中进行特征融合,最后由softmax函数输出标准答案。
-
公开(公告)号:CN110287320A
公开(公告)日:2019-09-27
申请号:CN201910553755.7
申请日:2019-06-25
Applicant: 北京工业大学
Abstract: 本发明涉及一种结合注意力机制的深度学习多分类情感分析模型,属于自然语言处理技术领域,本发明分析了现有CNN网络和LSTM网络在文本情感分析方面的弱点,提出了一种结合注意力机制的深度学习多分类情感分析模型。该模型运用注意力机制将CNN网络提取的局部特征和LSTM模型提取的语序特征相融合,并在分类层采用集成模型的思想,分别将CNN网络和LSTM网络提取的情感特征拼接,作为模型最终提取的情感特征。通过对比实验,发现该模型的准确率有了显著的提高。
-
公开(公告)号:CN109829634B
公开(公告)日:2021-02-26
申请号:CN201910046709.8
申请日:2019-01-18
Applicant: 北京工业大学
IPC: G06Q10/06 , G06Q50/18 , G06F40/289 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明提供了一种自适应的高校专利科研团队的识别方法,属于数据挖掘领域,具体是一种自适应的高校专利科研团队识别方法。主要内容包括:首先对所有专利的全部发明人进行人名频次统计,构建发明人共现矩阵;其次构建专利‑发明人矩阵,将专利‑发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,根据自适应阈值得到聚类的簇,将簇作为候选专利团队,利用特定规则,对候选专利科研团队进行分类和验证;最后利用主题生成模型对专利科研团队中的专利题目和摘要进行处理,根据处理后的发明内容,对专利进行语义聚类,并将聚类结果用于专利科研子团队识别。
-
公开(公告)号:CN109766452A
公开(公告)日:2019-05-17
申请号:CN201910046869.2
申请日:2019-01-18
Applicant: 北京工业大学
Abstract: 本发明针对人物性格分析问题,提出了一种基于社交数据的人物性格分析方法。主要内容包括:对微博语料进行预处理;建立性格-表情符号词典、性格-表情数量词典、性格-词类别词典、性格-文本情感词典、性格-配图数量词典、性格-配图结构词典;进行表情分析、文本分析、配图分析以及博文情感倾向概括分析,最后通过给出人物性格的大五人格雷达图,来表示人物性格。本专利按照大五人格将社交用户的性格进行归类,对社交中用户的不同表情、表达方式、配图以及情绪进行数据分析,给出人物性格对应的大五人格雷达图。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。
-
公开(公告)号:CN109670136A
公开(公告)日:2019-04-23
申请号:CN201811633421.2
申请日:2018-12-29
Applicant: 北京工业大学
IPC: G06F16/958 , G06F16/35 , G06F16/9535
Abstract: 本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。
-
-
-
-
-
-
-