-
公开(公告)号:CN108829801A
公开(公告)日:2018-11-16
申请号:CN201810572351.8
申请日:2018-06-06
Applicant: 大连理工大学
CPC classification number: G06N3/0454
Abstract: 本发明涉及一种事件触发词抽取方法,一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建样本的分布式表示方式,(4)构造基于BiLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)事件触发词的抽取。本发明方法具有以下优点:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM-Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,提高触发词识别效果。
-
公开(公告)号:CN108399575A
公开(公告)日:2018-08-14
申请号:CN201810067066.0
申请日:2018-01-24
Applicant: 大连理工大学
CPC classification number: G06Q50/01 , G06N3/0454
Abstract: 一种基于社交媒体文本的大五人格预测方法,包括A、预处理、B、用户特征抽取、C、大五人格预测模型建立及训练、D、预测用户大五人格四个步骤。本发明基于机器学习方法和用户在社交媒体发布的文本信息挖掘用户的大五人格性格偏好,进而实现精准的用户画像,为个性化搜索和推荐奠定技术基础。
-
公开(公告)号:CN104636456B
公开(公告)日:2018-01-23
申请号:CN201510057352.5
申请日:2015-02-03
Applicant: 大连理工大学
IPC: G06F17/30
Abstract: 本发明涉及一种问题路由方法,一种基于词向量的问题路由方法,包括以下步骤:步骤1、用户档案的构建;步骤2、数据预处理;步骤3、词向量的训练;步骤4、文档向量的表示;步骤5、用户权威度的计算;步骤6、用户活跃度的计算;步骤7、候选回答者排序;本发明利用word2vec训练数据效率高,词向量具有叠加性,克服了文档之间没有共现词相似度为0的缺点;同时抽取文档主题词,用词向量表示文档向量,综合计算权威度和活跃度,以及文档向量之间的相似度,既考虑了文档之间的语义信息,又减少了噪音。分别与经典的TF_IDF和Language Model进行了对比实验,本发明方法的S@N均高于其他两种方法。
-
公开(公告)号:CN104965819B
公开(公告)日:2017-12-26
申请号:CN201510405109.8
申请日:2015-07-12
Applicant: 大连理工大学
Abstract: 本发明涉及一种识别方法,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别。本发明利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
-
-
公开(公告)号:CN105677907A
公开(公告)日:2016-06-15
申请号:CN201610087487.0
申请日:2016-02-16
Applicant: 大连理工大学
CPC classification number: G06F17/30699 , G06F17/30292 , G06F17/30336 , G06F17/30536 , G06F17/30598 , G06F17/30657 , G06F17/30666 , G06F17/30864 , G06Q50/184
Abstract: 一种专利技术演化分析方法及系统,包括以下步骤:S1:专利数据采集;S2、专利信息抽取;S3、技术发展阶段自动化分;S4、技术演化分析:S5技术发展趋势预测。本发明通过将专利摘要、申请日等专利信息的关键信息进行提取,将其作为有序聚类的样本向量并利用有序聚类方法客观的自动划分技术的发展阶段;显示技术的动态演化过程,即技术的产生、发展、高潮直至消亡的过程;预测技术的发展趋势,帮助实施技术战略规划。可使公众更加方便直观的了解技术的发展过程及未来的趋势。
-
公开(公告)号:CN105512209A
公开(公告)日:2016-04-20
申请号:CN201510848996.6
申请日:2015-11-28
Applicant: 大连理工大学
CPC classification number: G06F17/30705 , G06F17/30737 , G06F19/24 , G06F2216/03
Abstract: 本发明涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发词分类。本发明方法具有以下优点:一是,简化了对数据的复杂预处理,省去了人工进行特征设计的繁琐步骤;二是,引入了领域知识,有效地利用了大量未标注语料等外部资源;三是,使用卷积神经网络进行特征的自动学习,不仅减少了人工干预,而且能够挖掘和探索到更深层次的句子级别特征,并通过融合局部特征,发现了隐含的全局特征,有助于识别触发词类别;四是,本发明方法在MLEE语料上得到了较好的实验结果,事件触发词检测的整体性能有所提高。
-
公开(公告)号:CN104765769A
公开(公告)日:2015-07-08
申请号:CN201510103341.6
申请日:2015-03-06
Applicant: 大连理工大学
IPC: G06F17/30
Abstract: 一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。
-
公开(公告)号:CN111966827B
公开(公告)日:2024-06-11
申请号:CN202010724469.5
申请日:2020-07-24
Applicant: 大连理工大学
IPC: G06F16/35 , G06F16/335 , G06F40/211 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/084 , G06F16/332
Abstract: 一种基于异构二部图的对话情感分析方法,属于数据挖掘技术领域,用以解决对话文本中用户的情绪识别任务的问题,要点是包括S1、中文对话情感分析数据集的构建;S2、构建基于依存关系的异构二部图;S3、构建并拼接文本的语义表示和句法表示;S4、利用文本分类模型预测情感极性,效果是将对话文本的依存关系表示为异构二部图形式,与经典的情感分析模型相结合建模文本的语义和句法特征,在对话情感分析任务上实现了优秀的预测性能。
-
公开(公告)号:CN112597271B
公开(公告)日:2024-04-26
申请号:CN202011103541.9
申请日:2020-10-15
Applicant: 大连理工大学
IPC: G06F16/33 , G06F16/35 , G06F16/951 , G06F18/25 , G06F18/2411
Abstract: 一种面向庭审过程中刑事案件审判被告人态度预测的方法,属于智能司法的领域,用于对刑事案件审判被告人态度进行预测,要点是包括S1、庭审数据的获取与解析;S2、数据规整及标注对齐;S3、庭审过程多模态信息的抽取与拓展;S4、利用多模态信息对刑事案件审判被告人态度进行预测。效果是针对智能司法中的庭审过程,构建了从原始数据获取、特征工程、模型构建等完整的流程框架,在刑事案件审判被告人态度预测任务上实现了较好的预测性能。
-
-
-
-
-
-
-
-
-