-
公开(公告)号:CN109086269B
公开(公告)日:2020-08-21
申请号:CN201810796931.5
申请日:2018-07-19
Applicant: 大连理工大学
IPC: G06F40/247 , G06F16/00 , G06K9/62
Abstract: 一种基于语义资源词表示和搭配关系的语义双关语识别方法,属于自然语言处理领域,用于解决双关语识别问题。识别方法包括:S1预处理语义双关语语料;S2构建基于语义资源词表示模型;S3使用Bi‑LSTM识别语义双关语;S4构建基于搭配关系的注意力机制模型;S5、融合语义上下文信息和搭配信息;S6构建离线训练模型;S7在线预测。本发明从语义双关语的特点进行出发,是一种可以完善其多个含义并补充其搭配关系的基于语义资源词表示和搭配关系的语义双关语识别方法,可以有效提升识别的性能。
-
公开(公告)号:CN109086269A
公开(公告)日:2018-12-25
申请号:CN201810796931.5
申请日:2018-07-19
Applicant: 大连理工大学
Abstract: 一种基于语义资源词表示和搭配关系的语义双关语识别方法,属于自然语言处理领域,用于解决双关语识别问题。识别方法包括:S1预处理语义双关语语料;S2构建基于语义资源词表示模型;S3使用Bi-LSTM识别语义双关语;S4构建基于搭配关系的注意力机制模型;S5、融合语义上下文信息和搭配信息;S6构建离线训练模型;S7在线预测。本发明从语义双关语的特点进行出发,是一种可以完善其多个含义并补充其搭配关系的基于语义资源词表示和搭配关系的语义双关语识别方法,可以有效提升识别的性能。
-
公开(公告)号:CN109034908A
公开(公告)日:2018-12-18
申请号:CN201810892082.3
申请日:2018-08-07
Applicant: 大连理工大学
IPC: G06Q30/02
CPC classification number: G06Q30/0202
Abstract: 一种结合排序学习的电影排名预测方法,属于数据挖掘技术领域,用于对电影的排名进行预测,要点是包括S1、电影数据获取与解析;S2、多类电影特征的抽取与拓展;S3、数据规整及标注对齐;S4、数据格式化以及评价指标领域化迁移;S5、利用排序学习模型预测电影排名结果。本发明针对电影排名预测主题,构建了从原始数据获取、特征工程、模型构建等完整的技术方案,提高了电影排名预测的性能。
-
公开(公告)号:CN108491407A
公开(公告)日:2018-09-04
申请号:CN201810067067.5
申请日:2018-01-24
Applicant: 大连理工大学
Abstract: 一种面向代码检索的查询扩展方法,包括:A、语料采集和预处理;B、初次检索获取候选扩展词;C、查询扩展词集提取;D、基于扩展查询的二次检索。本发明基于查询词与扩展词的共现信息和扩展词在代码文件内的分布信息实现有效的面向代码检索的查询扩展,有助于改善现有代码检索中查询与代码片段的匹配问题,提升代码检索中扩展查询的质量和代码检索的整体性能。当将本发明应用于真实代码检索场景时,代码检索的准确率可以达到35.34%,显著提升现有代码检索方法的性能,有助于实现代码检索中查询意图的精确理解。
-
公开(公告)号:CN108460013A
公开(公告)日:2018-08-28
申请号:CN201810120922.4
申请日:2018-01-30
Applicant: 大连理工大学
Abstract: 本发明提供了一种基于细粒度词表示模型的序列标注模型,用于进行序列标注任务,属于计算机应用及自然语言处理领域。本发明的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时,首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后由Finger与BiLSTM-CRF模型共同完成序列标注任务,最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明本发明设计的Finger模型显著提升序列标注系统的召回率,从而使得模型的识别能力显著提升。
-
公开(公告)号:CN104866554B
公开(公告)日:2018-04-27
申请号:CN201510246503.1
申请日:2015-05-15
Applicant: 大连理工大学
IPC: G06F17/30
Abstract: 一种基于社会化标注的个性化搜索方法及系统,该方法包括以下步骤:A、预处理网页内容:B、在提取内容集中提取相关向量:C、计算用户相似度:D、选取相似用户E、计算用户对文档的个性化标签向量F、计算用户的扩展属性向量;G、文档打分及排序;本发明的搜索方法及系统通过用户给出的标签深度挖掘用户的偏好兴趣,即从网页用户的标注信息出发,使用用户主动公开的信息进行个性化优化,避免了隐私和冷启动的问题,完全基于用户本身进行考虑,较好地提升了搜索的准确度。
-
公开(公告)号:CN104765769B
公开(公告)日:2018-04-27
申请号:CN201510103341.6
申请日:2015-03-06
Applicant: 大连理工大学
IPC: G06F17/30
Abstract: 一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。
-
公开(公告)号:CN106056209A
公开(公告)日:2016-10-26
申请号:CN201610346162.X
申请日:2016-05-23
Applicant: 大连理工大学
CPC classification number: G06N3/0454 , G06F17/30864 , G06N3/084 , G06N3/126
Abstract: 一种基于循环神经网络的查询词项权重学习方法,包括S1、搜索最优词项权重、S2、构造查询词项特征向量、S3、构建查询词项权重学习模型、S4、利用查询词项权重学习模型预测查询词项权重。本发明将查询词项权重预测问题转换为序列标注问题,创新性地提出了一种基于循环神经网络的查询词项权重学习方法,实现了自动和高效地对查询词项权重进行预测,在数据集上的主要评价指标MAP上提高幅度分别为16.8%(Robust04)和11.8%(GOV2),验证了本发明方法对查询词项权重学习任务的有效性。
-
公开(公告)号:CN104965819A
公开(公告)日:2015-10-07
申请号:CN201510405109.8
申请日:2015-07-12
Applicant: 大连理工大学
Abstract: 本发明涉及一种识别方法,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别。本发明利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
-
公开(公告)号:CN104881401A
公开(公告)日:2015-09-02
申请号:CN201510278103.9
申请日:2015-05-27
Applicant: 大连理工大学
IPC: G06F17/27
Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
-
-
-
-
-
-
-
-
-