一种基于循环神经网络的社区问答专家推荐方法

    公开(公告)号:CN108021616B

    公开(公告)日:2020-08-14

    申请号:CN201711077790.3

    申请日:2017-11-06

    Abstract: 本发明公开了一种基于循环神经网络的社区问答专家推荐方法,其包括:对数据进行预处理;对所述问答社区所对应的全部用户进行候选专家筛选;构建各所述候选专家所对应的专家用户档案;基于特定领域知识的词向量训练获得词向量查找表;基于循环神经网络模型进行特征表示学习并构建社区问答专家推荐模型;基于构建社区问答专家推荐模型,确定待处理问答社区中的新的问题所对应的专家推荐顺序。本发明能有效地表示句子的语法和语义信息并且能够挖掘句子级别的高层次特征,减少了人工干预,并能进行自动的训练和学习。

    一种基于候选事件元素注意力机制的生物事件抽取方法

    公开(公告)号:CN108897989A

    公开(公告)日:2018-11-27

    申请号:CN201810572450.6

    申请日:2018-06-06

    Abstract: 本发明涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。

    一种基于文档级别注意力机制的事件触发词抽取方法

    公开(公告)号:CN108829801A

    公开(公告)日:2018-11-16

    申请号:CN201810572351.8

    申请日:2018-06-06

    CPC classification number: G06N3/0454

    Abstract: 本发明涉及一种事件触发词抽取方法,一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建样本的分布式表示方式,(4)构造基于BiLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)事件触发词的抽取。本发明方法具有以下优点:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM-Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,提高触发词识别效果。

    一种基于社交媒体文本的大五人格预测方法

    公开(公告)号:CN108399575A

    公开(公告)日:2018-08-14

    申请号:CN201810067066.0

    申请日:2018-01-24

    CPC classification number: G06Q50/01 G06N3/0454

    Abstract: 一种基于社交媒体文本的大五人格预测方法,包括A、预处理、B、用户特征抽取、C、大五人格预测模型建立及训练、D、预测用户大五人格四个步骤。本发明基于机器学习方法和用户在社交媒体发布的文本信息挖掘用户的大五人格性格偏好,进而实现精准的用户画像,为个性化搜索和推荐奠定技术基础。

    一种基于词向量的问题路由方法

    公开(公告)号:CN104636456B

    公开(公告)日:2018-01-23

    申请号:CN201510057352.5

    申请日:2015-02-03

    Abstract: 本发明涉及一种问题路由方法,一种基于词向量的问题路由方法,包括以下步骤:步骤1、用户档案的构建;步骤2、数据预处理;步骤3、词向量的训练;步骤4、文档向量的表示;步骤5、用户权威度的计算;步骤6、用户活跃度的计算;步骤7、候选回答者排序;本发明利用word2vec训练数据效率高,词向量具有叠加性,克服了文档之间没有共现词相似度为0的缺点;同时抽取文档主题词,用词向量表示文档向量,综合计算权威度和活跃度,以及文档向量之间的相似度,既考虑了文档之间的语义信息,又减少了噪音。分别与经典的TF_IDF和Language Model进行了对比实验,本发明方法的S@N均高于其他两种方法。

    一种基于句法词向量的生物医学事件触发词识别方法

    公开(公告)号:CN104965819B

    公开(公告)日:2017-12-26

    申请号:CN201510405109.8

    申请日:2015-07-12

    Abstract: 本发明涉及一种识别方法,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别。本发明利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。

    一种面向大数据的潜在药物不良反应数据挖掘方法

    公开(公告)号:CN104765947B

    公开(公告)日:2017-12-26

    申请号:CN201510093861.3

    申请日:2015-03-02

    Inventor: 林鸿飞 赵明珍

    Abstract: 一种面向大数据的潜在药物不良反应数据挖掘方法,该方法包括以下步骤:A、抓取 药物不良事件报告;B、对药物不良事件数据集的药物不良事件报告进行数据预处理;C、药名标准化;D、过滤已知不良反应;E、关联度计算;F、关联度排序。本发明适用于潜在药物不良反应的挖掘工作,不限于药物的种类;能够有效的发现上市药物的安全隐患,对提升用药者的健康水平具有重要的意义。

    一种基于特征自动学习的生物医学事件触发词识别方法

    公开(公告)号:CN105512209A

    公开(公告)日:2016-04-20

    申请号:CN201510848996.6

    申请日:2015-11-28

    CPC classification number: G06F17/30705 G06F17/30737 G06F19/24 G06F2216/03

    Abstract: 本发明涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发词分类。本发明方法具有以下优点:一是,简化了对数据的复杂预处理,省去了人工进行特征设计的繁琐步骤;二是,引入了领域知识,有效地利用了大量未标注语料等外部资源;三是,使用卷积神经网络进行特征的自动学习,不仅减少了人工干预,而且能够挖掘和探索到更深层次的句子级别特征,并通过融合局部特征,发现了隐含的全局特征,有助于识别触发词类别;四是,本发明方法在MLEE语料上得到了较好的实验结果,事件触发词检测的整体性能有所提高。

    一种基于词矢量的短文本查询扩展及检索方法

    公开(公告)号:CN104765769A

    公开(公告)日:2015-07-08

    申请号:CN201510103341.6

    申请日:2015-03-06

    Inventor: 林鸿飞 王琳

    Abstract: 一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。

Patent Agency Ranking