-
公开(公告)号:CN106897364B
公开(公告)日:2021-02-23
申请号:CN201710020573.4
申请日:2017-01-12
Applicant: 上海大学
Abstract: 本发明涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1)选择CEC2.0语料库作为构建基础,(2)确定指代标注的目标以及标注方式,(3)根据具体的指代目标制定相应的标注规范,(4)CEC2.0语料文本预处理,(5)自动标注事件要素以及事件指代,(6)通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。
-
公开(公告)号:CN102629305B
公开(公告)日:2015-02-25
申请号:CN201210055566.5
申请日:2012-03-06
Applicant: 上海大学
IPC: G06F19/22
Abstract: 本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下:首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率。
-
公开(公告)号:CN101853298B
公开(公告)日:2012-08-15
申请号:CN201010186197.4
申请日:2010-05-26
Applicant: 上海大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向事件的查询扩展方法,其步骤如下:(1)输入查询内容,获取局部文本集合N;(2)从集合N中识别得到事件集合E;(3)分别从查询项中区分事件项Qe和限定项Qe′;(4)计算查询项的事件项Qe与集合E中每个事件的关联强度,从集合E中选择关联强度大的若干个事件添加到Qe中扩展,得到扩展的事件项(5)计算扩展事件项与集合M中的一篇文本d的相似度计算限定项Qe′与集合M中的一篇文本d的相似度为Sim(Qe′,d),计算得到Qexp与集合M中的一篇文本d的相似度为Sim(Qexp,d),依据相似度Sim(Qexp,d)的大小降序排列输出检索文本。该方法使用面向事件的查询扩展技术,区分查询内容中的事件项和限定项,在同样的查询主题上进行信息查询,能显著的提高事件类信息查询结果的准确率。
-
公开(公告)号:CN102629305A
公开(公告)日:2012-08-08
申请号:CN201210055566.5
申请日:2012-03-06
Applicant: 上海大学
IPC: G06F19/22
Abstract: 本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下:首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率。
-
-
公开(公告)号:CN102163301A
公开(公告)日:2011-08-24
申请号:CN201110089790.1
申请日:2011-04-12
Applicant: 上海大学
IPC: G06N3/08
Abstract: 本发明公开了一种基于BP人工神经网络的农作物害虫发生量的预测方法,其步骤如下:(1)采集待预测农作物害虫发生量的原始数据和影响农作物害虫发生影响因子的原始数据;(2)计算原始数据之间关联度,剔除差异大的数据;(3)计算影响农作物害虫发生的影响因子的累计贡献率;(4)利用BP人工神经网络,对农作物害虫发生量进行预测。该方法利用灰色关联度分析方法对农作物害虫发生量的原始数据进行处理,剔除掉误差数据,保证预测模型的稳定性和准确性;并利用主成分分析方法降低了BP人工神经网络输入因子个数,有效地解决了利用BP人工神经网络进行预测时,输入因子少时,其预测准确性低;输入因子多时,运算量大、其预测结果得不到收敛的矛盾。
-
公开(公告)号:CN101957812A
公开(公告)日:2011-01-26
申请号:CN201010290860.5
申请日:2010-09-21
Applicant: 上海大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于事件本体的动词语义信息提取方法。它是首先根据输入的句子得到句子要素数组A;其次利用角色提取规则对句子要素数组A中的动词角色进行提取;接着通过动词和动词角色匹配动词概念的方法确定动词词义;再接着根据时间时态提取规则识别动词的时间和时态信息;最后根据动词角色、动词词义和动词时间时态信息生成动词语义信息。由于本发明基于事件本体,通过匹配动词和动词角色的方法,提高了识别动词的准确率,由于通过动词词义信息、时间时态信息及动词与动词角色间关系信息,生成了丰富的动词语义信息,从而解决了已有技术存在的动词识别准确率低和动词语义表达不足的问题。
-
公开(公告)号:CN106897364A
公开(公告)日:2017-06-27
申请号:CN201710020573.4
申请日:2017-01-12
Applicant: 上海大学
Abstract: 本发明涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1) 选择CEC2.0语料库作为构建基础,(2) 确定指代标注的目标以及标注方式,(3) 根据具体的指代目标制定相应的标注规范,(4) CEC2.0语料文本预处理,(5) 自动标注事件要素以及事件指代,(6) 通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。
-
公开(公告)号:CN106445990A
公开(公告)日:2017-02-22
申请号:CN201610470527.X
申请日:2016-06-25
Applicant: 上海大学
IPC: G06F17/30
Abstract: 本发明涉及一种事件本体构建方法。本方法主要包括以下几个步骤:(1) 获取相关领域的文档,(2) 构建CEC语料库,(3) 通过学习语料库,从文本中抽取事件以及事件各要素,(4) 事件类分类以及非分类关系的抽取,(5) 从归纳得到的事件类、事件类要素、事件类关系,抽象得到其形式化的描述语言,(6) 实现基于事件本体的事件分类关系推理。本发明克服传统本体难以表示动态知识的缺陷,不仅适合于表示静态知识,而且适合于表示动态知识,降低本体中非分类关系的繁杂性,为计算文本语义提供了有效的支持。
-
公开(公告)号:CN102156710A
公开(公告)日:2011-08-17
申请号:CN201110048981.3
申请日:2011-03-02
Applicant: 上海大学
Abstract: 本发明涉及一种基于云模型和TOPSIS法的植物鉴别方法。本发明方法首先构建了植物的外形特征标本数据库;然后利用梯形云模型将被测植物的外观特征与植物的外观特征标本数据库进行比对,得到被测植物与外形特征标本数据库相比的隶属度,实现了被测植物的初步鉴别;当鉴别结果为多个时,再利用正态云模型对检索结果进行精确匹配计算,得到被测植物与外形特征标本数据库相比的精确隶属度;最后利用TOPSIS法对隶属度进行综合评价,鉴别出植物。该方法采用TOPSIS对最后鉴别结果进行综合评价,能够全面、合理、准确地对某几个评价指标进行优劣排序,评价过程清晰、评价结果客观。
-
-
-
-
-
-
-
-
-