-
公开(公告)号:CN109344403A
公开(公告)日:2019-02-15
申请号:CN201811101553.0
申请日:2018-09-20
Applicant: 中南大学
IPC: G06F17/27
Abstract: 本发明公开了一种增强语义特征嵌入的文本表示方法,包括以下步骤:S1、文本预处理;S2、对经预处理后的文本中的每个句子进行语义特征抽取,并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列;将语义特征序列作为输入,利用词向量模型对语义特征序列进行训练,获得各个语义特征的向量模型;S3、将各个句子的绝对位置信息依次映射到同一个滑动窗口向量空间内,得到句子的位置向量模型;S4、将各个增强的特征向量模型进行融合,最终获得增强语义特征向量模型。本发明在自然语言处理任务中,如情感分析、文本摘要等,相比于现有的文本嵌入方法,应用增强语义特征的文本嵌入方法可以显著提高在这些任务上的表现。
-
公开(公告)号:CN106096331B
公开(公告)日:2018-09-18
申请号:CN201610406670.2
申请日:2016-06-12
Applicant: 中南大学
IPC: G06F19/18
Abstract: 本发明公开了一种lncRNA和疾病联系的方法,根据多种异构数据(lncRNA‑疾病关系数据,蛋白质相互作用数据、lncRNA‑蛋白质相互作用数据等)构建一个全局异构网络,然后通过网络传播算法来识别可能的lncRNA和疾病的联系。本发明与现有的技术相比,除了考虑实验证实的lncRNA和疾病的联系外,还可以集成更多的生物数据,比如集成lnRNA‑蛋白质、蛋白质‑蛋白质相互作用和蛋白质‑疾病等之间联系。本发明通过融合更多的生物数据可以比以前的技术更准确的预测出lncRNA和疾病的联系,并且可以大规模的一次预测出多对lncRNA‑疾病之间的联系,有效的解决了生物实验方法的盲目性、成本高的问题。
-
公开(公告)号:CN107644678A
公开(公告)日:2018-01-30
申请号:CN201710948274.7
申请日:2017-10-12
Applicant: 中南大学
Abstract: 本发明公开一种基于网络推断算法预测微生物和疾病关系的方法,根据已知的微生物-疾病关系数据,通过一种改进的基于网络的推断(network-based inference)算法来预测潜在的微生物和疾病之间的关系。留一交叉验证实验表明,应用本发明的方法在预测新的微生物和疾病的关系上表现出良好的性能。本发明是一种基于全局的计算方法,因此可以大规模地预测出多对微生物-疾病之间的关系,并且能够有效地解决生物实验方法的盲目性、成本高的问题。
-
公开(公告)号:CN104750844B
公开(公告)日:2016-03-02
申请号:CN201510165395.5
申请日:2015-04-09
Applicant: 中南大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。
-
公开(公告)号:CN104750844A
公开(公告)日:2015-07-01
申请号:CN201510165395.5
申请日:2015-04-09
Applicant: 中南大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。
-
公开(公告)号:CN102024065B
公开(公告)日:2013-01-02
申请号:CN201110021002.5
申请日:2011-01-18
Applicant: 中南大学
Abstract: 本发明公开了一种基于SIMD优化的网页去重并行方法,包括以下步骤:步骤1:网页文本信息提取步骤:该过程用于将网页有效信息提取出来;步骤2:Shingle提取步骤:该过程用于提取网页特征,并生成Shingles集合;步骤3:聚类步骤:该过程用于降低比对次数,减小时间和空间复杂度;步骤4:指纹比对步骤:该过程用于寻找出相似网页,将相似的网页剔除。该基于SIMD优化的网页去重并行方法能在保证查准率和查全率的同时,有效地提高网页相似度检测的速率。
-
公开(公告)号:CN109933670A
公开(公告)日:2019-06-25
申请号:CN201910209354.X
申请日:2019-03-19
Applicant: 中南大学
Abstract: 本发明公开了一种基于组合矩阵计算语义距离的文本分类方法,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。本发明提出的文本向量的表示和语义距离的计算方法,既克服了传统的词袋模型的缺陷,也改善了TF-IDF算法的不足,从而可以训练出更好的分类模型来提升文本分类的准确性。
-
公开(公告)号:CN109242024A
公开(公告)日:2019-01-18
申请号:CN201811070256.4
申请日:2018-09-13
Applicant: 中南大学
IPC: G06K9/62
Abstract: 本发明提供一种基于卡口数据的车辆行为相似度计算方法,首先收集移动对象通过各卡口的数据信息并建立数据库,然后在数据库中检索A、B车辆的卡口数据以形成两车的原始轨迹,对原始轨迹进行清洗和切割进而得到关于A、B车辆子轨迹的集合,然后根据LCSS算法对两个集合中的子轨迹进行两两比对,通过计算得到任意两条子轨迹间的最长公共子序列以及两车经过最长公共子序列中相邻卡口的时间差,得到两条子轨迹间的相似度,最后利用所有相似度数据进行多轨迹相似度计算,所得结果视为两车间的行为相似度。本发明在计算中引入了时间影响因子,所得结果更加精确且适用范围更广,同时还将轨迹相似度结果用于对车辆行为相似程度的判断。
-
-
公开(公告)号:CN106547602A
公开(公告)日:2017-03-29
申请号:CN201611129468.6
申请日:2016-12-09
Applicant: 中南大学
Abstract: 本发明公开了一种适用于iSCSI协议远程无线加载的操作系统镜像的制作方法,包括步骤:在服务器端配置iSCSI服务并安装供远程加载的操作系统,在已加载实例操作系统的终端上,修改实例操作系统的RAMDISK虚拟文件系统,在RAMDISK虚拟文件系统中驱动无线网卡,连接到指定的无线网络,完成操作系统镜像通过iSCSI协议无线加载过程。本发明解决了操作系统镜像无法通过iSCSI协议远程无线加载的难题,扩展了操作系统远程加载技术的应用范围。
-
-
-
-
-
-
-
-
-