一种基于跨明文与密文的混合搜索系统

    公开(公告)号:CN104572827A

    公开(公告)日:2015-04-29

    申请号:CN201410743749.5

    申请日:2014-12-08

    CPC classification number: G06F17/30238 G06F21/6209

    Abstract: 本发明涉及一种基于跨明文与密文的混合搜索系统。所述系统包括数据集纵向切分装置,明文搜索装置,密文搜索装置,搜索结果结合装置。搜索结果结合装置还包括重新分组单元和重新排名单元。数据集纵向切分装置根据数据集中的属性值是否需要加密,对数据集进行纵向切分,得到明文数据集与密文数据集;明文搜索装置对明文数据集进行排名搜索得到排名搜索结果;密文搜索装置对密文数据集进行基于倒排索引的加密搜索,快速得到精确匹配搜索结果;搜索结果结合装置对排名搜索结果与精确匹配搜索结果进行重新结合,得到最终的新排名搜索结果。本发明能够在保护个人隐私的基础上,既能快速得到搜索结果,还可对搜索结果排名,得到更具价值的搜索结果。

    一种基于深度学习的中文电子病历概念抽取方法

    公开(公告)号:CN106484674B

    公开(公告)日:2020-09-25

    申请号:CN201610835901.1

    申请日:2016-09-20

    Abstract: 本发明公开一种基于深度学习的中文电子病历概念抽取方法,包括:利用多层稀疏自动编码器的深层架构训练出目标词的上下文分布式特征,之后合并本身具有高级概念意义的实体特征——标记特征和词性特征为整体特征,将整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。

    一种基于文档类型的实体识别合作学习算法

    公开(公告)号:CN104978587B

    公开(公告)日:2018-06-01

    申请号:CN201510409514.7

    申请日:2015-07-13

    Abstract: 一种基于文档类型的实体识别合作学习算法,算法包括:模型构建模块和模型应用。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学习和协同训练算法,同时在数据集预处理过程中进行了基于文档类型的数据集切分,考虑了数据集的多样性。在模型构建过程中,利用稀疏标记数据作为训练数据,并且应用了多个基础算法,以集成学习模式对其进行集成,考虑了算法的多样性。结合了多种技术,考虑了算法和数据集的多样性,确保本发明在实体识别任务上能取得令人满意的效果。

    一种基于深度学习的中文电子病历概念抽取方法

    公开(公告)号:CN106484674A

    公开(公告)日:2017-03-08

    申请号:CN201610835901.1

    申请日:2016-09-20

    Abstract: 本发明公开一种基于深度学习的中文电子病历概念抽取方法,包括:利用多层稀疏自动编码器的深层架构训练出目标词的上下文分布式特征,之后合并本身具有高级概念意义的实体特征——标记特征和词性特征为整体特征,将整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。

    一种基于二次筛选的高效率异常时序数据提取方法

    公开(公告)号:CN106228002A

    公开(公告)日:2016-12-14

    申请号:CN201610567961.X

    申请日:2016-07-19

    CPC classification number: G06F19/3418

    Abstract: 本发明公开一种高效率时序数据异常提取方法,用于从心电图数据(ECG)中查找异常,检测心脏病。该方法包括:系统中距离函数采用DTW距离代替传统的Euclidean距离,减小相移误差;将原始时序数据(ECG)通过SAX技术映射成一系列字符串序列存储在数据结构Array数组和Trie三叉树中;通过Array数组和Trie三叉树找出最有可能的异常序列作为候选异常;通过二次筛选在ECG数据中找出第一个候选异常的最近邻距离,作为第一阈值距离;通过嵌套的内外循环验证该候选异常即为最终要找的异常,否则更新候选异常;内外循环执行完后最终得到ECG数据中的异常时序。本发明的技术方案,解决了因DTW距离冗余度过高导致难以在大量ECG数据中实现快速精确查找异常的难题。

    一种基于二次筛选的高效率异常时序数据提取方法

    公开(公告)号:CN106228002B

    公开(公告)日:2021-11-26

    申请号:CN201610567961.X

    申请日:2016-07-19

    Abstract: 本发明公开一种高效率时序数据异常提取方法,用于从心电图数据(ECG)中查找异常,检测心脏病。该方法包括:系统中距离函数采用DTW距离代替传统的Euclidean距离,减小相移误差;将原始时序数据(ECG)通过SAX技术映射成一系列字符串序列存储在数据结构Array数组和Trie三叉树中;通过Array数组和Trie三叉树找出最有可能的异常序列作为候选异常;通过二次筛选在ECG数据中找出第一个候选异常的最近邻距离,作为第一阈值距离;通过嵌套的内外循环验证该候选异常即为最终要找的异常,否则更新候选异常;内外循环执行完后最终得到ECG数据中的异常时序。本发明的技术方案,解决了因DTW距离冗余度过高导致难以在大量ECG数据中实现快速精确查找异常的难题。

    基于WordNet以及潜在语义分析的文本分类方法

    公开(公告)号:CN105045913B

    公开(公告)日:2018-08-28

    申请号:CN201510502389.4

    申请日:2015-08-14

    Abstract: 基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。

    一种基于跨明文与密文的混合搜索系统

    公开(公告)号:CN104572827B

    公开(公告)日:2017-12-15

    申请号:CN201410743749.5

    申请日:2014-12-08

    Abstract: 本发明涉及一种基于跨明文与密文的混合搜索系统。所述系统包括数据集纵向切分装置,明文搜索装置,密文搜索装置,搜索结果结合装置。搜索结果结合装置还包括重新分组单元和重新排名单元。数据集纵向切分装置根据数据集中的属性值是否需要加密,对数据集进行纵向切分,得到明文数据集与密文数据集;明文搜索装置对明文数据集进行排名搜索得到排名搜索结果;密文搜索装置对密文数据集进行基于倒排索引的加密搜索,快速得到精确匹配搜索结果;搜索结果结合装置对排名搜索结果与精确匹配搜索结果进行重新结合,得到最终的新排名搜索结果。本发明能够在保护个人隐私的基础上,既能快速得到搜索结果,还可对搜索结果排名,得到更具价值的搜索结果。

    一种基于多源语义分析的信息检索方法

    公开(公告)号:CN106156272A

    公开(公告)日:2016-11-23

    申请号:CN201610451523.7

    申请日:2016-06-21

    CPC classification number: G06F16/903

    Abstract: 本发明公开一种多源语义分析的信息检索方法,包括:文档的采集及其预处理;利用LDA模型对文档建模,并建立倒排索引;用户初始查询的获取及其预处理;根据查询词项是否为专业医学词汇进行多维度分析并基于WordNet和UMLS Metathesaurus对其加权进行查询扩展;计算查询扩展词集与LDA降维后的文档之间的相似度并按相似度的大小递减排序,提取不低于预设阈值的文档返回给用户。本发明综合WordNet和UMLS Metathesaurus的特点,对初始查询进行多维度分析加权扩展,能够更为精准的理解用户的查询意图,并利用LDA模型对文档集进行建模,分析出词项在隐主题层面对文档的表征能力,提高了用户对文档检索的性能。

    基于WordNet以及潜在语义分析的文本分类方法

    公开(公告)号:CN105045913A

    公开(公告)日:2015-11-11

    申请号:CN201510502389.4

    申请日:2015-08-14

    CPC classification number: G06F17/3071

    Abstract: 基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。

Patent Agency Ranking