-
公开(公告)号:CN117910475A
公开(公告)日:2024-04-19
申请号:CN202211234538.X
申请日:2022-10-10
Applicant: 复旦大学 , 上海高德威智能交通系统有限公司
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06F18/22 , G06F18/241 , G06F18/213
Abstract: 本发明提供一种基于细粒度匹配的零样本关系抽取方法,首先人工设计关系描述,标注对应的头尾实体类别,针对关系描述中多实体类别的情况,提出了基于相关词扩充融合模版句子生成方法,丰富关系描述中的实体类别信息,且拉近编码器与孤立实体类别间的间隔,获得了更好的实体类别表示,提升匹配精度。其次,通过带有梯度反转的分类器和基于自注意力机制的特征提取方法,利用投影蒸馏的去除原始语句中关系无关的冗余信息,获得纯净的关系语义表示,进一步提升匹配精度。最后基于双塔结构的思路,利用cos相似度作为度量指标,对关系描述和原始语句进行细粒度结构化匹配,使实体与实体进行匹配,句子与句子匹配,避免双塔结构预编码特性带来的精度损失。
-
公开(公告)号:CN117909766A
公开(公告)日:2024-04-19
申请号:CN202211235248.7
申请日:2022-10-10
Applicant: 复旦大学 , 上海高德威智能交通系统有限公司
IPC: G06F18/23 , G06F18/214
Abstract: 本发明提供一种基于人工引导的开放信息抽取聚类方法,首先对于预定义关系的标注数据,在聚类空间中拉近相同关系的表示;对于未标注数据,设计了一种针对聚类的标签策略,选择若干点进行标注。然后在聚类空间中将所有点分配给最近的标注点并得到伪标签,基于该伪标签和未标注样本对BERT模型进行关系抽取训练。本发明的基于人工引导的开放信息抽取聚类方法将原来的OpenRE两阶段过程相统一,从而提高模型性能。同时可以有效减轻对未标注样本估计偏差造成较坏影响,可以广泛应用于各种分布的未标注数据。此外,本发明提出的OpenRE两阶段统一框架在该领域内并未采用过,为后续信息抽取聚类具有启发性。
-
公开(公告)号:CN113947692A
公开(公告)日:2022-01-18
申请号:CN202110053388.1
申请日:2021-01-15
Applicant: 复旦大学
IPC: G06V10/762 , G06V10/764 , G06V10/774 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种通过k‑means聚类进行多任务增强的分类系统及方法,用于对待分类图像进行预测得到分类结果,其特征在于,包括:聚类辅助模块利用k‑means聚类方法对小样本训练数据聚类得到多个辅助标签,并构建辅助任务;主任务构建模块针对真实标签构建主任务;特征提取模块进行特征提取得到特征参数;信息交互模块为辅助任务以及主任务构建信息交互通道,并通过预定的参数共享机制将特征参数分为共享层以及私有层;元学习优化模块利用元学习策略学习辅助任务,并在共享层上根据原标签更新主任务,直到达到预定的收敛条件从而得到训练好的图像分类模型;分类预测模块利用图像分类模型对待分类图像分类预测得到分类结果。
-
公开(公告)号:CN107463553B
公开(公告)日:2021-03-30
申请号:CN201710815398.8
申请日:2017-09-12
Applicant: 复旦大学
IPC: G06F40/30 , G06F40/279 , G06F40/247
Abstract: 本发明属于面向数学的自然语言处理技术领域,具体为一种针对初等数学题目的文本语义抽取、表示与建模方法及相应的初等数学题意分析系统。本发明方法为:对输入的数学题目,利用分词词库与正则表达式结合的形式进行分词,对分词后的结果,进行词类转换和词组合并,并利用指代消解对指代词进行目标替换;之后,利用处理得到的信息,借助一阶逻辑进行数学公式的抽取与翻译,得到基于一阶逻辑的数学题目表示;最后,利用深度神经网络对问题中的自然语言与公式进行语义建模与语义融合。本发明提出的有效的初等数学题目表示与建模方法,可以将数学题目转换成可以被计算机处理的语义表示形式,并对数学题目进行更精准的语义建模。
-
公开(公告)号:CN104102630B
公开(公告)日:2017-07-07
申请号:CN201410339719.8
申请日:2014-07-16
Applicant: 复旦大学
IPC: G06F17/28
Abstract: 本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。
-
公开(公告)号:CN102591976A
公开(公告)日:2012-07-18
申请号:CN201210000918.7
申请日:2012-01-04
Applicant: 复旦大学
Abstract: 本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;本还提出基于句子级别的文档拷贝检测系统,该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统,可以高速准确地找出文档集合中包含部分拷贝的文档对,并定位互为拷贝的范围。
-
公开(公告)号:CN116049840B
公开(公告)日:2023-10-20
申请号:CN202210879047.4
申请日:2022-07-25
Abstract: 一种数据保护方法、装置、相关设备及系统,电子设备包括数据保护模型,数据保护模型包括一个编码器、一个混淆器和一个恢复器:其中,混淆器包括N个混淆模块;电子设备通过编码器对用户数据x进行特征抽取,得到特征向量z0,将输入到恢复器和第1混淆模块;电子设备通过恢复器对第i‑1特征向量zi‑1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将δi输入到第i混淆模块;电子设备通过第i混淆模块将第i‑1特征向量zi‑1和第i噪声δi进行叠加,得到第i特征向量zi;其中,i依次从1到N进行取值;在将i的取值加1之后,重新执行通过恢复器对第i‑1特征向量zi‑1进行的步骤,直到i等于所述N。
-
公开(公告)号:CN113947081A
公开(公告)日:2022-01-18
申请号:CN202110029684.8
申请日:2021-01-11
Applicant: 复旦大学
IPC: G06F40/289 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种结合词典的中文命名实体识别系统,用于对待识别句子进行识别得到中文命名实体,其特征在于,包括:词典表示模块将待识别句子转化为字嵌入特征,并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示;序列建模模块利用预定的神经网络对输入表示进行编码得到编码后特征表示;以及解码输出模块基于编码后特征表示利用预定的解码算法对待识别句子进行解码得到中文命名实体。本系统通过词典表示模块结合了完整的词典信息,并且不需要额外对序列建模模块进行设计,从而具有较高的计算速率以及较好的通用性。
-
公开(公告)号:CN107463553A
公开(公告)日:2017-12-12
申请号:CN201710815398.8
申请日:2017-09-12
Applicant: 复旦大学
IPC: G06F17/27
CPC classification number: G06F17/2785 , G06F17/2765 , G06F17/2795
Abstract: 本发明属于面向数学的自然语言处理技术领域,具体为一种针对初等数学题目的文本语义抽取、表示与建模方法及相应的初等数学题意分析系统。本发明方法为:对输入的数学题目,利用分词词库与正则表达式结合的形式进行分词,对分词后的结果,进行词类转换和词组合并,并利用指代消解对指代词进行目标替换;之后,利用处理得到的信息,借助一阶逻辑进行数学公式的抽取与翻译,得到基于一阶逻辑的数学题目表示;最后,利用深度神经网络对问题中的自然语言与公式进行语义建模与语义融合。本发明提出的有效的初等数学题目表示与建模方法,可以将数学题目转换成可以被计算机处理的语义表示形式,并对数学题目进行更精准的语义建模。
-
公开(公告)号:CN104090966A
公开(公告)日:2014-10-08
申请号:CN201410338837.7
申请日:2014-07-16
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/30663 , G06F17/30923 , G06F17/30985
Abstract: 本发明属于信息检索技术领域,具体为一种基于图模型的半结构化数据检索方法。该方法主要包括三个部分:分词词条权重动态设置、属性匹配概率以及字符串相似度计算。本发明基于语言模型的搜索框架Indri,该搜索框架基于狄利克雷平滑,对于处理复杂查询有良好的性能,且具有良好的可扩展性。在应用越来越广泛的导航系统或者LBS(Location Based Service基于地址服务)应用的普及下,该方法参考用户的查询意图,能够改善地图信息检索性能,为用户提供更加精确且高效的体验。本发明方案完全公开,通过本发明的描述,结合现有领域内的技术和资源,本领域技术人员可以实施本技术发明方案,达到本发明技术的效果。
-
-
-
-
-
-
-
-
-