-
公开(公告)号:CN113946696A
公开(公告)日:2022-01-18
申请号:CN202110016787.0
申请日:2021-01-07
Applicant: 复旦大学
Abstract: 本发明提供了一种知识感知的序列到树的数学应用题求解系统,用于对待分析应用题文本进行处理与推理得到对应的数学表达式,其特征在于,包括:问题编码模块利用预定的第一神经网络对待分析应用题文本进行编码得到编码后问题向量;实体图构建模块在预定的包含常识信息的外部知识库中对待分析应用题文本进行检索,得到对应的实体三元组,并基于该实体三元组构建实体图;知识表示生成模块基于编码后问题向量以及实体图利用预定的第二神经网络获取认识到知识的知识表示;树形解码模块基于编码后问题向量以及知识表示利用预定的第三神经网络生成数学表达式树。本系统融合了应用题中未出现的常识信息,从而提高了数学表达式的精准性。
-
公开(公告)号:CN104102630A
公开(公告)日:2014-10-15
申请号:CN201410339719.8
申请日:2014-07-16
Applicant: 复旦大学
IPC: G06F17/28
Abstract: 本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。
-
公开(公告)号:CN102591978A
公开(公告)日:2012-07-18
申请号:CN201210001424.0
申请日:2012-01-05
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于电子文本拷贝检测技术领域,具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务,每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引,从而使得每个子任务可以在单独的节点上运行,减小了网络开销。系统基于Map-Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架,具有良好的可扩展性,适合处理大规模文本集上的拷贝检测,电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上。
-
公开(公告)号:CN118095432A
公开(公告)日:2024-05-28
申请号:CN202410178013.1
申请日:2024-02-08
Applicant: 北京有竹居网络技术有限公司 , 复旦大学
Abstract: 本公开的实施例涉及信息处理的方法、装置、设备和存储介质。在此提出的方法包括:获取样本问题和用于求解样本问题的策略信息;通过拆分策略信息,确定与样本问题的至少一个中间求解状态对应的推理过程;通过组合样本问题和推理过程,生成至少一个输入样本;以及基于至少一个输入样本和至少一个样本问题的答案信息,调整目标模型。
-
公开(公告)号:CN101859321A
公开(公告)日:2010-10-13
申请号:CN201010179377.X
申请日:2010-05-20
Applicant: 复旦大学
Abstract: 本发明属于网页信息抽取技术领域,具体是一种基于HTML数据流处理的数据采集方法和系统。它由多线程收集器和下载控制模板以及数据存储系统构成。多线程收集器保证了工作速度,下载控制模板保证了工作的准确性。本系统可以在通过简单的模板配置,完成对使用人需要的网络数据的采集。实际应用表明本发明具有良好的稳定性,高度的实用性以及高效的效率。
-
公开(公告)号:CN101004761A
公开(公告)日:2007-07-25
申请号:CN200710036309.6
申请日:2007-01-10
Applicant: 复旦大学
Abstract: 本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类算法,将文本聚两类;并逐次二分,直到满足要求,对图不再做切分为止。本发明方法分类效果好,速度快,优于目前常用的谱聚类算法和K-means算法。
-
公开(公告)号:CN117910474A
公开(公告)日:2024-04-19
申请号:CN202211234524.8
申请日:2022-10-10
Applicant: 复旦大学 , 上海高德威智能交通系统有限公司
IPC: G06F40/30 , G06F18/241 , G06N3/0499 , G06N3/084
Abstract: 本发明提供一种基于跨文档语义增强的实体识别方法,首先将文档的布局信息输入掩码生成层,基于可学习的注意力掩码机制获取对应的注意力掩码;其次将原始文本、图像和布局信息输入到特征提取网络,综合注意力掩码,得到每个词的词特征表示;然后将每个词的词特征表示存储至倒排索引中,在倒排索引中查询当前词的相关项,与当前词的词特征表示进行融合,得到该当前词的最终词特征表示;最后通过将每个词的最终词特征表示输入至分类器,输出在各个实体类别上的概率分布,从而判断词的实体类别。本发明的文档实体识别方法能够有效过滤当前文档中无关冗余信息,增强对视觉文档的理解能力,有助于模型进行实体识别,从而提高模型性能。
-
公开(公告)号:CN113947083A
公开(公告)日:2022-01-18
申请号:CN202110155109.2
申请日:2021-02-04
Applicant: 复旦大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种文档级别命名实体识别方法,通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系,首先使用键值记忆网络来记录第一阶段模型预测的草稿标签,然后基于键值记忆网络存储的相同词的上下文和草稿标签信息,使用双通道Transformer对草稿标签进行修正。因此,通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性,从而减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
-
公开(公告)号:CN100495405C
公开(公告)日:2009-06-03
申请号:CN200710036309.6
申请日:2007-01-10
Applicant: 复旦大学
Abstract: 本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类算法,将文本聚两类;并逐次二分,直到满足要求,对图不再做切分为止。本发明方法分类效果好,速度快,优于目前常用的谱聚类算法和K-means算法。
-
公开(公告)号:CN119830988A
公开(公告)日:2025-04-15
申请号:CN202411900790.9
申请日:2024-12-20
Applicant: 复旦大学
IPC: G06N3/09 , G06N3/092 , G06N3/045 , G06N5/04 , G06F16/3329
Abstract: 本申请涉及计算机技术领域,公开了一种模型训练方法、电子设备、存储介质及程序产品。该方法中,用于训练第一大语言模型的第一训练样本包括用户指令、用户指令对应的至少一个工具名称,每个工具名称包括至少一个参考标记。将用户指令输入至第一大语言模型之后,基于该模型输出的预测结果确定各参考标记的第一损失。根据参考标记的标记类别的不同,为各参考标记设置不同的损失权重,然后对各参考标记的第一损失进行加权计算,得到目标损失。基于目标损失训练第一大语言模型,得到第二大语言模型。该方法中,不同标记类别的参考标记对应不同的损失权重,可以提升第二大语言模型在预测具有较大损失权重的标记类别的参考标记时的准确度。
-
-
-
-
-
-
-
-
-