-
公开(公告)号:CN104035992B
公开(公告)日:2017-05-10
申请号:CN201410253847.0
申请日:2014-06-10
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于文本语义信息处理技术领域,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。
-
公开(公告)号:CN103699687B
公开(公告)日:2017-02-01
申请号:CN201410003459.7
申请日:2014-01-03
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于网络爬虫技术领域,具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分:对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即;通过一定采样方式、采样规模来对目标网络实体进行采样,并对可转化样本进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架,在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术,在进行网络大规模实体爬取时具有更好的效果。
-
公开(公告)号:CN103593792B
公开(公告)日:2016-09-28
申请号:CN201310565133.9
申请日:2013-11-13
Applicant: 复旦大学
IPC: G06Q30/02
Abstract: 本发明属于计算机软件技术领域,具体为一种基于中文知识图谱的个性化推荐方法与系统。本发明利用中文知识图谱中概念实体间的超链接关系度量出任意两个词条间的语义关联,并结合一种改进的显式语义分析模型(ESA)来实现由两组标签分别刻画的用户和待推荐物品之间的精准推荐。对于两组即便没有共同标签词条的标签组,本发明提出的改进ESA模型借助中文知识图谱也能度量出两者间的语义距离,即匹配程度,从而极大地拓展了基于标签描述的个性化推荐技术的应用场合,具有广泛的商业应用价值。
-
公开(公告)号:CN104199828A
公开(公告)日:2014-12-10
申请号:CN201410358497.4
申请日:2014-07-26
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/30861 , G06F17/30117 , G06F17/30144
Abstract: 本发明属于社会网络分析数据挖掘领域,具体为一种基于事务日志数据的社会网络构建方法。本发明通过对现代软件系统如ERP,MIS,CRM等系统产生的事务日志数据进行挖掘,构建出基于真实环境的系统用户之间的社会网络,以供社会网络分析使用。本发明包括数据预处理模块、共现矩阵生成模块、社会网络构建模块。本发明首先将现代软件系统产生的事务日志数据进行预处理,包括清洗数据杂质、确定时间标识、确定空间标识等;然后共现矩阵生成模块根据事务用户使用系统行为特征计算出系统用户的加权共现矩阵。最后,定义一个基于边权重和JACCARD相关性系数的社会关系存在系数,用来判断真实的社会关系,从共现矩阵中构建出可信的社会网络。
-
公开(公告)号:CN114911947B
公开(公告)日:2024-11-15
申请号:CN202210419758.3
申请日:2022-04-20
Applicant: 复旦大学
IPC: G06F16/36 , G06F16/35 , G06N3/0455 , G06N3/084 , G06N3/0985
Abstract: 本发明属于人工智能与知识工程技术领域,具体为一种基于知识提示的概念抽取模型,简称KPCE。本发明模型包括提示构建器和概念抽取器;提示构建器,给定实体的主题用作双向编码表示的预训练语言模型,简称BERT,的知识引导提示;并添加可训练的连续提示,以增强概念抽取性能;概念抽取器利用提示引导BERT以及指针网络从输入文本中抽取多粒度、高质量的概念。本发明使用从现有知识图谱中获取的主题知识构建语言提示,同时考虑神经网络连续性特征,将可训练的连续提示与上述主题构建的知识提示结合,以此提升大规模预训练语言模型BERT在概念抽取任务上的性能;还借助指针网络,设置适当的阈值重复抽取文本中同一片段,实现多粒度概念的获取。
-
公开(公告)号:CN118673117A
公开(公告)日:2024-09-20
申请号:CN202410780037.4
申请日:2024-06-17
Applicant: 复旦大学
IPC: G06F16/332 , G06F40/30 , G06F16/35
Abstract: 本发明提供了一种大语言模型情感认知能力的评测装置,具有这样的特征,包括评测数据生成模块,用于待评估大语言模型生成各个测试陈述对应的回复语句;关键事件识别评估模块,用于对各个关键事件回复语句分别进行评估,得到关键事件评估分数;混合事件识别评估模块,用于对各个混合事件回复语句分别进行评估,得到混合事件评估分数;隐含情感识别评估模块,用于对各个隐含情感回复语句分别进行评估,得到隐含情感评估分数;意图识别评估模块,用于对各个意图回复语句分别进行评估,得到意图评估分数;综合评估计算模块,用于计算得到综合评估分数。总之,本装置能够得到全面客观的大语言模型情感认知能力的量化结果。
-
公开(公告)号:CN117909442A
公开(公告)日:2024-04-19
申请号:CN202211239666.3
申请日:2022-10-11
Applicant: 复旦大学 , 中国航发四川燃气涡轮研究院
IPC: G06F16/33 , G06F16/332 , G06F40/242 , G06F40/247 , G06F40/30
Abstract: 本发明提供一种面向问答系统鲁棒性的知识丰富型问题生成方法及装置,获取待查询实体蒸馏后的事实描述、释义及近义词作为注入知识,利用编辑机制改写现有的问题来生成知识丰富型问题,即可使用不同类型的知识扩充原始问题,而不改变原始问题的含义,生成更多样化、更有意义的知识丰富型问题。进一步,本发明还启发性地为问答模型提供“诊断”信息,为每个注入知识提供一个动态权重,这使得问答模型更多地关注包含线索信息的问题部分,以预测正确答案,而对包含不相关信息的问题部分减少关注,因此通过动态调整权重,可以有效提升问答模型在知识丰富型问题和原始问题上的性能。
-
公开(公告)号:CN117857778A
公开(公告)日:2024-04-09
申请号:CN202311822036.3
申请日:2023-12-27
Applicant: 复旦大学
IPC: H04N17/00 , H04N21/658 , G10L15/26 , G10L15/06 , G09B7/06
Abstract: 本发明提供的一种面向制造业视频内容质量的自动评估方法,用于对制造业视频进行内容质量的评估,步骤如下:步骤S1,对制造业视频进行语音识别,得到语音识别文本;步骤S2,使用语音识别文本预定的预训练语言模型进行进一步预训练,得到二次预训练语言模型;步骤S3,基于语音识别文本生成训练问题,并使用训练问题对二次预训练语言模型进行训练,得到训练好的问答模型;步骤S4,将预定的测试问题输入问答模型,得到预测概率,作为对制造业视频的内容质量的评估结果。本发明将一个或多个制造业视频以及这些视频相关的参考文档或人工预设的测试问题输出问答模型,通过计算测试问题与问答模型的答题准确率,比较视频内容或其相近的视频内容的质量。
-
公开(公告)号:CN117391216A
公开(公告)日:2024-01-12
申请号:CN202311195451.0
申请日:2023-09-17
Applicant: 复旦大学
Abstract: 本发明属于大规模语言模型技术领域,具体为大规模语言模型自适应提示增强方法。本发明针对NLP领域的LLMs优化原始提示,以使其在各种下游任务中表现更好;包括:针对不同的语言模型,生成最适合其特性的提示,以提高性能;通过引入强化学习等自动化或半自动化方法,实现提示优化流程的简化和高效化;建立训练数据集并利用强化学习等技术优化提示。其中结合有监督的微调、强化学习、PPO和RRHF等方法。本发明具有良好的鲁棒性和泛化性,并能在各种下游任务中改善语言模型的性能,可以有效地提升prompt的质量,使得大模型产生更准确的回答;可与现有的大规模语言模型结合使用,通过微调和优化提升特定任务的表现,具有广泛的可扩展性和适应性。
-
公开(公告)号:CN113673210B
公开(公告)日:2023-12-01
申请号:CN202010401491.6
申请日:2020-05-13
Applicant: 复旦大学
IPC: G06F40/186 , G06F16/35 , G06F16/335
Abstract: 本发明提供一种文档生成系统,用于根据高相关性的历史文档材料自动生成新的文档,其特征在于,包括:输入数据获取模块,用于获取训练数据以及用户输入的待分析文档材料,该训练数据包括多个高重复性的历史文档材料以及与该历史文档材料的文本内容相关的多种相关材料;论据信息抽取组合模块,用于对待分析文档材料进行论据信息的抽取并组合为相应的论据段,存储有预先根据训练数据训练完成并且用于识别句子的类型的分类器以及用于抽取相应类型的句子的模板规则;论点信息匹配生成模块,用于根据论据段生成相应的论点信息,存储有预先根据训练数据训练完成的论点生成模型;文档生成模块,用于根据论据段以及论点信息生成新的文档材料。
-
-
-
-
-
-
-
-
-