一种基于异构数据库的耦合词性标注方法

    公开(公告)号:CN104965820A

    公开(公告)日:2015-10-07

    申请号:CN201510422718.4

    申请日:2015-07-17

    Abstract: 本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。

    一种推理数据合成方法和系统
    62.
    发明公开

    公开(公告)号:CN119476479A

    公开(公告)日:2025-02-18

    申请号:CN202411481668.2

    申请日:2024-10-23

    Applicant: 苏州大学

    Abstract: 本发明涉及一种推理数据合成方法和系统,其中,方法包括:获取数学大语言模型,在模型训练过程中,通过问题微调方法在数学大语言模型利用预设数据集进行问题微调,得到经过问题微调方法处理后的数学大语言模型;通过经过问题微调方法处理后的数学大语言模型生成样本问题;通过问题偏好优化方法对样本问题进行优化,再将优化后的样本问题再对经过问题微调方法处理后的数学大语言模型进行训练;将经过问题微调方法和问题偏好优化方法处理后的数学大语言模型作为问题生成器,并对所述问题生成器生成的问题进行过滤;对每个过滤后的问题生成相应的回答以合成推理数据。本发明的推理数据合成方法不仅能保证数据质量,还能降低生成成本、提高生成效率。

    BERT模型的训练方法、系统、计算机设备、存储介质及程序产品

    公开(公告)号:CN119441870A

    公开(公告)日:2025-02-14

    申请号:CN202411461152.1

    申请日:2024-10-18

    Applicant: 苏州大学

    Abstract: 本发明提供一种BERT模型的训练方法、系统、计算机设备、存储介质及程序产品,属于自然语言处理技术领域。其中方法包括利用预先构建的BERT模型以多个解码路径分别生成多个序列;将多个序列划分为正样本和负样本;利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数;构建正则惩罚项损失函数;构建掩码预测损失函数;根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定BERT模型的总损失,得到训练好的BERT模型。采用上述方案指导BERT模型学习不同解码路径对输出的影响,增强BERT模型在复杂解码空间中选择路径并生成更高质量序列的能力。

    基于自适应掩码策略的文本预测方法、系统及电子设备

    公开(公告)号:CN116451708B

    公开(公告)日:2024-10-18

    申请号:CN202310253751.3

    申请日:2023-03-16

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于自适应掩码策略的文本预测方法、系统及电子设备,方法包括:对文本对中的目标序列进行掩码,根据目标序列的掩码比例计算文本对中的源序列的初始掩码比例,再对待训练的模型进行当前训练;将待训练的模型当前训练的预测结果和目标序列中未被掩码部分组成新的目标序列,并计算待训练的模型当前训练的预测结果的正确率;根据正确率对新的目标序列进行掩码,根据新的目标序列的掩码比例计算源序列的再次掩码比例,再对待训练的模型再次进行训练;将待训练的模型再次训练的预测结果与所述目标序列进行对比判断是否需要再次进行训练;根据训练好的模型对待预测的文本进行预测。本发明能够对用于文本预测的模型进行有效训练。

    一种属性抽取方法、装置及存储介质

    公开(公告)号:CN114817564B

    公开(公告)日:2024-08-23

    申请号:CN202210458635.0

    申请日:2022-04-15

    Applicant: 苏州大学

    Abstract: 本发明将属性抽取任务化为片段抽取式阅读理解任务,采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT‑B i‑LSTM作为编码模块,分别对输入文本与问题编码,将结构化信息作为问题来增强模型的泛化能力。然后使用词边界特征增强的方法以帮助模型捕获属性值的边界特征,结合多头注意力机制在全局向量特征的基础上融入词汇特征。同时,设计一种文本特征交互方法,用于判断文本中是否存在与问题对应的属性值,该方法作为辅助任务与属性值边界预测任务联合训练。

    基于人工智能和眼动捕捉技术的语文阅读训练系统

    公开(公告)号:CN116741020A

    公开(公告)日:2023-09-12

    申请号:CN202310508640.2

    申请日:2023-05-08

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于人工智能和眼动捕捉技术的语文阅读训练系统,包括:检测系统,检测系统收集用户的眼球轨迹和热点图;收集系统,收集系统用于收集注视数据和眼跳数据;建议系统,建议系统根据检测系统和收集系统收集的数据和自然语言处理技术分析得到的数据进行比较,基于阅读速度、阅读技巧、关键信息提取、记忆力和注意力给出建议和阅读提升计划安排;其中,通过眼动仪记录读者阅读文本时关注的词,通过自然语言处理技术获得文本的关键词,将读者阅读文本时关注的词与自然语言处理技术获得文本的关键词比较,获得阅读时存在的问题。其应用了自然语言处理技术并结合眼动技术为学生的语文阅读提供辅助训练,有助于老师进行更加准确地教学指导。

    一种关系抽取方法、系统及相关组件

    公开(公告)号:CN110334355B

    公开(公告)日:2023-08-18

    申请号:CN201910635878.5

    申请日:2019-07-15

    Applicant: 苏州大学

    Abstract: 本申请公开了一种关系抽取方法,所述关系抽取方法包括确定目标句子包中每一句子的句子分布式向量和查询关系的关系分布式向量;其中,目标句子包中每一句子均包括第一实体和第二实体;根据所述句子分布式向量和所述关系分布式向量确定策略函数,并利用所述策略函数将所述目标句子包中的所有句子划分为正例和未标注实例;利用所述正例和未标注实例训练关系抽取模型,得到所述第一实体与所述第二实体的实体关系。本申请能够降低噪声数据的影响,提高实体关系抽取结果的准确率。本申请还公开了一种关系抽取系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

    基于自适应掩码策略的文本预测方法、系统及电子设备

    公开(公告)号:CN116451708A

    公开(公告)日:2023-07-18

    申请号:CN202310253751.3

    申请日:2023-03-16

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于自适应掩码策略的文本预测方法、系统及电子设备,方法包括:对文本对中的目标序列进行掩码,根据目标序列的掩码比例计算文本对中的源序列的初始掩码比例,再对待训练的模型进行当前训练;将待训练的模型当前训练的预测结果和目标序列中未被掩码部分组成新的目标序列,并计算待训练的模型当前训练的预测结果的正确率;根据正确率对新的目标序列进行掩码,根据新的目标序列的掩码比例计算源序列的再次掩码比例,再对待训练的模型再次进行训练;将待训练的模型再次训练的预测结果与所述目标序列进行对比判断是否需要再次进行训练;根据训练好的模型对待预测的文本进行预测。本发明能够对用于文本预测的模型进行有效训练。

    视觉定位驱动的跨模态行人检索方法

    公开(公告)号:CN115292533B

    公开(公告)日:2023-06-27

    申请号:CN202210989022.X

    申请日:2022-08-17

    Applicant: 苏州大学

    Inventor: 王海光 曹敏 张民

    Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。

    一种实体识别方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN108845988B

    公开(公告)日:2022-06-10

    申请号:CN201810581154.2

    申请日:2018-06-07

    Applicant: 苏州大学

    Abstract: 本发明公开了一种实体识别方法、装置、设备及计算机可读存储介质,该方法包括:获取训练数据集为当前数据集;利用当前数据集训练当前识别模型得到当前识别模型,判断其识别准确度是否达到准确度阈值,若是,则确定完成训练,若否,则调整当前识别模型的参数得到当前识别模型,将当前数据集中每个训练样本的样本特征输入至当前选取模型,计算当前选取模型输出的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行训练当前识别模型的步骤;利用实体识别模型实现实体识别,基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好,实现产品的准确推荐。

Patent Agency Ranking