文档段落分割方法
    31.
    发明公开

    公开(公告)号:CN102004724A

    公开(公告)日:2011-04-06

    申请号:CN201010602030.1

    申请日:2010-12-23

    Abstract: 文档段落分割方法,本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。它通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。

    语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统

    公开(公告)号:CN102004560A

    公开(公告)日:2011-04-06

    申请号:CN201010567997.0

    申请日:2010-12-01

    Abstract: 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。

    一种两阶段少样本自动事实核查方法、电子设备及存储介质

    公开(公告)号:CN119691152A

    公开(公告)日:2025-03-25

    申请号:CN202411828667.0

    申请日:2024-12-12

    Abstract: 一种两阶段少样本自动事实核查方法、电子设备及存储介质,属于信息处理技术领域。为提高信息核查的准确性和效率,本发明包括选择公开事实验证数据集构建测试集;构建证据检索模型,采用证据检索模型对测试集的文档进行检索得到候选文档;构建句子选择模型,将候选文档中的每个句子与声明输入到提示模板中组合为句子选择模型的输入,输出句子的相关性分数作为声明验证的证据句子;构建预训练语言模型并对预训练语言模型进行微调;将声明验证的证据句子与待验证声明输入到提示模板中组合为预训练语言模型的输入,并输入到微调后的预训练语言模型中得到自然语言输出,然后映射到分类标签,依据输出序列的生成概率计算预测分数,得到最终的预测结果。

    一种基于用户偏好感知的全新商品冷启动方法

    公开(公告)号:CN117422527B

    公开(公告)日:2024-05-03

    申请号:CN202311526419.6

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于用户偏好感知的全新商品冷启动方法,包括:获取用户协同特征、商品协同特征和商品内容特征;基于用户协同特征和商品协同特征,建立用户与商品的关系模型;基于商品协同特征和商品内容特征,将同一商品的内容特征与协同特征进行对齐,获取商品层级特征对齐模型;将同一用户购买记录中除目标商品外的所有商品的协同特征进行聚合,获取用户偏好;将用户偏好与商品内容特征进行对齐,获取群组层级特征对齐模型;将用户与商品的关系模型、商品层级特征对齐模型、群组层级特征对齐模型进行联合损失优化,获取联合损失模型,并将原有商品和全新商品分别通过协同特征和内容特征进行推荐。本发明能够更好的解决全新商品冷启动问题。

    基于图文协同注意力的跨模态检索模型构建及检索方法

    公开(公告)号:CN114201621B

    公开(公告)日:2024-04-02

    申请号:CN202111406136.9

    申请日:2021-11-24

    Abstract: 本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。

    一种基于提示的用户跨域冷启动方法

    公开(公告)号:CN117422526A

    公开(公告)日:2024-01-19

    申请号:CN202311518835.1

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。

    一种基于提示学习的自动化数据标注方法

    公开(公告)号:CN116738984A

    公开(公告)日:2023-09-12

    申请号:CN202310748270.X

    申请日:2023-06-25

    Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。

    一种长文本的标签推荐模型构建方法及标签推荐方法

    公开(公告)号:CN116484123A

    公开(公告)日:2023-07-25

    申请号:CN202310486453.9

    申请日:2023-04-28

    Abstract: 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句,对文本标签进行标签扩充,得到历史伪标签,并根据历史伪相得到历史标签序列;以上述数据训练初始预测模型,得到预测模型;以上述数据训练初始排序模型,得到重排序模型;根据预测模型和重排序模型得到标签推荐模型。本发明的有益效果:根据子句权重得到表示长文本含义的关键句,对文本标签进行扩充以得到便于模型理解的伪标签,实现长文本的标签推荐,且有效提升了模型的准确度。

Patent Agency Ranking