一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651B

    公开(公告)日:2023-06-06

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

    文档处理方法、文档摘要生成方法及装置

    公开(公告)号:CN115563240A

    公开(公告)日:2023-01-03

    申请号:CN202211035766.4

    申请日:2022-08-26

    Applicant: 清华大学

    Abstract: 本发明提供一种文档处理方法、文档摘要生成方法及装置,文档处理方法包括:获取待处理文档集以及关键词集;将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中,得到待测序列;确定各待测序列的困惑度,并基于各待测序列的困惑度确定各待处理文档的第一评分结果;基于各待处理文档的第一评分结果对待处理文档集进行筛选,得到目标文档。文档摘要生成方法包括:基于关键词集中的各关键词从待处理文档集中抽取目标文档;基于目标文档生成摘要。本发明能够有效提高目标文档的有效性,进而保证了摘要的生成效果。

    一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651A

    公开(公告)日:2021-08-17

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

Patent Agency Ranking