-
公开(公告)号:CN117371576A
公开(公告)日:2024-01-09
申请号:CN202311171887.6
申请日:2023-09-12
Applicant: 哈尔滨工业大学
IPC: G06Q10/04 , G06Q50/18 , G06F18/22 , G06F18/23213 , G06F16/35 , G06N3/0464
Abstract: 一种专利授权率预测方法、系统、设备及存储介质,属于信息处理技术领域,解决现有专利审查过程中存在的无法全面检索并使用与专利相关的公开的现有技术从而导致预测的准确率下降的问题。所述方法包括:获取待测专利文献的摘要,对摘要文本进行向量化,得到摘要的向量;计算待测专利文献的余弦和公开专利数据集的余弦相似度;选取N篇与待测专利文献的余弦相似度最高的公开专利,并对其于待测专利文献进行训练,得到处理后文本和选取出的公开专利的向量表示;采集公开专利文献的主题;计算公开专利文献与其主题向量的距离,作为数据分布表示;通过卷积层、池化层和全连接层获得专利授权预测结果。本发明适用于专利授权率的预测场景。
-
公开(公告)号:CN114330373A
公开(公告)日:2022-04-12
申请号:CN202111470031.X
申请日:2021-12-03
Applicant: 哈尔滨工业大学
IPC: G06F40/51 , G06F40/58 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于ELECTRA的翻译质量估计伪数据生成方法。对于句子级QE伪数据,使用基于机器译文作为输入母本生成伪数据和基于人工后编辑译文生成伪数据产生两种数据分布的伪数据,并针对数据分布差异提出了先使用人工后编辑译文生成的伪数据对模型进行初次训练再使用机器译文生成的伪数据与原数据混合后的数据集二次训练的方法。对于词语级伪数据,针对训练数据标签分布不平衡的问题,生成了分布更为合理的伪数据,采取先使用得到的伪数据对模型训练再使用原数据集进行二次训练的方法。本发明针对翻译质量估计数据稀缺这一问题。
-
公开(公告)号:CN117371576B
公开(公告)日:2024-11-01
申请号:CN202311171887.6
申请日:2023-09-12
Applicant: 哈尔滨工业大学
IPC: G06Q10/04 , G06Q50/18 , G06F18/22 , G06F18/23213 , G06F16/35 , G06N3/0464
Abstract: 一种专利授权率预测方法、系统、设备及存储介质,属于信息处理技术领域,解决现有专利审查过程中存在的无法全面检索并使用与专利相关的公开的现有技术从而导致预测的准确率下降的问题。所述方法包括:获取待测专利文献的摘要,对摘要文本进行向量化,得到摘要的向量;计算待测专利文献的余弦和公开专利数据集的余弦相似度;选取N篇与待测专利文献的余弦相似度最高的公开专利,并对其于待测专利文献进行训练,得到处理后文本和选取出的公开专利的向量表示;采集公开专利文献的主题;计算公开专利文献与其主题向量的距离,作为数据分布表示;通过卷积层、池化层和全连接层获得专利授权预测结果。本发明适用于专利授权率的预测场景。
-
-