-
公开(公告)号:CN113095088B
公开(公告)日:2022-03-04
申请号:CN202110485144.0
申请日:2021-04-30
Applicant: 哈尔滨工业大学
IPC: G06F40/30 , G06F40/216 , G06N20/00
Abstract: 一种基于文本的消费意图分析方法,它属于消费意图分析技术领域。本发明解决了由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题。本发明提出的技术将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。本发明可以应用于消费意图分析。
-
公开(公告)号:CN113204627A
公开(公告)日:2021-08-03
申请号:CN202110522932.2
申请日:2021-05-13
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/34
Abstract: 利用DialoGPT作为特征标注器的对话摘要生成系统,本发明涉及对话摘要生成系统。本发明是为了解决现有对话摘要生成方法对话摘要获取耗时耗力,效率差,准确率低的问题。系统包括:所述数据采集模块用于获取数据集;所述对话预训练模块用于获取DialoGPT;所述对话预处理模块将对话处理为上下文回复对以及对话序列;所述预测损失及对话上下文的表示模块用于得到预测损失以及对话上下文的表示形式;所述标注模块用于标记对话;所述摘要生成模块生成目标摘要;当生成的目标摘要符合要求,则将待处理数据集经过处理,处理后输入摘要生成器生成待处理数据集的目标摘要。本发明用于自然语言处理领域。
-
公开(公告)号:CN107862037B
公开(公告)日:2021-07-16
申请号:CN201711071987.6
申请日:2017-11-03
Applicant: 哈尔滨工业大学
Abstract: 一种基于实体连通图的事件模版构造方法,本发明涉及事件模板的构造方法。本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”等人工智能应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题。过程为:一、对每一句抽取三元组;二、视三元组中的三个元素为三个结点;三、将从文本中抽取到的结点均放入到集合S1中;四、利用词向量计算S1中任两个结点的相似度并依此生成连通图;五、计算各结点的PageRank值;六、确定两篇文本陈述的事件间的关系度量值;七、形成多个文本簇;八、构建粗粒度事件模板和细粒度事件模版。本发明用于篇章关键信息提取及相关度计算领域。
-
公开(公告)号:CN110929024B
公开(公告)日:2021-07-02
申请号:CN201911262119.5
申请日:2019-12-10
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向量输入双向双层LSTM,输出全文中的每一个句子的特征表示;二、将句子的特征表示按文章顺序输入双向双层LSTM,输出隐层序列,并利用最大池化层得到池化后的向量作为全文的特征表示;三、构建序列预测模型架构;四、构建分段联合序列预测摘要模型;五、构建编码器解码器模型;六、构建加入强化学习机制的编码器解码器联合训练模型;七、使用模型融合方法生成文本摘要。本发明用于抽取式文本摘要领域。
-
公开(公告)号:CN110309267B
公开(公告)日:2021-05-25
申请号:CN201910609351.5
申请日:2019-07-08
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/08
Abstract: 本发明提供一种基于预训练模型的语义检索方法和系统。该方法包括:采用标注数据对预训练语义表示模型进行训练,获得满足设定优化目标的经训练的预训练语义表示模型;将句子库中的句子输入到所述经训练的预训练语义表示模型,获得该句子库中句子的向量表示;对所述句子库中的句子的向量表示建立语义索引,获得句子库的语义索引;将待查询语句输入到所述经训练的预训练语义表示模型,获得待查询语句的向量表示;将所述待查询语句的向量表示和所述句子库的语义索引进行匹配,获得查询结果。本发明的方法和系统能够提高语义检索的准确率和效率。
-
公开(公告)号:CN112052318A
公开(公告)日:2020-12-08
申请号:CN202010840252.0
申请日:2020-08-18
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学
IPC: G06F16/332 , G06F40/30
Abstract: 本申请公开了一种语义识别方法、装置、计算机设备和存储介质,可基于人工智能技术实现语义识别,通过语义识别模型可提取第一用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息,基于该样本的标签和预测语义信息调整语义识别模型的参数;通过调整后的语义识别模型提取第二用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息;基于该样本的标签和预测语义信息再调整语义识别模型的参数,得到训练完成的语义识别模型;基于该语义识别模型对目标用户输入信息进行语义识别得到语义信息,其中,第一用户输入信息样本无需人工标注,可降低对人工标注的依赖,而采用第二用户输入信息样本对模型进行训练,可提升语义识别准确性。
-
公开(公告)号:CN110609986A
公开(公告)日:2019-12-24
申请号:CN201910940399.4
申请日:2019-09-30
Applicant: 哈尔滨工业大学
Abstract: 一种基于预训练的结构化数据生成文本的方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决在结构化数据生成文本上,现有模型对表格数据进行建模时,没有考虑数据之间的内在隐含关系,导致文本生成准确率低的问题。过程为:一、随机MASK掉若干个三元组中一个三元组中的一个数据,用@代替;根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列;二、得到表格中同一行的所有记录均值池化后的行向量;三、得到预训练模型,保留预训练模型的参数;四:得到表格行向量;五:验证步骤三的预训练模型;六:得到对表格中同一行的所有记录进行均值池化后的行向量;七:得到表格中数据代表的信息。本发明用于生成文本领域。
-
公开(公告)号:CN110083836A
公开(公告)日:2019-08-02
申请号:CN201910335219.X
申请日:2019-04-24
Applicant: 哈尔滨工业大学
Abstract: 一种文本预测结果的关键证据抽取方法,本发明涉及文本预测结果的关键证据抽取方法。本发明的目的是为了解决现有技术在文本中抽取能解释预测结果的关键证据时依赖人工标注来寻找证据的问题。过程为:一、得到句子级向量;二、将句子级向量的平均值作为外部存储单元的初值;三、得到第一个句子级向量对应的更新后的外部存储单元;直至得到第n个句子级向量对应的最终的外部存储单元,即得到文档级向量;四、输出文档每个类别的概率;五、得到训练好的硬抽取网络模型;将待分类的文档输入到训练好的硬抽取网络模型,得到待分类的文档分为各个类别的概率以及文档被分为该类别的句子集合。本发明用于文本预测结果的证据抽取领域。
-
公开(公告)号:CN101201820B
公开(公告)日:2010-06-02
申请号:CN200710178309.X
申请日:2007-11-28
Applicant: 北京金山软件有限公司 , 北京金山数字娱乐科技有限公司 , 哈尔滨工业大学
IPC: G06F17/27
Abstract: 本发明公开一种双语语料库过滤方法,包括以下步骤:A、确定英汉双语句对的句长比例特征值;B、分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明公开一种双语语料库系统。本发明提供一种双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。
-
公开(公告)号:CN119649979A
公开(公告)日:2025-03-18
申请号:CN202411672341.3
申请日:2024-11-21
Applicant: 哈尔滨工业大学
IPC: G16H15/00 , G06N5/04 , G06F18/214
Abstract: 基于分段提取推理学习的PET报告生成系统,本发明涉及医学影像分析和自然语言处理领域。本发明的目的是为了解决现有技术中语言模型难以高效生成高质量报告的问题。基于分段提取推理学习的PET报告生成系统包括:训练数据集获取模块、模型获取模块、待测PET报告生成模块;训练数据集获取模块用于获取PET报告,基于PET报告构建SERI训练数据集;SERI为分段提取推理;模型获取模块用于基于SERI训练数据集对模型进行训练,获得训练好的模型;待测PET报告生成模块用于将待测PET报告输入训练好的模型,训练好的模型输出PET报告的提取信息和推理结论;所述PET为正电子发射断层扫描。
-
-
-
-
-
-
-
-
-