Babbling情感对话生成系统及方法

    公开(公告)号:CN108121823A

    公开(公告)日:2018-06-05

    申请号:CN201810026854.5

    申请日:2018-01-11

    Abstract: Babbling情感对话生成系统及方法,涉及一种对话生成系统。本发明为了解决目前的人工智能对话系统带有情感的回复并不十分准确的问题。本发明提出了一套基于Seq2Seq模型生成情感回复的系统,在传统Seq2Seq模型基础上,Babbling使用微博原句的情感embedding丰富原句的表示。Babbling还融合了Learning to Start机制,从而生成更自然的句首词。为了以提高生成词语主题的相关性,Babbling还采用attention机制,我们将传统的single hop attention过程扩展到multi-hop attention,通过多次attention获得更为抽象并且与微博原文相关的表示,从而进一步提高生成质量。本发明适用于带有情感回复的对话系统。

    一种基于层次化注意力机制的多轮对话模型构建方法

    公开(公告)号:CN107766506A

    公开(公告)日:2018-03-06

    申请号:CN201710986813.6

    申请日:2017-10-20

    CPC classification number: G06F17/30654

    Abstract: 本发明涉及一种基于层次化注意力机制的多轮对话模型构建方法,是为了解决现有的人机对话系统依赖于大规模语料,训练速度受到语料规模的影响,并且由于对话生成的回复不唯一性,Seq2Seq模型总是倾向于生成通用,无意义的回复的缺点,而提出一种基于层次化注意力机制的多轮对话模型构建方法,包括:接收句子输入,针对每一个句子,从第一个单词开始计算加密隐函数,计算第每个句子的Attention权重,并计算话题语境表示向量,最后计算解密隐函数,同时将结果进行输出。本发明适用于开放域的聊天机器人系统。

    社会媒体数据处理系统及方法

    公开(公告)号:CN105630970A

    公开(公告)日:2016-06-01

    申请号:CN201510990027.4

    申请日:2015-12-24

    Inventor: 赵妍妍 秦兵 刘挺

    CPC classification number: G06F17/3089 G06Q50/01

    Abstract: 社会媒体数据处理系统及方法,属于互联网领域。本发明旨在深入分析微博大数据焦点事件及情感分布,进行社会舆情进行检测。本发明系统包括:用于采集实时微博数据采集的数据模块;用于文本噪声和文本分析的预处理模块;用于事件发现和情感分析的浅层分析模块;用于情感归因分析和基于用户画像的情感分析的深层透视模块;用于社会媒体数据可视化显示模块;本发明方法包括:步骤一、采集实时的微博数据;步骤二、根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;步骤三、对处理后的文本进行浅层分析;步骤四、根据浅层分析进行深层透视;步骤五、根据浅层分析和深层透视进行社会媒体数据可视化显示。本发明用于社会舆情监测。

    开放式实体及其类型识别方法

    公开(公告)号:CN103034693B

    公开(公告)日:2016-03-02

    申请号:CN201210509993.6

    申请日:2012-12-03

    Inventor: 秦兵 付瑞吉 刘挺

    Abstract: 开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。

    由网页中提取双语平行正文的方法和系统

    公开(公告)号:CN102930031B

    公开(公告)日:2015-10-07

    申请号:CN201210442487.X

    申请日:2012-11-08

    Abstract: 由网页中提取双语平行正文的方法和系统,涉及语料获取技术领域。本发明克服了现有的语料库收集效率低和规模不足的问题。本发明所述的系统包括用于存储大规模随机爬取的网页及其属性的网页数据库;用于提取每个网页的标签字符串、正文内容及相关信息的正文信息提取模块;用于根据网页数据库中的所有网页的正文内容确定混合网页或单语种网页的网页类型判别模块;用于对混合网页中的双语文本进行互译判别、将判定为互译文本的双语文本保存至双语语料库的混合网页处理模块;用于针对每一个未标识匹配的单语种网页遍历网页数据库中的其它单语种网页,获得存有互译文本的两个单语种网页,并将两个网页中的正文内容保存至双语语料库单语种网页处理模块。

    一种树库转化方法及树库转化系统

    公开(公告)号:CN101201819B

    公开(公告)日:2010-12-08

    申请号:CN200710178308.5

    申请日:2007-11-28

    Abstract: 本发明公开一种树库的转化方法,包括:将Penn Chinese Treebank短语结构转化为依存结构;将Penn Chinese Treebank词性标注集转化为863词性标注集;利用HIT-IR-CDT的句法分析器对Penn Chinese Treebank中的扁平短语结构分析依存关系;利用预先建立的HIT-IR-CDT树库训练依存关系映射模型,对Penn Chinese Treebank进行依存关系转化,形成转化后的依存结构树。本发明还公开一种树库转化系统。本发明提供一种树库的转化方法及系统,使得转化后的树库能与原有的HIT-IR-CDT合并,增大树库规模,提高句法分析器的性能。

    一种从双语句对获取词对译文的方法及系统

    公开(公告)号:CN100524293C

    公开(公告)日:2009-08-05

    申请号:CN200710178290.9

    申请日:2007-11-28

    Abstract: 本发明提供了一种从双语句对获取词对译文的方法,包括步骤:A、接收待处理词条;B、根据待处理词条从索引资源库中检索出候选双语句对;C、从所述检索结果中选择2组双语句对,获取所述2组双语句对中与待处理词条语言类型相同句的最长公共子串;D、判断所述子串是否与待处理词条一致,如果不一致,则再次从检索结果中选择2组双语句对,重复步骤C;如果一致,则:E、获取所述2组双语句对中对应句的最长公共子串。利用索引的方式减少了数据处理的工作量,提高了获取译文的效率。本发明还提供了一种从双语句对获取词对译文的系统。

    一种网络资源检索方法及系统

    公开(公告)号:CN100476830C

    公开(公告)日:2009-04-08

    申请号:CN200710100309.8

    申请日:2007-06-07

    CPC classification number: Y02D10/45

    Abstract: 本发明公开了一种网络资源检索方法及系统,以解决现有的网页信息检索,耗费用户时间和精力而无法快速、准确地获取资源的问题。所述方法包括:创建网页索引,并对网页中包含的资源,创建对应每个网页的资源索引;接收用户输入的检索关键词,并在网页索引中查询符合所述关键词的网页;在资源索引中查询所述符合关键词的网页包含的资源;将包含所述符合关键词的网页信息和相应资源信息的检索结果显示。本发明在页面的一侧(例如左侧)显示网页正文摘要,另一侧(例如右侧)显示对应的资源信息(如资源名称,资源链接),用户可以直观地获知每个网页中都包含了哪些可下载的资源,通过直接下载可快速地获取自己想要的各种资源。

    一种用于复杂事件理解的动态假设验证方法及装置

    公开(公告)号:CN119088903A

    公开(公告)日:2024-12-06

    申请号:CN202411150973.3

    申请日:2024-08-21

    Abstract: 本发明公开了一种用于复杂事件理解的动态假设验证方法及装置,属于自然语言处理技术领域。方法包括以下步骤:S1、采集并标注数据集;S2、构建动态多视角思维代理框架,采用所述数据集对所述动态多视角思维代理框架进行训练,并基于训练后的所述动态多视角思维代理框架对用户关于复杂事件的查询生成综合答案。本发明通过提出一种新颖的动态多视角思维代理框架使语言模型能够主动提出并动态调整假设,通过检索和推理过程验证假设,并最终综合出全面的解决方案。

    基于大语言模型的医学知识问答系统构建方法及系统

    公开(公告)号:CN118568221A

    公开(公告)日:2024-08-30

    申请号:CN202410639259.4

    申请日:2024-05-22

    Abstract: 基于大语言模型的医学知识问答系统构建方法及系统,本发明涉及计算机技术领域,特别是医学知识问答系统构建方法及系统。本发明的目的是为了解决现有针对医学的大语言模型生成的医学回答准确性低、可靠性差的问题。过程为:构建医学实体抽取模型的训练集;构建医学实体抽取模型;获得训练好的医学实体抽取模型;构建医学实体属性抽取模型的训练集;构建医学实体属性抽取模型;获得训练好的医学实体属性抽取模型;构建医学回答生成模型的训练集;构建医学回答生成模型;获得训练好的医学回答生成模型;基于训练好的医学实体抽取模型、训练好的医学实体属性抽取模型、训练好的医学回答生成模型,对待测医学问题进行处理,输出医学回答。

Patent Agency Ranking