一种实体关系联合抽取方法及系统

    公开(公告)号:CN111160008A

    公开(公告)日:2020-05-15

    申请号:CN201911308937.4

    申请日:2019-12-18

    Inventor: 蔡毅 陈峰

    Abstract: 本发明公开了一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息,更好地表示每个词,提升了实体抽取和关系抽取的性能,具有一定的实用性。

    一种基于视觉对象引导的社交媒体短文本命名实体识别方法

    公开(公告)号:CN111126069A

    公开(公告)日:2020-05-08

    申请号:CN201911391112.3

    申请日:2019-12-30

    Inventor: 蔡毅 郑昌萌

    Abstract: 本发明公开了一种基于视觉对象引导的社交媒体短文本命名实体识别方法,包括步骤:建立社交媒体短文本的文本描述数据集,并提供和文本描述相关的视觉图像数据;对视觉图像数据进行对象检测,并将检测出的视觉对象类别进行视觉词语义的提取;对原始文本描述进行语义提取,并对文本语义进行文本的特征提取;计算视觉词语义和文本特征的相似性,对视觉词语义进行加权求和;计算多模态语义与原始文本特征的相关性,得到最终的词语义向量;将最终的词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。本发明能够利用视觉对象信息进行实体类型的判定,对缺少语义信息的社交媒体短文本数据起到了补充作用。

    一种任务型对话系统中的语义理解方法

    公开(公告)号:CN111104498A

    公开(公告)日:2020-05-05

    申请号:CN201911270705.4

    申请日:2019-12-12

    Inventor: 蔡毅 孔俊生

    Abstract: 本发明公开了一种任务型对话系统中的语义理解方法,包括步骤:收集与特定任务相关的对话数据,标注出每句对话数据的领域、意图以及槽值;对收集的对话数据进行预处理,根据预处理后的数据对构建的多任务级联神经网络模型进行训练;根据模型训练获得的领域、意图以及槽值,计算多任务级联神经网络模型的损失函数,根据损失函数值多次迭代,获得最终的多任务级联神经网络模型;将待识别的对话数据进行预处理后输入到最终的模型中,识别对话数据中语句的领域、意图以及槽值。该发明解决了目前语义理解系统识别准确率低的问题,提高了任务型对话系统中自然语言理解三个子任务的识别准确率。

    基于层次化模型的数据可视化方法及其系统

    公开(公告)号:CN105912562B

    公开(公告)日:2019-05-14

    申请号:CN201610162397.3

    申请日:2016-03-21

    Abstract: 本发明公开了一种基于层次化模型的数据可视化方法及系统,其中数据可视化方法包括下列步骤:图形数据准备、图形顶点采样分层、子图顶点连接、图形顶点受力计算、顶点位置更新、图形布局递归计算、图形布局层次化绘制;其中数据可视化系统包括下列模块:图形数据准备模块、图形顶点采样分层模块、子图顶点连接模块、图形顶点受力计算模块、顶点位置更新模块、图形布局递归计算模块、图形布局层次化绘制模块。本发明可以加快算法收敛,正确计算布局,保持效果稳定性。另外,本发明不仅可以科学地绘制大数据的图形布局,而且还提供了便捷的交互操作。因此,本发明具有快速高效地计算美观布局、帮助用户挖掘潜在知识规律的优点。

    基于主题模型的文档关键词抽取方法及其系统

    公开(公告)号:CN105843795B

    公开(公告)日:2019-05-14

    申请号:CN201610162410.5

    申请日:2016-03-21

    Inventor: 蔡毅 杨楷 闵华清

    Abstract: 本发明公开了一种基于主题模型的文档关键词抽取方法及其系统,其中文档关键词抽取方法包括下列步骤:文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成;其中文档关键词抽取系统包括下列模块:文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切;具有解决了目前关键词提取领域的部分不足之处,使文档总结达到更好的效果,方便用户迅速了解文档的概要。

    基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统

    公开(公告)号:CN103955489B

    公开(公告)日:2017-09-22

    申请号:CN201410150855.2

    申请日:2014-04-15

    Inventor: 蔡毅 蔡志威 王涛

    Abstract: 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。

    基于领域信息的半监督方面自动提取方法及其系统

    公开(公告)号:CN103903164B

    公开(公告)日:2017-06-06

    申请号:CN201410114328.6

    申请日:2014-03-25

    Abstract: 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。

    互联网海量数据中命名实体间关系提取方法及其系统

    公开(公告)号:CN104933164A

    公开(公告)日:2015-09-23

    申请号:CN201510366176.3

    申请日:2015-06-26

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种互联网海量数据中命名实体间关系提取方法,包括以下步骤:网络信息爬取和语料库构建;文本预处理;提取代表短文档特征的关键词;获得代表实体关系的“实体-关系模式”;关系标注,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估;本发明还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统,包括:网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。

    基于领域信息的半监督方面自动提取方法及其系统

    公开(公告)号:CN103903164A

    公开(公告)日:2014-07-02

    申请号:CN201410114328.6

    申请日:2014-03-25

    Abstract: 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。

    一种场景文本感知的指代表达理解方法、装置及存储介质

    公开(公告)号:CN115082916B

    公开(公告)日:2024-12-24

    申请号:CN202210597250.2

    申请日:2022-05-30

    Inventor: 蔡毅 卜羽琦

    Abstract: 本发明公开了一种场景文本感知的指代表达理解方法、装置及存储介质,其中方法包括:显式地提取图像中的场景文本实例,将其与指代表达句子计算相关性,其后计算场景文本实例在图像特征中的空间位置,以激活场景文本实例在图像特征中的相关区域,最终将场景文本感知的图像特征与句子文本特征进行精练、预测得到指代目标物体的位置坐标。本发明解决了当前指代表达理解技术无法显式对齐场景文本信息而导致目标物体定位错误的问题,能够提升机器人对于场景文本、视觉物体与视觉场景的认知能力,提升面向场景文本的人机交互能力。本发明可广泛应用于自然语言处理与计算机视觉技术领域。

Patent Agency Ranking