-
公开(公告)号:CN111126069A
公开(公告)日:2020-05-08
申请号:CN201911391112.3
申请日:2019-12-30
Applicant: 华南理工大学
IPC: G06F40/295 , G06F40/30 , G06F16/9536 , G06N3/04
Abstract: 本发明公开了一种基于视觉对象引导的社交媒体短文本命名实体识别方法,包括步骤:建立社交媒体短文本的文本描述数据集,并提供和文本描述相关的视觉图像数据;对视觉图像数据进行对象检测,并将检测出的视觉对象类别进行视觉词语义的提取;对原始文本描述进行语义提取,并对文本语义进行文本的特征提取;计算视觉词语义和文本特征的相似性,对视觉词语义进行加权求和;计算多模态语义与原始文本特征的相关性,得到最终的词语义向量;将最终的词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。本发明能够利用视觉对象信息进行实体类型的判定,对缺少语义信息的社交媒体短文本数据起到了补充作用。
-
公开(公告)号:CN111104498A
公开(公告)日:2020-05-05
申请号:CN201911270705.4
申请日:2019-12-12
Applicant: 华南理工大学
IPC: G06F16/332 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种任务型对话系统中的语义理解方法,包括步骤:收集与特定任务相关的对话数据,标注出每句对话数据的领域、意图以及槽值;对收集的对话数据进行预处理,根据预处理后的数据对构建的多任务级联神经网络模型进行训练;根据模型训练获得的领域、意图以及槽值,计算多任务级联神经网络模型的损失函数,根据损失函数值多次迭代,获得最终的多任务级联神经网络模型;将待识别的对话数据进行预处理后输入到最终的模型中,识别对话数据中语句的领域、意图以及槽值。该发明解决了目前语义理解系统识别准确率低的问题,提高了任务型对话系统中自然语言理解三个子任务的识别准确率。
-
公开(公告)号:CN105912562B
公开(公告)日:2019-05-14
申请号:CN201610162397.3
申请日:2016-03-21
Applicant: 华南理工大学
IPC: G06F16/26
Abstract: 本发明公开了一种基于层次化模型的数据可视化方法及系统,其中数据可视化方法包括下列步骤:图形数据准备、图形顶点采样分层、子图顶点连接、图形顶点受力计算、顶点位置更新、图形布局递归计算、图形布局层次化绘制;其中数据可视化系统包括下列模块:图形数据准备模块、图形顶点采样分层模块、子图顶点连接模块、图形顶点受力计算模块、顶点位置更新模块、图形布局递归计算模块、图形布局层次化绘制模块。本发明可以加快算法收敛,正确计算布局,保持效果稳定性。另外,本发明不仅可以科学地绘制大数据的图形布局,而且还提供了便捷的交互操作。因此,本发明具有快速高效地计算美观布局、帮助用户挖掘潜在知识规律的优点。
-
公开(公告)号:CN105843795B
公开(公告)日:2019-05-14
申请号:CN201610162410.5
申请日:2016-03-21
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于主题模型的文档关键词抽取方法及其系统,其中文档关键词抽取方法包括下列步骤:文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成;其中文档关键词抽取系统包括下列模块:文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切;具有解决了目前关键词提取领域的部分不足之处,使文档总结达到更好的效果,方便用户迅速了解文档的概要。
-
公开(公告)号:CN103955489B
公开(公告)日:2017-09-22
申请号:CN201410150855.2
申请日:2014-04-15
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。
-
公开(公告)号:CN103903164B
公开(公告)日:2017-06-06
申请号:CN201410114328.6
申请日:2014-03-25
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。
-
公开(公告)号:CN105574047A
公开(公告)日:2016-05-11
申请号:CN201410555450.7
申请日:2014-10-17
Applicant: 任子行网络技术股份有限公司 , 华南理工大学
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/285 , H04L67/02 , H04L67/2804 , H04L67/2823
Abstract: 本发明公开了一种基于网站主页特征分析的中文网站分类方法和系统,具体包括以下步骤:S1.爬取网站内容;S2.标记网站类别;S3.提取网站信息;S4.计算权重并以特征向量的形式表示;S5.通过特征向量的对比对网站进行分类。使用所述的基于网站主页特征分析的中文网站分类方法和系统可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。
-
公开(公告)号:CN104933164A
公开(公告)日:2015-09-23
申请号:CN201510366176.3
申请日:2015-06-26
Applicant: 华南理工大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种互联网海量数据中命名实体间关系提取方法,包括以下步骤:网络信息爬取和语料库构建;文本预处理;提取代表短文档特征的关键词;获得代表实体关系的“实体-关系模式”;关系标注,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估;本发明还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统,包括:网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。
-
公开(公告)号:CN103903164A
公开(公告)日:2014-07-02
申请号:CN201410114328.6
申请日:2014-03-25
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。
-
公开(公告)号:CN115082916B
公开(公告)日:2024-12-24
申请号:CN202210597250.2
申请日:2022-05-30
Applicant: 华南理工大学
IPC: G06V20/62 , G06F40/189 , G06F40/30 , G06V10/80
Abstract: 本发明公开了一种场景文本感知的指代表达理解方法、装置及存储介质,其中方法包括:显式地提取图像中的场景文本实例,将其与指代表达句子计算相关性,其后计算场景文本实例在图像特征中的空间位置,以激活场景文本实例在图像特征中的相关区域,最终将场景文本感知的图像特征与句子文本特征进行精练、预测得到指代目标物体的位置坐标。本发明解决了当前指代表达理解技术无法显式对齐场景文本信息而导致目标物体定位错误的问题,能够提升机器人对于场景文本、视觉物体与视觉场景的认知能力,提升面向场景文本的人机交互能力。本发明可广泛应用于自然语言处理与计算机视觉技术领域。
-
-
-
-
-
-
-
-
-