-
公开(公告)号:CN111695325B
公开(公告)日:2023-03-10
申请号:CN202010023196.1
申请日:2020-01-09
Applicant: 国际商业机器公司
Inventor: M·斯里瓦萨 , R·K·甘蒂 , 林沇燮 , S·斯里兰甘斯里达兰 , A·帕利特
IPC: G06F40/14
Abstract: 本公开的实施例涉及用于自然语言处理的基于解析树的向量化。与叙述性文本的部分相对应的解析树被构造。解析树包括数据结构,数据结构根据语法将叙述性文本的部分的语义结构表示为一组标签。使用解析树中的标签作为焦点词,生成上下文窗口,上下文窗口包括在离焦点词的规定距离内的一组词,根据解析树的链路数目而确定的距离使一组词内的焦点词和上下文词分离。为焦点词和上下文词生成权重。使用权重,生成第一词的第一向量表示,第一词在叙述性文本的第二部分中。
-
公开(公告)号:CN111695325A
公开(公告)日:2020-09-22
申请号:CN202010023196.1
申请日:2020-01-09
Applicant: 国际商业机器公司
Inventor: M·斯里瓦萨 , R·K·甘蒂 , 林沇燮 , S·斯里兰甘斯里达兰 , A·帕利特
IPC: G06F40/14
Abstract: 本公开的实施例涉及用于自然语言处理的基于解析树的向量化。与叙述性文本的部分相对应的解析树被构造。解析树包括数据结构,数据结构根据语法将叙述性文本的部分的语义结构表示为一组标签。使用解析树中的标签作为焦点词,生成上下文窗口,上下文窗口包括在离焦点词的规定距离内的一组词,根据解析树的链路数目而确定的距离使一组词内的焦点词和上下文词分离。为焦点词和上下文词生成权重。使用权重,生成第一词的第一向量表示,第一词在叙述性文本的第二部分中。
-
公开(公告)号:CN114424197B
公开(公告)日:2025-05-13
申请号:CN202080066389.3
申请日:2020-09-29
Applicant: 国际商业机器公司
Inventor: R·K·甘缇 , M·斯瑞瓦塔萨 , S·斯瑞兰格姆斯瑞德哈兰 , 林沇燮 , D·阿格拉瓦尔
IPC: G06F40/10
Abstract: 可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型,其中在播种完成时,所移除的域词被恢复。
-
公开(公告)号:CN110717013A
公开(公告)日:2020-01-21
申请号:CN201910387551.0
申请日:2019-05-10
Applicant: 国际商业机器公司
Inventor: S·斯里兰加姆斯里德哈拉 , R·K·甘蒂 , M·斯里瓦萨 , 林沇燮
Abstract: 本发明的实施例包括用于文档矢量化的方法、系统和计算机程序产品。各方面包括由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每一个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。
-
公开(公告)号:CN110717013B
公开(公告)日:2023-09-19
申请号:CN201910387551.0
申请日:2019-05-10
Applicant: 国际商业机器公司
Inventor: S·斯里兰加姆斯里德哈拉 , R·K·甘蒂 , M·斯里瓦萨 , 林沇燮
Abstract: 本发明的实施例包括用于文档矢量化的方法、系统和计算机程序产品。各方面包括由处理器接收多个文档,每个文档具有多个词语。处理器利用矢量嵌入引擎来生成表示多个文档中的多个词语中的每一个词语的矢量。创建针对多个文档中的每个文档的图像表示,并且生成针对多个文档中的多个词语中的每个词语的词语概率。基于与每个词语相关联的矢量在图像中确定每个词语概率的位置,并且执行对图像的压缩操作以产生针对多个文档的紧凑表示。
-
公开(公告)号:CN114424197A
公开(公告)日:2022-04-29
申请号:CN202080066389.3
申请日:2020-09-29
Applicant: 国际商业机器公司
Inventor: R·K·甘缇 , M·斯瑞瓦塔萨 , S·斯瑞兰格姆斯瑞德哈兰 , 林沇燮 , D·阿格拉瓦尔
IPC: G06F40/10
Abstract: 可以从一个或多个数据源学习分层主题模型。可使用分层主题模型来迭代地移除所选集群中的一个或多个主导词。主导词可以涉及集群的一个或多个主要主题。所学习的分层主题模型可用一个或多个词、n元组、短语、文本片段或其组合来播种以演化分层主题模型,其中在播种完成时,所移除的域词被恢复。
-
-
-
-
-