藏汉翻译系统的多策略藏语长句切分方法

    公开(公告)号:CN104239294B

    公开(公告)日:2017-06-06

    申请号:CN201410458322.0

    申请日:2014-09-10

    Inventor: 黄河燕 黄静

    Abstract: 本发明公开了一种用于藏汉翻译系统的、对复杂藏语长句进行快速、准确切分的多策略藏语长句切分方法,它包括:接收藏语长句,对每一成分逐个判断,若成分为数字或特殊符号、逗号但无源文模式匹配成功且模式条件满足的逗号切分实例、单词但在特征词索引表中检索不到,或者检索到然而无源文模式匹配成功且模式条件满足的特征词切分实例,则继续判断下一成分,否则记录切分点,切分点之前成分作为切分子句送出,继续判断余下第一个成分。在判断各成分之前先要判断指针当前是否指向空,若是则将余下成分送出结束,否则读取指针当前指向的成分。

    一种基于层叠条件随机场的产品名识别方法及装置

    公开(公告)号:CN105630768A

    公开(公告)日:2016-06-01

    申请号:CN201510974820.5

    申请日:2015-12-23

    Inventor: 黄河燕 杨献祥

    CPC classification number: G06F17/2765

    Abstract: 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。

    一种基于baseline的期刊评价方法及评价装置

    公开(公告)号:CN105404641A

    公开(公告)日:2016-03-16

    申请号:CN201510697408.3

    申请日:2015-10-23

    CPC classification number: G06F17/30705 G06F17/30699

    Abstract: 本发明涉及一种基于baseline的期刊评价方法,属于计算机自然语言处理技术领域。此方法首先通过建立期刊的baseline引文的网络,以便计算期刊的baseline评价值Vbaseline,然后通过建立期刊引文网络,以便计算期刊所有引用的评价值Vcount,最后综合Vbaseline以及Vcount得到基于baseline值的期刊评价指标V。与已有技术相比较,本发明方法能够综合考虑论文的关注度与新颖度:论文的被引用数代表论文的关注度,论文的baseline值代表论文本身的重要性与新颖度。基于baseline的期刊评价指标,有效的解决了平衡论文数量与质量的两个评价指标,强调了期刊原创性、新颖性、开拓性的重要性,提供了更加公平的衡量期刊重要性的方法。

    一种面向机器翻译的多策略英文长句分割方法及装置

    公开(公告)号:CN105068990A

    公开(公告)日:2015-11-18

    申请号:CN201510441708.5

    申请日:2015-07-24

    Abstract: 本发明涉及一种面向机器翻译的多策略英文长句分割方法及装置,属于自然语言处理机器翻译技术领域。该方法包括训练和实际使用两个步骤;对于训练步骤:首先准备英文训练语料,并对其进行预处理;然后对语料进行特征提取,包括提取依存句法特征、词性标注特征以及逗号位置特征等;最后创建特征模版训练CRF模型;同时设计了若干能够较准确地处理简单的现象的规则;对于实际使用步骤,首先对待处理英文长句进行特征提取,提取的特征同训练步骤;之后分别使用规则算法以及CRF模型来标注逗号的位置;然后在所标注的位置添加逗号,完成分割。对比现有技术,通过采用规则与统计相结合的策略,能够有效且准确地分割英文长句,提高机器翻译的质量。

    一种基于词汇语义和句法依存的情感关键句识别方法

    公开(公告)号:CN104281645A

    公开(公告)日:2015-01-14

    申请号:CN201410425148.X

    申请日:2014-08-27

    CPC classification number: G06F17/277

    Abstract: 本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

    一种针对词语级别的汉语情感词极性强度量化方法

    公开(公告)号:CN103838712A

    公开(公告)日:2014-06-04

    申请号:CN201310576097.6

    申请日:2013-11-18

    Abstract: 本发明公开了一种针对词语级别的汉语情感词极性强度量化方法,属于计算机自然语言处理领域。首先获取情感词典中每个字的情感倾向值,然后根据字的情感倾向值获取所测基础情感词的极性强度度量值,最后根据基础情感词的极性强度度量值获取复合情感词的极性强度度量值。本发明对比现有技术,通过采用高斯分布函数修正统计得出的字的情感倾向值误差,大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类,分别设计经Sigmoid函数倒推得出的计算公式,大幅提高了复合情感词的极性强度度量准确率。另外引入Sim(A,B)函数,利用HowNet对副词自动分类,减轻了手工标注的工作量,提高了工作效率。

    一种基于历史记录的知识推送方法

    公开(公告)号:CN103761289A

    公开(公告)日:2014-04-30

    申请号:CN201410018115.3

    申请日:2014-01-15

    CPC classification number: G06F17/30675 G06F17/3089

    Abstract: 本发明涉及一种基于历史记录的知识推送方法,属于计算机应用领域。本方法通过比较两个任务之间的相似度,获取与当前任务相似的任务,并分析其在完成过程中对知识的操作记录,然后通过一个具体的值来对知识列表排序的方法实现知识推送。本方法能够依据需求者的知识背景和应用情境,为合适的任务,选择合适的知识推送给合适的人,有效的利用了已有的知识,从而促进知识增值。

    一种基于词汇注释的领域词典自动扩充方法

    公开(公告)号:CN103116573A

    公开(公告)日:2013-05-22

    申请号:CN201310046647.3

    申请日:2013-02-06

    Abstract: 本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。

    一种未登录词的识别方法
    39.
    发明授权

    公开(公告)号:CN101751386B

    公开(公告)日:2012-05-23

    申请号:CN200910265839.7

    申请日:2009-12-28

    Abstract: 本发明公开了一种未登录词的识别方法,属于计算机科学中的自然语言处理技术领域。在未登录词的检测阶段,先用多重规则过滤重复串集合,然后使用统计模型作为主体统计框架,将尽可能多的特征融入到框架内,确保未登录词检测具有较高的准确率和召回率;在未登录词词性猜测阶段,基于统计模型框架,在通用特征的基础上,通过引入有效的新特征,来提高未登录词词性猜测的准确率。本方法对比现有技术,不受内存规模的限制,扩大了未登录词的检测范围,有效减少了未登录词检测过程中的漏召问题,尤其适合用于大规模语料的未登录词的识别。

    一种用于合成特定领域多轮对话数据的方法

    公开(公告)号:CN119311796A

    公开(公告)日:2025-01-14

    申请号:CN202411264439.5

    申请日:2024-09-10

    Abstract: 本申请提供一种用于合成特定领域多轮对话数据的方法,方法包括:步骤一、进行数据集嵌入并进行降维;将文本形式的数据集转换为高维特征向量形式,并进行降维,转换为二维向量形式;步骤二、构建对话合成器的训练数据集;步骤三、使用对抗学习训练对话数据合成器;步骤四、使用对话合成器合成特定领域的数据集;步骤五、基于规则对合成数据进行清洗与筛选。本申请提供的方法填补特定领域对话数据的空缺,增强模型在特定领域的专业能力,降低合成数据的成本。

Patent Agency Ranking