一种基于词语特征值的法律专有领域词发现方法及装置

    公开(公告)号:CN110688835B

    公开(公告)日:2023-03-31

    申请号:CN201910829161.4

    申请日:2019-09-03

    Abstract: 本发明请求保护一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:首先读入待分词操作的法律领域文本数据集,根据明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;然后利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;执行基于词语特征值的法律专有领域词发现算法,计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,否则就舍弃该词串,最后完成分词,本发明提升了法律领域文档中分词工作的准确度。

    一种基于争议焦点实体的争议焦点发现方法、装置及终端

    公开(公告)号:CN111814477B

    公开(公告)日:2022-06-21

    申请号:CN202010639397.4

    申请日:2020-07-06

    Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’‑’+标题+’‑’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。

    一种基于多尺度二进制模式的车载疲劳检测方法

    公开(公告)号:CN110084220A

    公开(公告)日:2019-08-02

    申请号:CN201910378462.X

    申请日:2019-05-08

    Abstract: 本发明涉及一种基于多尺度二进制模式的车载疲劳检测方法,解决的是检测精度低的技术问题,通过采用将训练样本图像划分成若干不重复的子区域,使用多尺度局部二进制模式进行特征提取,获得多尺度局部二进制图像特征;对多尺度局部二进制图像特征进行离散傅里叶变化,得到多尺度二进制模式的直方图傅里叶特征向量;步骤四,连接构成多尺度二进制模式的直方图傅里叶特征向量,用于表征图像特征,选择核函数,用非线性支持向量机对样本图像的MLBP特征进行分类训练,并得到训练后的SVM分类模型和参数的技术方案,较好的解决了该问题,可用于车载疲劳检测中。

    一种自动搜索深度神经网络架构的方法

    公开(公告)号:CN109948772A

    公开(公告)日:2019-06-28

    申请号:CN201910225018.4

    申请日:2019-03-22

    Abstract: 本发明涉及一种自动搜索深度神经网络架构的方法,属于自动化设计深度神经网络架构技术领域,包括步骤S1:学习一个元控制器用于生成网络转换操作;S2:元控制器中使用单层双向长短期记忆网络作为编码器网络,并使用优化器对编码器网络进行训练;S3:使用编码器网络学习给定网络架构的低维表示;S4:将低维表示馈送到每个单独的行动者网络以生成特定类型的网络转换操作;S5:利用网络转换操作进行自动化网络架构空间搜索;S6:验证精确度。本发明能够利用先前训练过的网络的成果以及目标任务中现有的成功的架构来有效地搜索架构空间,具有更加出色的性能和效率。

    一种基于词语特征值的法律专有领域词发现方法及装置

    公开(公告)号:CN110688835A

    公开(公告)日:2020-01-14

    申请号:CN201910829161.4

    申请日:2019-09-03

    Abstract: 本发明请求保护一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:首先读入待分词操作的法律领域文本数据集,根据明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;然后利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;执行基于词语特征值的法律专有领域词发现算法,计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,否则就舍弃该词串,最后完成分词,本发明提升了法律领域文档中分词工作的准确度。

    一种多尺度融合面部特征提取方法及系统

    公开(公告)号:CN110110644A

    公开(公告)日:2019-08-09

    申请号:CN201910359078.5

    申请日:2019-04-30

    Abstract: 本发明提出一种多尺度融合面部特征提取方法,包括:对人脸图像样本进行多尺度划分;提取进行多尺度划分后的训练集样本中的样本图像的特征值;使用粗糙集理论进行特征值选择,获得样本特征值;根据所述样本特征值,使用支持向量机训练并实现多分类识别。本发明能够使得提取出的特征值更能够表征样本图片,减少外部环境对特征提取的影响,提高识别与鉴定的准确性,同时选取的特征值有更强的鉴别特征,以保证提取特征值的鲁棒性,提高识别效率。本发明所使用的提取方案简单快捷,使用较少的计算资源可以达到较高的精确度,可以很好的应用在图像识别、人机交互等领域。

    一种面向出行领域的车载多轮对话方法

    公开(公告)号:CN109933659A

    公开(公告)日:2019-06-25

    申请号:CN201910225111.5

    申请日:2019-03-22

    Abstract: 本发明涉及一种面向出行领域的车载多轮对话方法,属于人工智能技术领域。该方法主要包括对话意图识别过程、置信状态跟踪过程以及对话策略生成过程。对话意图识别过程主要包括构建长短期记忆网络、完成意图识别网络结构设计、对学习模型进行训练与交叉验证等;置信状态跟踪过程主要包括对每个槽构建专用状态跟踪器、训练置信跟踪器,并设计数据库查询方法进行查询等。对话策略生成过程主要包括设计总体回报函数与Q网络,搭建深度增强学习模型,依据对话状态的全局置信概率分布与策略回报选择所有可能的并行对话路径等。本方法能够为用户提供快捷高效与人性化的用户体验,在面向出行领域的车载多轮对话领域具有重要的理论意义和应用价值。

    一种基于全局-局部对比学习的跨语言自然语言理解方法

    公开(公告)号:CN116227498B

    公开(公告)日:2025-05-13

    申请号:CN202211571399.X

    申请日:2022-12-08

    Abstract: 本发明涉及一种基于全局‑局部对比学习的跨语言自然语言理解方法,属于自然语言处理技术领域。该方法针对自然语言理解模型的高性能跨语言迁移需求,研究基于全局‑局部对比学习网络的跨语言自然语言理解方法,主要包括三个模块:局部句子级意图对比学习模块,针对意图检测任务实现跨语言句子表示对齐;局部字符级槽位对比学习模块,针对槽位填充任务实现跨语言字符表示对齐;语义级全局意图‑槽位对比学习模块,实现意图和槽位间的表示对齐。本发明能够学习不同层级的细粒度对齐信息,挖掘出丰富的语义特征,缩小原始语言与目标语言之间的预测差异。

    一种基于收缩和空间交互网络的锂电池荷电状态估计方法

    公开(公告)号:CN116184224A

    公开(公告)日:2023-05-30

    申请号:CN202211550581.7

    申请日:2022-12-05

    Abstract: 本发明涉及一种基于收缩和空间交互网络的锂电池荷电状态估计方法,属于新能源技术领域。该方法包括以下步骤:S1:使用锂电池电流、电压、温度和采样时间序列中的一个或多个作为模型输入,在残差网络的基础上,将软阈值作为非线性转换层插入到深层架构中,以消除不重要的特征,实现去噪的目的,获得新的特征矩阵作为下一模块的输入;S2:使用上一模块将数据去噪处理后的特征矩阵X'作为数据输入,空间交互网络学习数据间的依赖关系,最终输出锂电池的荷电状态。本发明利用简单卷积和交互网络提取时序数据特征的同时增加各个子序列之间的联系,进而提升模型学习时序数据前后相关性的能力,完成锂电池荷电状态的准确估计。

    一种基于争议焦点实体的争议焦点发现方法、装置及终端

    公开(公告)号:CN111814477A

    公开(公告)日:2020-10-23

    申请号:CN202010639397.4

    申请日:2020-07-06

    Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’-’+标题+’-’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。

Patent Agency Ranking