一种基于增量学习的集成式自适应水军识别方法

    公开(公告)号:CN112906383A

    公开(公告)日:2021-06-04

    申请号:CN202110169936.7

    申请日:2021-02-05

    Abstract: 本发明涉及一种基于增量学习的集成式自适应水军识别方法,采用集成式模型,集成了传统分类器A和神经网络分类器B,传统分类器A,用于学习离散的用户信息特征,基于RNN的神经网络模型属于神经网络分类器B,通过深度学习捕获文本序列中的语言特征,集成式模型可以自适应水军特征的变化,通过多个模型同时对水军特征进行学习,以互补的形式提高了模型的识别准确率。同时增量学习通过不断学习新的样本特征,能够自适应的拟合用户各类特征的变化,无需重新收集新样本,无需重新训练模型,提升了模型可持续性效应,减少了各方人力成本。通过增量学习,模型可以实现更好的泛化性能。

    一种基于模糊匹配的新闻主体名称提取方法

    公开(公告)号:CN108829661B

    公开(公告)日:2020-03-27

    申请号:CN201810439150.0

    申请日:2018-05-09

    Inventor: 冯翱 陈郑淏 吴锡

    Abstract: 本发明涉及一种基于模糊匹配的新闻主体名称提取方法,其包括:采集大量的领域新闻;对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;使用分词工具对新闻进行分词;使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;使用主体列表构建知识图谱;将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;计算词嵌入相似度,取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。本发明能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,此外,本发明还能够适应更多的场景,匹配准确度更高。

    基于领域自适应的跨领域新闻数据情感分析方法

    公开(公告)号:CN109284376A

    公开(公告)日:2019-01-29

    申请号:CN201811049800.7

    申请日:2018-09-10

    Inventor: 周爽 吴锡 冯翱

    Abstract: 本发明涉及一种基于领域自适应的跨领域新闻数据情感分析方法,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界;在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。本发明通过领域自适应的方法,为不同领域的新闻找到一个有效的共同特征表达,实现跨领域信息融合,提高信息的利用率,节约时间及人力成本。

    基于人机协同学习的数据标注方法

    公开(公告)号:CN108898225A

    公开(公告)日:2018-11-27

    申请号:CN201810416774.0

    申请日:2018-05-04

    Inventor: 冯翱 高正杰 吴锡

    Abstract: 本发明涉及一种基于人机协同学习的数据标注方法,其包括:1、由领域专家制定分类标准和标注规范,并给出样例作为金标数据;2、以金标数据作为聚类的中心点对数据进行聚类处理,选出银标数据来训练标注人员,利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注;3、利用金标数据和银标数据作为训练集对未分类的数据进行分类,得到的置信度高的数据可直接采用,并将其加入训练数据集重新训练分类器;4、从待标注数据集中选取出最值得标注的数据,分发给标注人员进行标注,将得到的标注结果加入训练集重新训练分类器;迭代步骤3和4,直至分类器的精度达到预设的阈值。本发明能够有效降低人工标注的成本,同时保证标注的高质量。

    一种基于模糊匹配的新闻主体名称提取方法

    公开(公告)号:CN108829661A

    公开(公告)日:2018-11-16

    申请号:CN201810439150.0

    申请日:2018-05-09

    Inventor: 冯翱 陈郑淏 吴锡

    Abstract: 本发明涉及一种基于模糊匹配的新闻主体名称提取方法,其包括:采集大量的领域新闻;对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;使用分词工具对新闻进行分词;使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;使用主体列表构建知识图谱;将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;计算词嵌入相似度,取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。本发明能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,此外,本发明还能够适应更多的场景,匹配准确度更高。

    一种基于软分类模型的新闻情感和重要性分类方法

    公开(公告)号:CN108595704A

    公开(公告)日:2018-09-28

    申请号:CN201810440970.1

    申请日:2018-05-10

    Inventor: 冯翱

    Abstract: 本发明涉及一种基于软分类模型的新闻情感和重要性分类方法,其包括以下步骤:采集新闻数据;使用采集的新闻文本集全量训练LDA主题模型,得到给定主题数的主题模型;选定需要建立分类器的一定数量主题,分别提取每个主题的典型样本,进行人工标注;对于选定的每个主题,使用标注的训练数据建立该主题的分类器;对于新进新闻数据,使用主题模型对文档D进行主题划分,得到在所有主题t中的概率分布P(t|D);使用分类器对文档内容进行分类,得到分类标签或标签概率;根据文档的主题分布和每个主题中的分类标签,计算该文档的分类标签,取所有标签中分值/概率最高的作为其情感和重要性标签。

    一种交通信号装置及交通控制方法

    公开(公告)号:CN106846841A

    公开(公告)日:2017-06-13

    申请号:CN201710261662.8

    申请日:2017-04-20

    Inventor: 冯翱

    CPC classification number: G08G1/08

    Abstract: 本发明涉及一种交通信号装置及交通控制方法,信号装置包括交通信号灯、违章摄像头以及全阻断式交通信号灯,全阻断式交通信号灯包括控制模块和朝向地面方向的监控摄像头,控制模块与交通信号灯和违章摄像头之间具有通信连接。监控摄像头拍摄路口照片并形成判定数据,控制模块基于判定数据判断是否出现拥堵。当出现拥堵时,路口进入阻断状态,各方向的交通信号灯变为红灯并且信号灯配置的音源发出警示音;当路口的阻断状态开始设定的时间后,违章摄像头对新进入路口的车辆进行违章拍照;当路口拥堵状态消失时,音源停止发声、交通信号灯恢复正常状态。本发明能够实现路口拥堵的自动控制,解决了交警人力不足和“闯绿灯”判定困难的问题。

    一种基于对比解码的大语言模型幻觉缓解方法

    公开(公告)号:CN118964552A

    公开(公告)日:2024-11-15

    申请号:CN202410955938.2

    申请日:2024-07-17

    Abstract: 本发明涉及一种基于对比解码的大语言模型幻觉缓解方法,通过从大模型最终层的预测信息中剔除潜在的幻觉成分,增强输出内容的真实性,设计多层融合机制,充分利用模型各层预测的概率分布信息。引入幻觉信息筛选模型,以简洁高效的方式,整合并分析大语言模型低层中可能蕴含的幻觉信息。通过在幻觉问答数据集上对幻觉信息筛选模型进行训练,使其能够精准捕捉并拟合数据集中普遍存在的幻觉数据特征,从而实现对幻觉信息的有效识别与过滤。在解码阶段,将模型最终层输出的概率分布与幻觉信息筛选模型输出的概率分布进行对比解码,以此差异为指导,动态调整下一个标记的生成概率分布,从而引导大语言模型在解码过程中更倾向产生真实、无幻觉的内容。

    一种基于Inception模块的提示微调方法

    公开(公告)号:CN118780341A

    公开(公告)日:2024-10-15

    申请号:CN202410891816.1

    申请日:2024-07-04

    Abstract: 本发明涉及一种基于Inception模块的提示微调方法,通过将一个用于下游任务的提示网络插入预训练模型内部,该网络包含有随机选取预训练模型词表进行初始化的连续提示,以及与连续提示相连接的多个尺寸递增的带有上下投影的瓶颈网络,其形状类似于Inception模块,起到对单一连续提示向量的深度和宽度进行高效扩充的作用。在针对下游任务微调预训练模型时,冻结主干模型使得仅提示网络可以进行参数更新,因提示网络放置于预训练模型的中后部,在反向传播过程中距离较短任务相关信息损失少,同时优化训练时间和内存占用。

    一种将适配器注入预训练模型的参数高效化方法和装置

    公开(公告)号:CN117574961B

    公开(公告)日:2024-03-22

    申请号:CN202410051188.6

    申请日:2024-01-15

    Abstract: 本发明涉及一种将适配器注入预训练模型的参数高效化方法和装置,通过将一个可以用于适配各种下游任务的适配器模块注入预训练模型,所述适配器模块设置在靠近输出端,由于在训练过程中,除适配器层外的所有参数会被冻结,而适配器模块的参数靠近输出端,这样使得反向传播的距离大大减小,不仅使得计算梯度的时间大大减小,而且用于存储梯度信息所消耗的显存也会大大减小。从而使得本发明方法能够以极低的成本去适配下游任务,解决以往参数高效化方法虽然可以极大地减少参数,但其训练的时间和硬件成本并没有大幅度减小的问题。

Patent Agency Ranking