-
公开(公告)号:CN115827876B
公开(公告)日:2023-06-02
申请号:CN202310032603.9
申请日:2023-01-10
Applicant: 中国科学院自动化研究所
IPC: G06F16/35 , G06F40/205
Abstract: 本申请提供一种未标注文本的确定方法、装置和电子设备,涉及数据处理技术领域。该方法包括:获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签;分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中,根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量,从多个未标注文本中确定多个候选未标注文本;根据多个候选未标注文本各自对应的类别标签分布熵值,从多个候选未标注文本中确定目标未标注文本,目标未标注文本用于训练文本类别分析模型,可以准确地选择未标注文本,从而提高了训练得到的文本类别分析模型的泛化能力。
-
公开(公告)号:CN116187443A
公开(公告)日:2023-05-30
申请号:CN202310149607.5
申请日:2023-02-10
Applicant: 中国科学院自动化研究所
IPC: G06N5/022
Abstract: 本发明涉及数据处理技术领域,尤其涉及一种基于多维符号动力学的因果强度检测方法和检测装置。其中,因果强度检测方法包括,首先根据时间序列构建相空间中的吸引子,然后针对吸引子中的每个元素点,基于曼哈顿距离计算方法计算元素点的最近邻点,计算每个最近邻点对应的第一模式,对每个元素点的所有最近邻点的第一模式进行平均处理,得到每个元素点的平均模式,根据平均模式得到每个元素点的真实平均模式和预测平均模式,根据真实平均模式和预测平均模式计算因果强度值。依据本发明的因果强度检测方法可以提高因果强度值的检测效率。
-
公开(公告)号:CN115658910A
公开(公告)日:2023-01-31
申请号:CN202211074171.X
申请日:2022-09-02
Applicant: 中国科学院自动化研究所 , 天津中科智能识别有限公司
IPC: G06F16/36 , G06F16/332 , G06F16/335 , G06N5/02 , G06N5/04
Abstract: 本发明提供一种知识问答方法、装置、电子设备和可读存储介质,涉及计算机技术领域,该方法包括:基于原始知识图谱构建抽象知识图谱,抽象知识图谱由抽象头实体、抽象尾实体以及抽象头实体与抽象尾实体之间的关联关系构成;获取待查询语句,待查询语句由预设头实体以及目标关联关系构成,目标关联关系表示预设头实体与待确定的目标尾实体之间的关联关系;基于待查询语句和抽象知识图谱确定至少一条满足目标关联关系的实体关系链;基于原始知识图谱以及至少一条实体关系链确定出至少一个备选尾实体,并基于至少一个备选尾实体确定待查询语句对应的目标尾实体,解决了现有技术中知识问答效率过低的缺陷。
-
公开(公告)号:CN108304502B
公开(公告)日:2020-10-02
申请号:CN201810044908.0
申请日:2018-01-17
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06K9/62
Abstract: 本发明涉及一种基于海量新闻数据的快速热点检测方法及系统,所述快速热点检测方法包括:对多个待处理新闻文本进行链式聚类,得到粗聚类集合;基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行搜索,得到细聚类集合;提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。本发明可直接对多个待处理新闻文本进行链式聚类,得到粗聚类集合;进一步基于快速搜索和寻找密度峰值方法,进行聚类,从而得到细聚类集合,并从中提取代表性短语,从而可快速捕捉到新闻文本中的热点词语,可提高计算效率和准确性。
-
公开(公告)号:CN110413787A
公开(公告)日:2019-11-05
申请号:CN201910687147.5
申请日:2019-07-26
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种文本聚类方法、装置、终端和存储介质,其中,方法包括,获取媒体中的文本数据,并对文本数据进行标签分析处理,得到N个标签,根据N个标签中各个标签之间的相似度对N个标签进行聚类处理,得到M个标签集合,在检测到可视化事件时,显示M个标签集合中每一个标签集合对应的显示标识信息,通过实施上述方法,可以基于文本中标签的相似度对文本进行聚类,提升了对文本的聚类效率。
-
公开(公告)号:CN109948047A
公开(公告)日:2019-06-28
申请号:CN201910047874.5
申请日:2019-01-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及信息检索领域,具体涉及一种基于转移熵的文化基因排序方法与系统及相关设备,目的在于降低计算的复杂度,并提高排序准确度。本发明的文化基因排序方法包括:针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户;针对每个关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值;根据关键用户的影响力值,分别计算每种文化基因的流行度值;根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据得分进行排序。本发明提供了一种对文化基因流行度自动排序的方法,降低了计算复杂度,具有较高的排序准确度。
-
公开(公告)号:CN103106616A
公开(公告)日:2013-05-15
申请号:CN201310062057.X
申请日:2013-02-27
Applicant: 中国科学院自动化研究所
IPC: G06Q50/00
Abstract: 本发明涉及社会信息化传播网络中用户行为的数据挖掘,本发明具体公开了一种基于资源整合与信息传播特征的社区发现及演化方法,从而更加精确地定义用户社区,并发现有意义的社区演化模式。本发明针对现有社区发现与演化方法中网络资源整合度低和信息传播因素考虑较少等特点,提出了基于资源整合的社区发现方法,利用共享潜在特征的协同矩阵分解方法将用户行为和用户交互行为有机地结合到一起;并以信息传播理论为指导,纳入用户的好友影响为信息传播特征,基于一阶马尔科夫假设,采用机器学习方法完成社区演化模式的挖掘。实验表明这一方案能有效地提高用户社区的挖掘与演化质量。
-
公开(公告)号:CN119961531A
公开(公告)日:2025-05-09
申请号:CN202510449701.1
申请日:2025-04-11
Applicant: 中国科学院自动化研究所
IPC: G06F16/9537 , G06F16/951
Abstract: 本发明提供了一种卫星跨域信息确定方法,可以应用于航天航空技术领域。该方法包括:基于待测区域的区域位置信息,从搜索引擎包括的多个星下点中确定与待测区域相关的多个目标星下点;基于目标星下点的时间戳,及与目标星下点相关的卫星,将多个目标星下点划分为至少一个星下点序列;对星下点序列进行边界点校验,得到校验结果;以及基于至少一个星下点序列各自的校验结果,确定待测区域的卫星跨域信息,从而至少部分的解决了相关技术中存在的卫星跨域信息计算效率较低的技术问题,实现了在提升卫星跨域信息确定速度的同时,也保证了信息的准确度。
-
公开(公告)号:CN119961397A
公开(公告)日:2025-05-09
申请号:CN202411986301.6
申请日:2024-12-31
Applicant: 中国科学院自动化研究所 , 国家电网有限公司客户服务中心 , 国网浙江省电力有限公司营销服务中心 , 中国电力科学研究院有限公司
Abstract: 本发明提供一种电力客服对话模型训练方法、对话生成方法及相关装置,电力客服对话模型训练方法,该电力客服对话模型训练方法包括:从电力行业用户的的人格特征、用户人物属性和用户种子知识构建用户代理智能体,根据客服人物属性和客服种子知识构建客服代理智能体;对从电力行业客服的对话记录数据中提取出多个话题进行蒸馏提取出引导词;通过预训练大语言模型根据引导词驱动用户代理智能体与客服代理智能体进行多轮次对话交互,并将通过每个轮次对话交互生成的对话数据对对话生成模型进行迭代训练,得到电力客服对话模型。本发明所述方法提高了对话数据采集效率和质量,增强了对话模型的问答性能,提高了用户隐私的安全性。
-
公开(公告)号:CN114818733B
公开(公告)日:2025-01-03
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
-
-
-
-
-
-
-
-