-
公开(公告)号:CN109711121B
公开(公告)日:2021-03-12
申请号:CN201811610142.4
申请日:2018-12-27
Applicant: 清华大学
IPC: G06F21/16 , G06F16/332
Abstract: 本发明公开了一种基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置,方法包括:得到训练集,并构建相应的马尔可夫网络模型;按照词频排序生成词典D;构成预设列表;随机从预设列表中选择一个词作为训练好的Marcov网络模型的输入;迭代式计算各个时刻词的动态条件概率分布;选用排序靠前的N个词构成候选词词列表;构建哈夫曼树,并进行哈夫曼编码;根据需要嵌入的码流从哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出;重复执行直到生成完整的隐写文本;发送完整的隐写文本,以使接收方在接收隐写文本后,对隐写文本进行解码并获取机密消息。该方法可以有效提高生成隐写文本的质量,提升系统隐蔽性。
-
公开(公告)号:CN105956158B
公开(公告)日:2019-08-09
申请号:CN201610324541.9
申请日:2016-05-17
Applicant: 清华大学
IPC: G06F16/9535 , G06F16/953 , G06F16/36
Abstract: 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
-
公开(公告)号:CN107220307A
公开(公告)日:2017-09-29
申请号:CN201710326803.X
申请日:2017-05-10
Applicant: 清华大学
Abstract: 本发明提出一种网页搜索方法和装置,其中,网页搜索方法包括:根据关键字进行搜索,得到匹配网页及其排序之后,由用户选取匹配网页中的第一网页进行标注,进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度,并据此对第二网页进行重新排序。这种方法,一方面充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,另一方面,用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注,便可以提升与搜索意图相关的第二网页的排序,降低了用户获取目标信息的时间,提高了用户的体验度。
-
公开(公告)号:CN105677894A
公开(公告)日:2016-06-15
申请号:CN201610074912.2
申请日:2016-02-02
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F16/9535 , G06F16/951
Abstract: 本发明公开了一种基于网络事件模型的新闻事件检测方法和装置,其中,该方法包括以下步骤:实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息;对第i个新闻的网页文本信息进行分析,提取第i个新闻的第一特征信息;根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值;以及根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。因此,本发明实施例提供的基于网络事件模型的新闻事件检测方法和装置,能够实时得到新闻分析结果,在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率,从而提升了网络舆情分析处理的效果。
-
公开(公告)号:CN107220307B
公开(公告)日:2020-09-25
申请号:CN201710326803.X
申请日:2017-05-10
Applicant: 清华大学
IPC: G06F16/951 , G06F16/9532 , G06F40/289 , G06F40/12
Abstract: 本发明提出一种网页搜索方法和装置,其中,网页搜索方法包括:根据关键字进行搜索,得到匹配网页及其排序之后,由用户选取匹配网页中的第一网页进行标注,进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度,并据此对第二网页进行重新排序。这种方法,一方面充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,另一方面,用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注,便可以提升与搜索意图相关的第二网页的排序,降低了用户获取目标信息的时间,提高了用户的体验度。
-
公开(公告)号:CN106445914B
公开(公告)日:2020-06-19
申请号:CN201610824487.4
申请日:2016-09-13
Applicant: 清华大学
IPC: G06F40/289 , G06F16/35
Abstract: 本发明公开了一种微博情感分类器的构建方法及构建装置,其中,方法包括以下步骤:获取多条微博数据;对微博文本进行分词得到词语集合;根据海量无标注的微博文本数据得到词语‑词语情感关联关系和词语‑情感关联关系;对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;将词语‑词语情感关联关系、词语‑情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。该方法可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
-
公开(公告)号:CN109711121A
公开(公告)日:2019-05-03
申请号:CN201811610142.4
申请日:2018-12-27
Applicant: 清华大学
IPC: G06F21/16 , G06F16/332
Abstract: 本发明公开了一种基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置,方法包括:得到训练集,并构建相应的马尔可夫网络模型;按照词频排序生成词典D;构成预设列表;随机从预设列表中选择一个词作为训练好的Marcov网络模型的输入;迭代式计算各个时刻词的动态条件概率分布;选用排序靠前的N个词构成候选词词列表;构建哈夫曼树,并进行哈夫曼编码;根据需要嵌入的码流从哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出;重复执行直到生成完整的隐写文本;发送完整的隐写文本,以使接收方在接收隐写文本后,对隐写文本进行解码并获取机密消息。该方法可以有效提高生成隐写文本的质量,提升系统隐蔽性。
-
公开(公告)号:CN106445914A
公开(公告)日:2017-02-22
申请号:CN201610824487.4
申请日:2016-09-13
Applicant: 清华大学
Abstract: 本发明公开了一种微博情感分类器的构建方法及构建装置,其中,方法包括以下步骤:获取多条微博数据;对微博文本进行分词得到词语集合;根据海量无标注的微博文本数据得到词语-词语情感关联关系和词语-情感关联关系;对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;将词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。该方法可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
-
公开(公告)号:CN105956158A
公开(公告)日:2016-09-21
申请号:CN201610324541.9
申请日:2016-05-17
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/9535
Abstract: 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
-
-
-
-
-
-
-
-