博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《异构信息网络挖掘: 原理和方法》—— 第2章 基于排名的聚类 2.1 概述
阅读量:6714 次
发布时间:2019-06-25

本文共 992 字,大约阅读时间需要 3 分钟。

本节书摘来自华章出版社《异构信息网络挖掘: 原理和方法法》一 书中的第2章,第2.1节,作者( 美)孙艺洲(Yizhou Sun),(美)韩家炜(Jiawei Han),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章 基于排名的聚类

对于基于链接的异构信息网络聚类,我们需要探索涉及异构数据类型的链接。在这章中,我们学习如何使用不同类型的链接来计算不同类型对象的排名,展示排名和聚类如何相互提高,并最终获得合理的排名和聚类结果。我们将学习异构信息网络的两个特例:二元类型网络和星型网络。

2.1 概述

为了更好地理解信息网络,许多分析技术被设计出来,不过它们大多是基于同构信息网络的,其中两个方法值得关注:排名和聚类。一方面,根据数学化展示对象特征的排名函数,排名评价信息网络中的对象。通过这类函数,两个定性或定量的对象可以按一种偏序进行比较。其中PageRank[10]和HITS[34]或许是信息网络中最著名的排名算法。另一方面,聚类按照特定的相似性评价将对象进行分组,因此相似的对象在同一聚类中,反之不相似的对象则在不同的聚类中。总之,作为两个基础性的分析工具,排名和聚类可以用来总览信息网络,因此被广泛地应用于各种应用。

聚类和排名通常被视为不相干的技术,它们独立地应用于信息网络分析。然而,若只使用它们中的一个来分析信息网络常常会导致不完整,甚至有时带有偏见的分析结果。例如,在不考虑信息网络中各个对象所属聚类的前提下对它们进行排名,容易导致得到无用的结果。例如,将数据库和计算机体系的刊物或作者混在一起排名,没有什么意义;另外,无差别地将大量对象(如数千作者)聚集到一个类中也是没有意义的。然而,将两个功能(聚类和排名)集成在一起,则能得到更易于理解的结果,如例21所示。

cea53aceee9f53f01e3e462fc3c67d9045429018
继续考虑同一数据集。如果我们聚集在DB/DM领域的刊物,并且对该聚类中的刊物和作者进行排名,可以得到表23所示的结果。
9a7c85fec0af2a8467ed0d2874521c40c1bf7cc0
例2.1表明,好的聚类确实提升了排名结果的质量。而且,考虑对象的排名通常能更好地理解每个聚类。通过整合聚类和排名,有助于得到更易于理解的网络分析结果。
在这一章中,我们介绍两个基于排名的聚类算法RankClus和NetClus。它们分别适用于异构信息网络的两种特例,即双类型网络和星型网络。对这两种类型的网络,我们需要使用异构链接来计算排名和基于排名的聚类。

转载地址:http://atrlo.baihongyu.com/

你可能感兴趣的文章
必读的Python入门书籍,你都看过吗?(内有福利)
查看>>
alibaba.fastjson 乱序问题
查看>>
django 反向关联--blog.entry_set.all()查询
查看>>
网工之路
查看>>
linux 查看发行版本信息
查看>>
数据结构之二叉树遍历
查看>>
Linux rpm 命令参数使用详解[介绍和应用]
查看>>
tr的使用详解
查看>>
CentOS 6.4下PXE+Kickstart无人值守安装操作系统
查看>>
2.5 alias命令
查看>>
arp
查看>>
小博浅谈MVC
查看>>
前端技术学习之选择器(四)
查看>>
Ubuntu与windows的远程控制/远程桌面
查看>>
2016年4月4日中项作业
查看>>
ARP欺骗
查看>>
Oracle专题12之游标
查看>>
两句话笔记--架构学习之一:并发基础课程(2)
查看>>
使用andbug的monitor命令
查看>>
CentOS/RedHat上安装man手册
查看>>