协同过滤(Collaborative Filtering):社会化网络的生命线编辑本段回目录
简介
协同过滤(Collaborative Filtering,维基百科的定义)是通过将过滤操作在一大群人中扩散,用于过滤大量信息的一种机制。与主流媒体都有一个或少数几个编辑设定一些指导原则不同的是,协同过滤的社会化网络可以有无穷多的编辑,并随着参与者人数的增多而变地更好。
协同过滤(维基百科的定义)是通过将过滤操作在一大群人中扩散,用于过滤大量信息的一种机制。与主流媒体都有一个或少数几个编辑设定一些指导原则不同的是,协同过滤的社会化网络可以有无穷多的编辑,并随着参与者人数的增多而变地更好。
协同过滤基于以下的两个基本原则之上。
1. 群体智慧和多数原则表明,随着社区的成长,不仅一个大的(不同的、独立的等)社区能做出比少数编辑更好的决策,而社区的进一步壮大,其作出的决定也会也来越好。因此,比起现有的哪些武断专横的媒体,如果我们能建立一些协作过滤的报纸、电视台、广播电台等,这会更好(对这个社会来说)。事实上,正如我们将看到的一些服务,如Digg、 YouTube和Last.fm,正试图来做这样的事情——协同过滤( CF )媒体。
2.协同过滤的第二个原则表明,在任何一个大型的社区中,只要拥有单个参与者以及他们之间是如何合作、如何彼此关联的足够数据,基于他们过去的爱好,我们就可以推测出,这些用户今后将会喜欢什么,也就是创造了一个协作过滤推荐引擎。当然,这依赖于一个事实,即人们的利益、偏好、以及意识形态不会随着时间的改变而发生巨大的变化。
协同过滤系统的这两个方面会产生两个非常不同的重要效果。
通过社区的判定,协同过滤的第一个效果是让你发现一些新的、有趣的、富有娱乐性的、以及有新闻价值的信息,Digg头版就是一个这样的很好例子。并非所有的内容都将直接和你的兴趣相关联,事实上有些内容则完全和您不相干。然而,随着社区的发展,会变地越来越多样化和富有个性,基于大众兴趣而推荐到头版的新闻能满足社区成员中的普遍兴趣。如果对这些基于普遍兴趣的新闻不满意呢?这就是第二个方面的效果。
协同过滤系统的第二个效果是收集的信息是基于哪种内容、你喜欢还是不喜欢的评注,并根据您提交并参加投票的习惯,这些正是用户数据概况。这可以帮助网站向用户推荐一些由你基本认同的用户(或来源)提交的内容,以及找到一些您通常经常参与投票和评论的有趣主题。这意味着,通过收集你是如何与该网站以及与其他用户交往的足够信息,协同过滤( CF )系统可以为你推荐内容。该系统发现内容并将其提供给您,而不需要你去搜寻这些。此外,随着您越来越多地使用推荐系统以及“顶和踩”的机制,这个协同过滤系统给你推荐的内容也会变地越来越精确。
一个很重要的事实,许多社会化网站并没有意识到这点,即协同过滤( CF )系统并不能根据您的喜好自动匹配内容,它有天然的缺陷。原因很简单:除非你能获得完全的多样性和独立的看法,对于某一特定的平台,一种观点总是支配着另外一种。在一个社会化网站上面,如果占主导地位的观点是左倾的,那么右翼观点几乎每次都会被淹没,因为他们没有能力将最合适的内容传递给最关注的人群。
一个很好的例子,德州议员保罗的支持者们很容易能够操纵社会新闻网站。现在,如果你能符合右翼分子的右翼观点,也能符合持左翼观点的左翼分子,并让对这两种观点有兴趣的人进行健康的超越党派政治的辩论,那么你就接近了的理想的系统。一个具有以偏好为基础的推荐功能的过滤系统,本质上来说,是社会化网络的未来。
谁在运用这样的系统?
协同过滤( CF )系统毫无疑问是社会化网络的生命线。尽管不同的平台使用的程度不同,该系统依然是核心,如果没有它,就像没有积极的交通治安,社会化网络显得像在拉合尔市中心的交通高峰那样。
社会化新闻网站
社会化新闻网站如digg和propeller,仅仅在首页范围内使用了协同过滤。一旦内容被推荐至首页,协同过滤系统的工作就算完成了。协同过滤系统能让你摆脱垃圾邮件和一些无创造性的思想,但它是不是最好的,因为它依赖于平均水平,而不是直接依赖于每一个参与者。虽然这些网站尝试和发展自己的推荐引擎,而Reddit和StumbleUpon公司通过推荐引擎已经超过了他们。这两个网站也有类似的概念,一个社区头版(基于社区中普遍成员的普遍兴趣),他们根据您的历史好恶为你提供最优质和最相关的内容,以提高你的体验和激励你更多的参与。此外,正常化的Reddit头版表明一个头版符合所有办法符合和冲淡了单个用户的体验,而标准化确保每个用户能控制内容是如何分发给他们的。
最后,即使有一些网站很少或根本没有过滤(Slashdot, Fark,等) ,那些使用协同过滤系统的推荐引擎网站将继续减弱从即将提交队列积极筛选的重要性,用于提高在个人水平层次上的用户体验。
视频流和视频分享网站
在线视频网站托管和视频分享网站之间没有多大差别。像视频分享网站YouTube有多种过滤机制,往往履行相同的职能,而不依赖于可见的投票本身,例如,是由下面几点决定的:
1.目前观看视频的人数
2.对一个视频的评论数
3.一个视频的用户评价数和收藏数
以印象为基础的系统(如Spotplex)有一个问题是,你看到或评论的东西并不意味着它就是好的。事实上,有几十个YouTube视频,我按一下,不喜欢他们,然后关闭该窗口(我看到其他人用蹩脚的英语写的的那些负面评论,非常怀疑这些对于别人会有帮助) 。其他一些网站,如break和Funny or Die使用类似StumbleUpon一样的支持和不支持的投票机制,以确定是否被推荐至头版。同样,虽然有查看相似和相关相关视频,查看来自一些相关用户的视频这样的选项,但还是没有推荐系统使用您的评价和favoriting习惯(和标签您喜欢)。
博客和微博客
在大多数情况下,博客运用一种综合了最多人浏览、最多人链接、最多评论以及最高评价等各种因素,来做为向你展示你可能喜欢的内容机制。这虽是一个比通过让人们反复试验和发生错误更好的方法,但这并不能确保每个访客都能对他们看到的内容感到满意。例如,在你的博客上,有两篇完全不同主题的博文可能是最受欢迎的,但我可能只会喜欢其中的一篇。与此同时,还必须弄清楚,什么时候开始监控每个独立的用户才是经济且及时有效的?
StumbleUpon是解决了这个问题的'大家伙' ,让你StumbleThru一个可能有你最喜欢的内容的网站,然而,这一特色,并非适用于所有的网站。
遗憾的是,绝大数微博客网站,还没有任何过滤系统。在twitter及其同类网站中,信噪比的争论异常的激烈。 不过,FriendFeed 发布了一个最基本的推荐功能,简单地展示了一些“最受欢迎”和“最多评论”的链接。
图片存储和分享网站
当我考虑协同过滤系统的时候,图片分享网站如Flickr和photobucket根本不在我的视线范围内,其中一个原因是我知道大部分使用这些网站的用户主要是为了存储和找一些cc版权的图片嵌入到他们的网站中,不过,我很惊喜地发现flickr已能帮助人们探索和发现一些好的图片。
这项对于大多数人可能是熟悉的功能是有趣的,也相当的强劲。它会考虑到如一张图片的推介流量来自哪里,谁在什么时候评论了它,谁收藏了它,又有多少人喜欢它以及其他更微妙的东西。除此之外,该网站还拥有其他一些不寻常的功能,如基于世界地图上地理标记、流行的标签、相关主题、以品质为基础的群体、相机型号和最近上传的探索。
音乐流和音乐发现网站
将推荐和发现系统结合协同过滤实施最好的例子,我所看到的都是关于音乐流和音乐发现网站。例如,在Last.fm上的实施,我认为接近完美。首先,不管你是使用他们的在线流媒体widget还是他们的客户端,Last.fm会跟踪每首你听的歌曲并收集这些数据。他们每周也会跟踪那些在你的试听列表出现和消失的艺术家们的数据,并使用这些数据为你做个性化的推荐,自动创建一个播放Last.fm向你推荐歌曲的电台。
虽然这本身就足够多的,但并不是到此为止。他们的另一个电台为您播放你通常喜欢听的歌曲,还会给你推荐整个Last.fm社区流行的歌曲,以及一些您的朋友们在听和推荐的歌曲。这是一个非常强大的聚合、过滤并推荐的系统。以下是这个推荐引擎是怎么工作的:
正如你所看到的,他们分析我听的最多的音乐家,然后推荐一些和我经常听的风格和声音都比较相似的音乐家给我。其次是根据我在网站上的好友和一些我加入的音乐群组来给我推荐一些歌曲。
那么,协同过滤和推荐会消失?
只有少数一些主流网站运用了这种协同过滤( CF )和个性化的推荐——Netflix和亚马逊是最容易想到的两家。正如你从上述中所看到的,如果没有一个推荐引擎(如看到的Flickr )这当然也有可能是一个良好的协同过滤系统。不过,如果你按照迄今最强健的推荐系统Last.fm那样增加一些推荐功能,对您的用户(因为那样用户体验会更好)和您的网站(因为用户将更多地参与和喜欢您的产品)来说,都是最好的。
全文结束
这篇文章断断续续地翻译,花了周末两天时间,但是感觉还有很多的语句翻译的不是很好很专业,请高手赐点眉批吧。谢谢。(编译:puting)
延伸阅读 编辑本段回目录
[PDF] Collaborative Filtering for Orkut Communities: Discovery of User ...
[PDF] Socially Collaborative Filtering: Give Users Relevant Content