简析互联网信息推荐算法
早在勒庞的时代,善于煽动引发传播就已经是公开的秘密。但是在今天、基于大数据的情绪驱动让一切变得套路化、标准化甚至科学化。
一、偏激的时代
我们正在迎来一个越发偏激的时代,网络上、生活中戾气横行。
曾几何时,当移动互联网和信息革命以摧枯拉朽之势席卷全球时,田园诗一般的浪漫氛围曾经四处飘扬。人们满心以为,信息网络将彻底打破人与人之间的信息不对称,地球变得扁平,世界变得透明,贫富分化终将逆转,各个民族和阶层有更多的机会对话沟通和解。
然而现实无情击碎了人们的幻梦。仅以财富这一项看,在互联网时代的20年里,全球贫富分化加剧,仅以美国为例,根据《彭博》报道,前1%的富豪财富接近前90%精英阶层的总和。放到全球的范围,仅2017年,1%的富人就占有了82%的财富。
马修.杰克逊曾在《人类网络》一书中指出,决定人与人不同阶层和财富走向的核心有两个:一是信息,二是机会(资源)。
那么,在信息高度透明扁平的今天,为何人类的偏激和分化却更加严重了?
有一个说法是“信息茧房”。
二、信息茧房的假说
2001年,美国法学家凯斯.桑斯坦在《网络共和国》一书中曾经提出:互联网时代,人们面对海量剧增的信息,会倾向于从中选择符合自己喜好的加以吸收,结果每个人摄取的内容越来越狭隘,一步步滑入信息茧房。
比信息茧房更加激进的说法是“网络巴尔干化”,1996年美国学者埃尔斯泰恩和布林约夫森提出,网络上的信息越来越多,人们喜欢的东西尚且看不过来,因此不会因为互联网更加开放开明,反而会更加封闭极端。
两个假说都指向了一点:信息的透明开放未必全都是好事,因为这样一来信息爆炸了、信息太多了、真假信息难辨,人们根本就看不过来了。
尽管信息透明开放带来了一种公平,但是人们“处理信息的能力和精力”参差不齐,这带来了新的不对等。
于是新的矛盾似乎产生了。人们把指向头条、淘宝这样的“算法推荐”平台,他们说:这些App基于某某算法对人做各种深度学习、大数据分析,后推荐的都是人们感兴趣的内容,这不是标准的“信息茧房”吗?
这个说法看起来很简单,也很粗暴,大的问题在于“看轻了算法”。
“算法推荐就是,我看到时尚、旅游、宠物的内容,停留的久,点了赞,结果以后平台给我推荐的都是时尚、旅游、宠物了。”他们总是这样说。
但这只是基于“内容特点”的推荐,是一种基础、表层的算法。如果仅仅只是这么简单粗暴,那么这些公司很容易就会走入兴趣的坑里,面临两大困局:
人是丰富多元的,每个人的兴趣偏好都是多样的。你随便问一个人他的爱好是什么,他自己可能也很难准确表述自己的兴趣构成。
人们的兴趣又是善变的,新的兴趣点随时可能涌现,而一些感兴趣的内容因为过度消费反而可能突然“腻味不感冒”了,从此边际效益递减。
就好像,天天在网上看萌宠,没准哪天就忽然不想看了,再看也不萌了。
事实上,无论头条、阿里,还是国外的脸书、谷歌,采用的算法维度都没这么简单。
三、算法的维度
一个成熟的算法推荐系统,至少需要考虑五个维度。
一是算法模型。
常见的有协同过滤算法、监督学习算法Logistic Regression、深度学习、Factorization Machine、GBDT五种模型。
比如协同过滤模型,系统不断分析用户大概是怎样的人,然后进一步找到和他相似属性的人,根据这一类人的兴趣爱好进行推荐,把相似的内容推荐给臭味相投的人。也就是说,决定推荐的,不仅是看你一个人今天点赞了什么,更要看和你相似的人们喜欢什么。
以一个“人群”为基数进行海量持续分析,不断迭代优化,还会陷入信息茧房吗?
二是内容分析。
比如一篇文章的语义特征(关键词、Topic、实体词)、文本相似性特征、时空特征。
三是用户标签。
除了用户的兴趣、聚类、性别、年龄、地点等身份特征,还要围绕用户行为做好数据处理策略,比如过滤噪声、热点惩罚、时间衰减、惩罚展现。
四是结果评估。
如何兼顾短期和长期指标,如何兼顾用户指标和生态指标,如何通过ABtest实验持续优化推荐结果?
五是安全规范。
比如电商平台的反黄与合规,比如内容平台的ugc内容审核、风险内容识别技术(鉴黄、反谩骂及低俗)、泛低质内容识别(假新闻、洗稿、标题党等)。
可见,真正的算法推荐系统远比“喜欢看蛋糕推荐蛋糕”要复杂得多,也深入得多、智能得多。
把锅甩给技术和算法从来都是简单不费力的方法,只不过这样一来人们就会拒绝更深入的反思和改变。
美国明尼苏达大学计算机系专门进行了实验,让两组人同时在协同过滤算法推荐的平台上获取内容:一组人对推荐结果进行“跟随”,一组人对推荐结果毫不理会。
实验结果和一般的认知完全相反:综合21个月的数据,跟随组获得的信息更加丰富多元,不理会算法推荐的一组,视野反而更加狭窄了。
前几天今日头条的CEO朱文佳在生机大会上说,头条要做的就是通用信息平台,通过推荐、关注、搜索来分发图文、视频、音频、问答等各种信息内容,这种内容和分发手段的多元组合不仅不会带来信息茧房,还会带来一个“更大的世界”。
他说的可能是大实话,就像前面所说,如果头条们做的仅仅是“喜欢看萌宠就推荐萌宠”这种粗浅的推荐,那么一定会无法解决人们兴趣的多元、兴趣的善变和兴趣满足的阈值提升。
君子不立于危墙之下,如果不对人们进行更加深度的算法学习,今日头条根本不可能有今天。
四、兴趣,还是态度?
事实上,喜欢筛选感兴趣的内容本来就是人类的习惯,是天性和本能。
试想,无论读书看报,还是逛书店、看电视,你是不是首先都要找自己感兴趣的?即便早期的网站,是不是也有主题和版块,方便你去筛选?
算法推荐只是加速了这一进程,让人们面对海量信息时、筛选感兴趣的内容更加简单高效。
前面说过,信息的爆炸带来了新的马太效应,在信息处理能力和精力上优裕的人变得更有优势。从这个角度说,算法推荐不仅不是造成分化的关键,反而是一种效率提升手段,帮助能力精力上并不占优的人弥补不足、提升效率,为什么反而要背锅呢?
每一次探讨人类的“偏激化”和“选择性认知”,我们都必须厘清一个概念,兴趣和态度。
兴趣并不会让人偏激,只有对某件事情的态度、观点和立场持续强化,变得封闭极端,人们才真正开始偏激起来。比如说:你的兴趣可能是足球,你的态度可能是对中国男足很不喜欢,如果这个情绪不断强化变成切齿痛恨了,你是不是就偏激了?
从这个角度说,算法推荐只能推荐你“感兴趣”的内容,却并不能了解你的“态度、观点和立场”,推荐你“喜欢拥护”的内容。
算法推荐可能知道你对智能手机感兴趣,会给你推荐锤子的内容,却并不知道你打心眼里不喜欢罗永浩,所以锤粉锤黑锤中立的东西都一股脑儿过来了。
算法推荐可能知道你对健康非常关注,会给你推荐医疗领域的消息,但并不知道你对中医或者西医的态度,所以它都会推荐。
分化裂化的罪魁祸首不是算法推荐,因为真正导致分裂的不是兴趣,而是人们在同一兴趣中不同的态度和立场被不断强化。
这就是常说的网络回音室原理,对于同一问题,人们总是喜欢听到和自己相似的观点,过滤相反的观点,后接收到的就像是自己的回音一样。
是什么在催生网络的回音室?如果算法推荐并不会带来信息茧房,究竟是什么在带来信息的“偏食”和情绪的偏激?而我们,又该如何应对和破解?
五、真正该警惕的
一个答案可能是“单一”。
单一的信息获取渠道、单一的信息沟通模式是问题的根源。
无论是只在网站看编辑置顶,还是只在朋友圈看别人转发的文字,亦或者只关注大V的分享,甚至只听凭算法的推荐……只要一个用户、他对某一信息获取和沟通模式形成“路径依赖”,那么视野就可能渐渐变窄。
其实,每一种信息分发方式都有其独有价值,编辑分发带来的是“你应该知道的”,搜索带来“你想知道的”,推荐带来“你可能感兴趣的”,关注带来“你关心的人的动态”。
每一种分发方式都不可或缺,只有丰富多元的信息获取组合,搜索、关注、算法、熟人和陌生人整合起来,才能避免信息的偏食,这可能也是大平台们正在试图成为“综合化”的原因。
谷歌、百度不仅做搜索引擎,还在搜索结果之外加入内容推荐;微博在单纯的关注流和热搜之外,增加智能推荐和视频;头条则是算法推荐、要闻热文、大V关注、搜索多合一。
只有整合足够丰富的信息分发模式,甚至成为通用信息分发平台,才能从根本上避免信息茧房,进而全方面、智能化地了解用户、满足其信息需求。今日头条所说的“一横一竖”,也恰恰是围绕这方面来演化的。
另一个答案可能是“孤独”。
近几年社交衰退,人们正在从社会性动物,变成孤独型生物。
人们越来越不愿意面对现实社交的风险、压力和不确定性,也越来越不愿意为了别人妥协迁就。虚拟网络的发展让人们更加沉迷于“不依赖他人”的娱乐,比如游戏和直播。各种消费服务的完善也让人们的日常生活越来越不需要与他人社交协作。
这样的社交茧房带来了这样一个结果:人们越来越懒得和陌生人沟通交流,即便对于已经认识的人,也倾向于选择和观点立场一致的人进行沟通。
“好吧”正在成为越来越多现代人拒绝沟通的常用语,而“默默拉黑”则代替“正面刚”,成了非暴力不合作的标配。
第三个答案是“情绪”。
从微博到公众号,从条漫到短视频,从咪蒙到卢克文,内容生产者和KOL们正越来越善于利用人们的情绪,好事不出门,坏事传千里,理中客或许正确,但远不如非黑即白的偏绪更能驱动大众的传播,更能带来流量。
正如《弱传播》一书中描述的那样,早在勒庞的时代,善于煽动引发传播就已经是公开的秘密。但是在今天、基于大数据的情绪驱动让一切变得套路化、标准化甚至科学化。
获取信息上路径依赖,沟通信息上社交衰退,消化信息上感情用事,比起算法推荐信息茧房的假说,或许这三个问题才更加根本,也更加隐蔽。
作者:张俊
微信公众号:阿辩论(ID:bianlunlove)
扫一扫 微信咨询
商务合作 联系我们