首页 > 新闻 > 产经

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

字节跳动高速增长的秘密武器A/B测试正式公开

第一财经 2021-04-27 14:01:45

作者:任倾    责编:高莉珊

很多人不知道,如今短视频赛道头部平台“抖音”这一名字背后,有一重要功臣A/B测试(ABtest)的身影。虽然测试出来的多个结果里,“抖音”的排位是第二名,但是一个核心原则在于——“A/B测试不一定是最好的评估方法。它不是万能的,但不会A/B测试肯定是不行的。”

4月20日,首个火山引擎技术开放日在北京方恒时尚中心举办,字节跳动副总裁杨震原以《聊聊数据驱动和用A/B测试解决问题》为题,分享了他对于A/B测试的理解。这一帮助字节跳动在算法、体验、产品等多方面快速增长的神秘武器,已经正式对外,并接受外部用户的使用。

神秘武器不神秘

A/B测试是一项非常基础的工作,海外的谷歌、微软,国内的BAT和字节跳动等公司都离不开A/B测试的辅助。单以字节公司为例,杨震原表示,A/B测试广泛应用于字节跳动方方面面,包括抖音和今日头条等产品命名、交互设计、推荐算法等。

A/B测试愈发受到企业方的重视,正是因为当下互联网行业发展过程中,一方面遭遇流量成本递增,同时又面临用户增长的永恒压力。流量红利逐渐消失的同时,用户增长空间又在下降,高效又节约成本的数据判断工具就显得尤为重要,帮助企业在产品、策略、资源等方面进行高效匹配,以及数据驱动策略的有效落地与实施。

而当下正火的A/B测试具体是指对不同策略进行对比实验,根据结果选择最优方案。虽然A/B测试历史悠久,且在互联网头部厂商被高频使用,但在国内尚未足够普及,此次字节跳动担当其技术工具的传道者与共享者角色。

具体应用方法上,简单来说A/B测试在产品优化中应用就是在产品正式迭代发版之前,为同一个目标制定两个(或以上)方案,将一小部分用户流量分成几组,让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,科学的帮助产品进行决策。

而A/B测试被诸多企业采纳也是因为其自身的特性——先验性、并行性和科学性。

其中,先验性具体是指A/B测试的先验性试验体系,属于预测型结论,与“后验”的归纳性结论差别巨大。同样是用数据统计与分析版本的好坏,以往的方式是先将版本发布,再通过数据验证效果,而A/B 测试是通过科学的试验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的试验结论,这样就可以用很少的样本量就能推广到全部流量可信。

A/B测试的并行性是将两个或以上的方案同时在线试验,保证每个版本所处环境的一致性,便于更加科学客观地对比优劣。同时节省验证的时间,无需在验证完一个版本之后再测试另一个。

而科学性强调的是流量分配的科学性。A/B 测试的正确做法,是尽可能将相似特征的用户均匀的分配到试验组中,确保每个组别的用户特征的相似性,从而避免出现数据偏差,使得试验的结果更有代表性。

基础技术需提前布局

需要注意的是,A/B测试要从一开始就做,成为企业的基础工具。杨震原称,A/B测试是字节跳动一项非常基础的工具,从公司成立之初就在使用,支撑了抖音、今日头条等产品的增长迭代。

早在2014年的时候杨震原刚来字节跳动,张一鸣希望他能帮助公司将产品用户体验提升、推荐算法做到更好。杨震原发现当时公司内部已经有很多项目在做这件事,其中有一个子方向的目标是“全面、精准的用户画像体系”。但在杨震原看来,这个目标其实有很多问题——公司的实际目标是“提升推荐的用户体验”,这有很多方法来达成,用户画像只是方法之一。它是个子目标,不是要解决的目标,甚至可能都不是重要的方法。即使假设这个目标就是主要目标,也还要评估它是不是可衡量的。

因为这个方法非常难,比如衡量画像好不好这个判断非常难量化,用户的实际兴趣是什么也很难评估。因此最终杨震原判断——用户画像不是一个好的目标。首先,这个目标优先级不一定高,其次,它的评估非常难,这就意味着,这个目标很难指导公司的具体工作。

另外还有些企业用“使用时长”进行判断,比如对两个算法结果的时长进行对比,但时长不等于用户规模与体验,一味追求时长、但产品留存下降的话,也没有意义。

因此,综合多方面来看,杨震原认为,盲目确定一个衡量标准是很可怕的,看起来是个很好的目标,却把产品做死了。可以预见,如果只用使用时长作为目标的话,是有风险的。因此应尽量将多个目标综合。既要考虑用户体验,也要考虑一些客观指标,同时可能辅以一些用户访谈的直观印象,最后综合去制定方向。而合适的目标的选择既要考虑目标层次合理性,也要考虑到目标可衡性。

具体来说,也就是先选一个不要太高、不要太低的目标,并且定期衡量特别重要。聊数据驱动思路时,当试图用数据驱动思路去细化目标时,有利于你仔细反思:我的目标是不是这个?我的目标能不能量化?它会逼你把目标想得很清楚。同时确保定的目标与数据驱动的理念互相帮助,定好目标,才能更好的应用数据驱动,当你用数据驱动的方法去做事情时,它就会推动目标到底是不是合理。

确定好目标后,评估的方法的选择一般包括三个——经验判断、非A/B测试的数据分析以及A/B测试的数据分析。其中只有做精准的A/B测试才能够把因果说得更清楚,所以是更有效的方法。

充分应用但不可盲信

确定目标与评估方法后,那么到底具体何如做A/B测试?

杨震原称,当我们想观测某个方面,比如说人群或者某类产品,就把人群和产品分成A、B两组,比如发红包,或者改了设计页面,又或者是做了运营活动。除了这些操作之外,其他的分布完全一样。但这件事情只能无限逼近,不能做到理论上完全一样,除非是平行宇宙。

A/B测试看上去好像效率很低,非常复杂,要分组,还要看因素是不是剥离干净了。但是当你真正把一个事情搞清楚以后,就可以一个台阶一个台阶往上走。如果你搞不清楚,做得很快,有可能今天上一个台阶,明天下一个台阶,后天上一个台阶,不能保证一直在前进,这是非常大的差别。

目前,字节跳动A/B测试每日新增1500+实验,服务于400多项大大小小的业务,累计做了70多万次实验。这项工具已经实现产品化,通过火山引擎向企业客户开放。最早可以追溯到了字节跳动刚刚成立的时候,2014年杨震原加入后进行了优化与推动。到2016年,A/B测试已经变成一个内部广泛使用的平台,叫Libra平台,它有很多的功能。

2019年,A/B测试不只是内部平台,经过正式立项,开始做对外平台,让外部更多客户来用字节的A/B测试产品。具体如产品命名、交互设计,更改一个字体、一个弹窗、界面大小,都会做A/B测试。以及推荐算法、广告优化、用户增长、市场活动等。

但杨震原称,这项工具也存在很多应用局限,比如独立性、置信度、长短期等问题。

杨震原透露,抖音产品名字,其实是综合了A/B测试和人为判断的结果,“‘抖音’这个名字在测试结果中排名第二。但大家觉得,这个名字更符合认知,更能体现它的形态,所以还是选了它。”

另外,在独立性方面,杨震原称,如果真的想做A/B测试,就要对实验对象进行分组、操作、观测结果。这个分组要求两组是非常独立,但有时候这点并不容易保证。

其次需要考虑显著性的置信度问题,长短期影响问题,所以杨震原最后强调称,需要要结合判断相信背后本质的东西,可以用更长期的A/B测试验证它,更易做出正确的选择。如果相信短期,反而容易得出错误的结论。

“真正想去做一个科学决策,是很难有完美方法的,没有一招鲜的方法,只有最合适的方法。充分地做A/B测试是一个能够在很大程度上补充信息的过程,能够消除很多偏见,能够带来很多客观的事实。但是它也不是完美的,需要补充其他方法一起来用。”杨震原称。

举报

文章作者

一财最热
点击关闭