分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

字节跳动高速增长的秘密武器A/B测试正式公开

第一财经 2021-04-27 14:01:45

作者：任倾责编：高莉珊

很多人不知道，如今短视频赛道头部平台“抖音”这一名字背后，有一重要功臣A/B测试（ABtest）的身影。虽然测试出来的多个结果里，“抖音”的排位是第二名，但是一个核心原则在于——“A/B测试不一定是最好的评估方法。它不是万能的，但不会A/B测试肯定是不行的。”

4月20日，首个火山引擎技术开放日在北京方恒时尚中心举办，字节跳动副总裁杨震原以《聊聊数据驱动和用A/B测试解决问题》为题，分享了他对于A/B测试的理解。这一帮助字节跳动在算法、体验、产品等多方面快速增长的神秘武器，已经正式对外，并接受外部用户的使用。

神秘武器不神秘

A/B测试是一项非常基础的工作，海外的谷歌、微软，国内的BAT和字节跳动等公司都离不开A/B测试的辅助。单以字节公司为例，杨震原表示，A/B测试广泛应用于字节跳动方方面面，包括抖音和今日头条等产品命名、交互设计、推荐算法等。

A/B测试愈发受到企业方的重视，正是因为当下互联网行业发展过程中，一方面遭遇流量成本递增，同时又面临用户增长的永恒压力。流量红利逐渐消失的同时，用户增长空间又在下降，高效又节约成本的数据判断工具就显得尤为重要，帮助企业在产品、策略、资源等方面进行高效匹配，以及数据驱动策略的有效落地与实施。

而当下正火的A/B测试具体是指对不同策略进行对比实验，根据结果选择最优方案。虽然A/B测试历史悠久，且在互联网头部厂商被高频使用，但在国内尚未足够普及，此次字节跳动担当其技术工具的传道者与共享者角色。

具体应用方法上，简单来说A/B测试在产品优化中应用就是在产品正式迭代发版之前，为同一个目标制定两个（或以上）方案，将一小部分用户流量分成几组，让用户分别看到不同的方案设计，根据几组用户的真实数据反馈，科学的帮助产品进行决策。

而A/B测试被诸多企业采纳也是因为其自身的特性——先验性、并行性和科学性。

其中，先验性具体是指A/B测试的先验性试验体系，属于预测型结论，与“后验”的归纳性结论差别巨大。同样是用数据统计与分析版本的好坏，以往的方式是先将版本发布，再通过数据验证效果，而A/B 测试是通过科学的试验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的试验结论，这样就可以用很少的样本量就能推广到全部流量可信。

A/B测试的并行性是将两个或以上的方案同时在线试验，保证每个版本所处环境的一致性，便于更加科学客观地对比优劣。同时节省验证的时间，无需在验证完一个版本之后再测试另一个。

而科学性强调的是流量分配的科学性。A/B 测试的正确做法，是尽可能将相似特征的用户均匀的分配到试验组中，确保每个组别的用户特征的相似性，从而避免出现数据偏差，使得试验的结果更有代表性。

基础技术需提前布局

需要注意的是，A/B测试要从一开始就做，成为企业的基础工具。杨震原称，A/B测试是字节跳动一项非常基础的工具，从公司成立之初就在使用，支撑了抖音、今日头条等产品的增长迭代。

早在2014年的时候杨震原刚来字节跳动，张一鸣希望他能帮助公司将产品用户体验提升、推荐算法做到更好。杨震原发现当时公司内部已经有很多项目在做这件事，其中有一个子方向的目标是“全面、精准的用户画像体系”。但在杨震原看来，这个目标其实有很多问题——公司的实际目标是“提升推荐的用户体验”，这有很多方法来达成，用户画像只是方法之一。它是个子目标，不是要解决的目标，甚至可能都不是重要的方法。即使假设这个目标就是主要目标，也还要评估它是不是可衡量的。

因为这个方法非常难，比如衡量画像好不好这个判断非常难量化，用户的实际兴趣是什么也很难评估。因此最终杨震原判断——用户画像不是一个好的目标。首先，这个目标优先级不一定高，其次，它的评估非常难，这就意味着，这个目标很难指导公司的具体工作。

另外还有些企业用“使用时长”进行判断，比如对两个算法结果的时长进行对比，但时长不等于用户规模与体验，一味追求时长、但产品留存下降的话，也没有意义。

因此，综合多方面来看，杨震原认为，盲目确定一个衡量标准是很可怕的，看起来是个很好的目标，却把产品做死了。可以预见，如果只用使用时长作为目标的话，是有风险的。因此应尽量将多个目标综合。既要考虑用户体验，也要考虑一些客观指标，同时可能辅以一些用户访谈的直观印象，最后综合去制定方向。而合适的目标的选择既要考虑目标层次合理性，也要考虑到目标可衡性。

具体来说，也就是先选一个不要太高、不要太低的目标，并且定期衡量特别重要。聊数据驱动思路时，当试图用数据驱动思路去细化目标时，有利于你仔细反思：我的目标是不是这个？我的目标能不能量化？它会逼你把目标想得很清楚。同时确保定的目标与数据驱动的理念互相帮助，定好目标，才能更好的应用数据驱动，当你用数据驱动的方法去做事情时，它就会推动目标到底是不是合理。

确定好目标后，评估的方法的选择一般包括三个——经验判断、非A/B测试的数据分析以及A/B测试的数据分析。其中只有做精准的A/B测试才能够把因果说得更清楚，所以是更有效的方法。

充分应用但不可盲信

确定目标与评估方法后，那么到底具体何如做A/B测试？

杨震原称，当我们想观测某个方面，比如说人群或者某类产品，就把人群和产品分成A、B两组，比如发红包，或者改了设计页面，又或者是做了运营活动。除了这些操作之外，其他的分布完全一样。但这件事情只能无限逼近，不能做到理论上完全一样，除非是平行宇宙。

A/B测试看上去好像效率很低，非常复杂，要分组，还要看因素是不是剥离干净了。但是当你真正把一个事情搞清楚以后，就可以一个台阶一个台阶往上走。如果你搞不清楚，做得很快，有可能今天上一个台阶，明天下一个台阶，后天上一个台阶，不能保证一直在前进，这是非常大的差别。

目前，字节跳动A/B测试每日新增1500+实验，服务于400多项大大小小的业务，累计做了70多万次实验。这项工具已经实现产品化，通过火山引擎向企业客户开放。最早可以追溯到了字节跳动刚刚成立的时候，2014年杨震原加入后进行了优化与推动。到2016年，A/B测试已经变成一个内部广泛使用的平台，叫Libra平台，它有很多的功能。

2019年，A/B测试不只是内部平台，经过正式立项，开始做对外平台，让外部更多客户来用字节的A/B测试产品。具体如产品命名、交互设计，更改一个字体、一个弹窗、界面大小，都会做A/B测试。以及推荐算法、广告优化、用户增长、市场活动等。

但杨震原称，这项工具也存在很多应用局限，比如独立性、置信度、长短期等问题。

杨震原透露，抖音产品名字，其实是综合了A/B测试和人为判断的结果，“‘抖音’这个名字在测试结果中排名第二。但大家觉得，这个名字更符合认知，更能体现它的形态，所以还是选了它。”

另外，在独立性方面，杨震原称，如果真的想做A/B测试，就要对实验对象进行分组、操作、观测结果。这个分组要求两组是非常独立，但有时候这点并不容易保证。

其次需要考虑显著性的置信度问题，长短期影响问题，所以杨震原最后强调称，需要要结合判断相信背后本质的东西，可以用更长期的A/B测试验证它，更易做出正确的选择。如果相信短期，反而容易得出错误的结论。

“真正想去做一个科学决策，是很难有完美方法的，没有一招鲜的方法，只有最合适的方法。充分地做A/B测试是一个能够在很大程度上补充信息的过程，能够消除很多偏见，能够带来很多客观的事实。但是它也不是完美的，需要补充其他方法一起来用。”杨震原称。