智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


关联规则学习的核心指标有三个:支持度(Support,某组合出现的频率)、置信度(Confidence,买了A的人再买B的概率)、提升度(Lift,A对B的促进作用是否强于随机)。
尿布和啤酒的支持度或许不高——不是每个周五晚上都有新手爸爸冲进超市。但置信度惊人:一旦购物篮里出现尿布,啤酒出现的概率远超基准线。提升度大于1,说明这不是巧合,是真实的行为模式。
算法不关心“为什么”。它只计算条件概率。但人类分析师补上了叙事缺口:周五、尿布、男性顾客——这三个标签叠加,指向一个被传统零售忽视的场景。年轻父亲被派去执行“紧急任务”,顺便犒劳自己。
沃尔玛的应对很直接:把啤酒货架搬到尿布区旁边。部分门店甚至尝试捆绑促销。结果?两类商品的销售额双双跳涨——具体数字从未公开,但这个故事在数据科学圈流传了三十年,本身就说明问题。
这个逻辑今天无处不在。亚马逊的“购买此商品的顾客也买了”、Netflix的“因为您看过”、Spotify的“每日推荐”,底层都是关联规则的变体。只是数据维度从“购物篮里的两件商品”膨胀到了“你过去三年听过的每一首歌、暂停的每一个节点、跳过的每一支广告”。
现代推荐系统用的是更复杂的模型——协同过滤、深度学习、图神经网络。但啤酒与尿布揭示的底层直觉没变:人的行为有黏性,过去的动作预测未来的动作,比问用户“你想要什么”更准确。
这里需要泼一点冷水。多位零售数据从业者后来考证,“啤酒与尿布”的故事在传播中被过度简化了。真实发现可能涉及更多商品组合,时间维度也不只是周五晚上,促销效果更可能是长期品类调整而非短期暴涨。
但这不妨碍它成为教学经典。它太适合解释“非直觉关联”的价值了——人类经理永远不会想到把酒精和婴儿用品放一起,算法会。
一个有趣的后续:2012年,Target(美国另一零售巨头)的算法通过购买记录推断出一名少女怀孕,比她父亲还早知道。关联规则从“啤酒尿布”的温和洞察,滑向了隐私争议的深水区。这是技术进化的必然,还是我们用错了度量衡?
