对比分析法、多维度拆解、辛普森悖论

admin 2024-02-22 51 0

　　比什么？

　　绝对值：销售额、阅读额（不易得知问题的严重程度）

　　阅读数：活跃占比、注册转化率（容易受到不同量级的影响）

　　怎么比？

　　同比（去年今日与今年今日的比）

　　环比（昨天与今天的比）

　　和谁比？

　　和自己比（从时间维度、不同业务线、过往经验）

　　和行业比（跌，涨情况）

　　注意：

　　1，指标的口径、计算方法、计量单位必须一致，否则缺乏可比性

　　2，对比对象需要具有可比性。“不可比”例如区域与城市比，成熟业务与新业务间当月增长率对比

　　从业务指标进行拆解：

　　案例：店铺做了活动，但发现没有达到预期的销售额。–对指标拆解后开始分析

　　对比分析法、多维度拆解、辛普森悖论-第1张图片-

　　从业务流程进行拆解：

　　案例：不同渠道来的用户量

　　对比分析法、多维度拆解、辛普森悖论-第2张图片-

　　1）案例引入

　　某大学历史系和地理系招生，共有13男13女报名。历史系5男报名录取1男，8女报名录取2女。地理系8男报名录取6男，5女报名录取4女。

　　历史系：1/5（男） < 2/8 （女）

　　地理系：6/8（男） < 4/5 （女）

　　合计：7/13（男）> 6/13 （女）

　　上面的数据给出一个令人迷惑的结论：尽管每个系女生的录取率都更高，但整体算下来男生的录取率却更高。

　　2）理解

　　辛普森悖论指的是：当聚合数据被分解时其中的模式发生逆转的现象。

　　关于上面录取率的问题，倒过来想容易很多，历史系女生被淘汰6人，男生被淘汰4人。地理系女生被淘汰1人，男生被淘汰2人。男生在基数较大的历史系申请人群中，绝对录取数更多，从而令整体淘汰率更低。

　　为了避免辛普森悖论出现，就需要斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响。

　　3）收获与总结

　　避免辛普森悖论的关键是要同时参考不同类别间的事实全貌。

准确的用户分群在数据分析中是非常重要的。有时候，“平均值”不仅不能代表整体水平，反而会造成误导，所以关键在于利用特征对用户进行合理划分有些情况下，简单粗暴的对比两总体的平均值，是没有多大的参考意义，一定要进行多维度拆解后对比才有价值斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响，同时必需了解该情境是否存在其他潜在要因而综合考虑。

对比分析法、多维度拆解、辛普森悖论-第3张图片-

对比分析法、多维度拆解、辛普森悖论-第4张图片-

本文地址： https://bashukeji.com/post/415.html