比什么?
绝对值 : 销售额、阅读额 (不易得知问题的严重程度)
阅读数 : 活跃占比 、 注册转化率 (容易受到不同量级的影响)
怎么比?
同比(去年今日与今年今日的比)
环比(昨天与今天的比)
和谁比?
和自己比 (从时间维度、不同业务线、过往经验)
和行业比 (跌,涨情况)
注意:
1,指标的口径、计算方法、计量单位必须一致,否则缺乏可比性
2,对比对象需要具有可比性。“不可比”例如区域与城市比,成熟业务与新业务间当月增长率对比
从业务指标进行拆解:
案例:店铺做了活动,但发现没有达到预期的销售额。–对指标拆解后开始分析
从业务流程进行拆解:
案例:不同渠道来的用户量
1)案例引入
某大学历史系和地理系招生,共有13男13女报名。历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。
历史系:1/5(男) < 2/8 (女)
地理系:6/8(男) < 4/5 (女)
合 计:7/13(男)> 6/13 (女)
上面的数据给出一个令人迷惑的结论:尽管每个系女生的录取率都更高,但整体算下来男生的录取率却更高。
2)理解
辛普森悖论指的是:当聚合数据被分解时其中的模式发生逆转的现象。
关于上面录取率的问题,倒过来想容易很多,历史系女生被淘汰6人,男生被淘汰4人。地理系女生被淘汰1人,男生被淘汰2人。男生在基数较大的历史系申请人群中,绝对录取数更多,从而令整体淘汰率更低。
为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。
3)收获与总结
避免辛普森悖论的关键是要同时参考不同类别间的事实全貌。
准确的用户分群在数据分析中是非常重要的。有时候,“平均值”不仅不能代表整体水平,反而会造成误导,所以关键在于利用特征对用户进行合理划分有些情况下,简单粗暴的对比两总体的平均值,是没有多大的参考意义,一定要进行多维度拆解后对比才有价值斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
还木有评论哦,快来抢沙发吧~