数据指标概念练习
问题所在章节:第一周:【模块一】(上)指标建模
这是一款于 2018 年 1 月 1 日全新发布的电商产品,案例选取了过去的脱敏数据,数据已经过处理。该产品在发布两个月后的新增留存数据(Sheet 1)、商品销售数据(Sheet 2)、商品详情页浏览数据(Sheet 3)及商品基本信息表(Sheet 4)。
下载链接:三节课第一章作业用数据.zip
请据此回答下列问题:
A. ARPPU B. 消费人数占比 C. 人均下单次数 D. 周留存
作业建议完成时长:1h~2h。
DAU指的是1个自然日内的活跃用户;这里的活跃定义为浏览商品的用户;
1月7号DAU指的是7号当日新增用户+1-6号之间的留存用户总数,为30420。如下图所示:
定义:7天,15天,30天留存取平均数,数值越大表明用户留存情况越好,新增用户质量越高。
从7天日留存率(7日留存/当日新增)、15天日留存率、30天日留存率的平均数来看, 1月14日的数值最高,表示质量最高的新增用户来自于1月14日。
根据 商品信息 表中的信息得知, 该电商产品的SKU数量为504;
SKU销售激活率= 销售量大于0的SKU数量 / SKU总数量;根据商品销售表中数据得知,2月5日有销售产生的SKU数量372,故当日SKU销售激活率为372/504*100%=73.81%。
定义: 详情页的购买转化率 = 当日售卖件数 / 当日页面浏览次数
三星充电器 这个商品的详情页购买转化率在以下日期都达到了100%,都达到了最高转化率:1月8日,1月14日,1月23日,1月28日,2月2日,2月11日,2月12日,但结合浏览量和购买量来看,表现最好的是1月23日。
答:春节期间的售卖情况与平时稍好。
由于电商产品在节假日会有一定程度的促销,所以此处定义的平时为:除去元旦节、圣诞节等节假日。
结合人们在网上购买商品后需要快递运输的时间,在法定春节假期前加上5天,因此此处指定春节期间时间为:2月10日 - 2月21日(共计12天)
春节期间:日均销售件数:11831,详情页购买转化率为:28.66%;
平时(1月30天日均数值):日均销售件数11880, 转化率:28.4%
综上,春节期间比平时的售卖情况稍好;
ARPU 定义:Average Revenue Per User每用户平均收入 ,1月9日ARPU值 = 当天销售额 / 当日活跃用户数, 即3059149/ 36796=83,所以1月9日 ARPU为 83.
A.:总销售/购买用户数:无法获知购买用户数量;
B. 购买用户数/总用户数: 无法获知购买用户数量;
C. 总单数/总用户数:无法获知总单数;
D. 当周每日活跃用户数总和(需去重): 新增与留存表中,存在重复的用户,无法计算。
借助数据,多角度观察业务
问题所在章节:第二周:【模块二】(上)数据工具
账号可查用户均为某一班期学员(抽取约 80%),具体可查的数据、权限已作处理,但仍包括一定程度的敏感内容。希望你切勿将账号扩散给他人。
作业所需数据截止:2018年12月6日。
作业中关键时间节点:开营时间为2018年11月29日,第一周作业提交日期为2018年12月6日(周四晚)。
观察事件「浏览课程内容」,按「班期名称」查看,看看这个班同学们学习的课程中,最受欢迎的3门课程是什么?另外,你能找到这个班期中的学霸么?(“学霸”可以自己定义,论述合理即可。)
第 1 问的基础上,通过观察「用户属性」中的「首次广告系列来源」,看看该班的同学一般都是从哪些渠道注册来到三节课的。
找到 12 月 6 日凌晨 4 点还在学习的这位勤劳的同学,通过数据了解这位同学,反推他日常的学习行为与特征,并描述。
利用「事件分析」和「分布分析」:
描述该班期同学日常每天的学习情况。
自选角度,找到你认为学习最“刻苦”的一位学员。
完成上述任务后,可从如下角度与大家分享你在完成作业的过程中的体会与心得(至少涵盖 1 个角度方可参与评优)
观察数据的过程之中,哪些洞察符合你的预期?哪些发现初看令你意外、细想又确有道理?
借助这批数据,你还发现了什么“有意思”的事情,愿意与我们分享?
作答时,先定义问题;观点明确、有理有据、逻辑自洽、简明扼要地回答问题
描述现象时,在必要的部分应采用数据支撑,使内容有所依据。良好的习惯是:注明此数据结果是通过什么方法查看得到的,以便自己和他人复现,使你的作答真实可信。
体会与心得部分无关对错,重点在你自己的收获与体会。题目中给出的角度仅供参考;更多角度,也欢迎你与大家分享。
爱惜数据环境。如需下载数据进一步分析,请适当控制数据范围。
作业建议时长:2~6h。
1,这份使用指南涵盖课程所需的核心分析功能,操作截图多以“三节课”数据为例。
2,建议大家开始写作业前,认真阅读使用指南。
使用指南:https://shimo.im/docs/6ZFjUUM20wA7cW7n/
神策数据平台中「分群功能」涉及到公司具体的业务数据,所以根据神策的设置,只有管理员权限才能使用的。
1.1 最受欢迎的3门课程
受欢迎定义:期间浏览课程内容的用户数越多表示越受欢迎;
查找方法如下:查找18.11.29-12.06期间,浏览程程内容用户数最多的3个课程。
由此可见在此期间,最受欢迎的3门课程为:
1.2 这个班期的学霸是?
根据三节课课程特性,学霸定义为以下“三多”:学习次数多(浏览课程内容多);完成思考题次数多(提交作业次数多),记录笔记次数多(笔记保存次数多) 。因为提交作业的比重在三节课中占比做高,所以给予这3个指标40%,50%,10%。
备注:某些同学没有用内置笔记本做笔记的习惯,因此比重较低。
经计算:
由上可知, ID为11373486的用户为本班期学霸。
按首次广告系列来源查看,该班期用户Top3来源渠道为未知来源(占总用户的59.59%) , “订阅号”(23.67%),baidu(7.76%), 这三者的比重超过90%。在已知来源的前提下,该班同学一般都是“订阅号”和“百度”注册来到三节课的。
3.1 找到这名凌晨4点还在学习的同学:
从 浏览课程内容总次数维度设定按用户Distinct ID进行筛选,筛选在12月26号,凌晨4点的用户(按小时显示):
从以上数据可以得知凌晨4点还在浏览课程内容学习的用户只有一个,ID为:12324043。
3.2 通过数据了解这位同学,反推他日常的学习行为与特征
通过搜索用户,找出该同学在该班期内的学习行为相关数据。
用户来源渠道:通过查看首次流量来源类型得知,该用户来自订阅号渠道的付费广告流量。
用户行为:用户来自杭州,在该班期内主要行为是 Web元素点击(59.15%)、浏览课程内容(24.65%)。
进一步查看该用户在浏览课程内容总次数数据发现(按小时显示):
该用户学习的高峰期主要集中在11.29,11.30, 12.3,12,4,12.6,且学习时间多分布在晚上。在12.1-12.2号周末期间并没有集中学习。其他时间多以碎片化学习为主。
按设备的操作系统可以得知,该用户主要通过iOS手机端和Mac机进行学习,且从12月4号开始才开始在Mac端学习。
从完成思考题的总次数和笔记保存的角度查看,确定该用户在此期间并没有提交作业,也没有做笔记。
但拉长时间线来看,可以得知该用户最终在12月9号提交了作业。说明该用户有一定的上进心。
从18年整年的数据可以得知,该用户访问首页、完成注册、支付成功都在11月15日,可以判断该用户是三节课的新用户,对整个学习流程不熟悉,未适应课程节奏。
综上:
描述该班期同学日常每天的学习情况。
自选角度,找到你认为学习最“刻苦”的一位学员。
从学习人数分布、学习分布分析、学习内容拆解这3个维度进行分析
在此期间,平均每日有169名同学进行了学习,但周五、周末的学习总人数较其他时间段少。
从用户分布上可以看出,平均63%的用户每天的学习时长多超过2小时,平均37%+的用户每天学习时长超过3小时,20%+的用户每天学习超过4小时。(由此可见三节课的用户都挺爱学习的)。
随着时间的推移,12.5号和12.6号的浏览课程内容的人数较前期增多。
平均72%+的同学观看课程视频至少2小时,47%+的同学观看视频至少3小时。
大部分完成思考题的用户用时在 2小时以内。
综上:
该班期内,同学们每天浏览课程的时间大部分在2-3小时之内,大部分完成作业的同学每次提交作业时间不超过2小时,且随着deadline的来临,浏览和观看视频的人数越多,在提交作业日,完成思考题的人数最多。11月30日至12月2日(周五、六、日)的学习的总人数和总时长相比其他天数较少,表明该班期同学在周末投入到学习上的时间不多。
自选角度,找到你认为学习最“刻苦”的一位学员。
“刻苦”定义为:一般可认为是学习时间长,笔记保存次数多,作业迭代次数多。 所以应该选取和关注的指标应该包含:浏览课程内容次数、完成思考题的次数、笔记保存次数3个方面。
所以我认为最刻苦的学员是ID号为11373486的用户。
作为三节课新用户,我以为我会在周末集中学习,但经过这段时间才发现工作日的碎片化学习才是最主要的方式(工作时间比较有规律), 周末总是有很多身不由己的事情,非常不可控,用于学习的时间并不多,并且总在最后一天才会交个初稿。这次通过查后台的用户课程学习时间和提交作业的数据,发现大部分的同学都是这种情况。
通过Web视区停留总次数发现,周五、周末的停留总次数相比其他时间段是最低的。而完成思考题的用户总次数在周四是最多的。
处理某社区电商流水数据
问题所在章节:第二周:【模块二】(下)数据处理
这是某年 1月1日 全新上线 的社区电商平台,下面提供了该电商平台 经过处理的 1-3 月的订单流水数据(「作业四」订单流水.txt.zip),请尝试完成如下任务:
作业建议时长:2~4h。
分类处理步骤:
分列后的结果如下图所示:
将分类处理为一级分类和二级分类
选择G列并插入列。选择F列 —>数据选项卡 —>分列。
按照界面提示,在文本分列向导 — 步骤之2窗口中将分隔符号设置为其他,并输入-,点击完成开始分列。
分列后的商品分类表格经处理后如下图所示:
各月成单团长数量
定义:有成单的团长数量(去重)
计算方法:以1月为例,在订单日期列中选择一月,筛选得到1月团长ID。 将团长ID列复制粘贴到新表格,选择数据选项卡中的删除重复项去重后得到1月团长ID数量635。按照以上方法,依次得知二月和三月每月的团长数量为:625和623。
团长新增数
定义:
1月团长新增数:1月成单团长数(因为1月刚上线,成单团长数量就是新增团长ID数量)
2月团长新增数:2月成单团长ID中删除与1月的重复项;
3月团长新增数:1,2,3月成单团长对比去除重复项;
根据去重后的成单团长数量,使用Vlookup函数,查找2月团长ID中与1月团长ID重复值,筛选#N/A选项计数得出团长新增数,可知,2月新增团长数为26.
3月团长ID中与2月,1月团长ID重复值,筛选#N/A选项计数得出3月团长新增数为:1个(ID号为100541)。
团长留存率
定义: 上个月的团长ID在下个月中重复出现的数量占上月总团长ID计数的比率;
计算方法:
1月团长次月留存率:1月团长ID 与2月团长ID中重复ID计数/1月团长ID总计数=( 635-36)/635=94.3%;
1月团长第3个月留存率:1月团长ID与3月团长ID中重复ID计数/1月团长ID总计数=(635-38)/635= 94.02%
2月团长次月留存率:2月新增团长ID与3月团长ID中重复ID计数/2月新增团长ID总计数= 25/26=96.15%。
插入一个数据透视表,由于参团每人限购一件,因此参团的人数即可以作为销售的数量,并将该值作为求和项,行标签选择商品一级分类和商品二级分类。各一级、二级分类销量及总销售如下所示:
定义:
销售额=订单金额
毛利润率=毛利润×100%=(销售额-团长返现)×100%
利用数据透视表,行标签选择一级分类&二级分类,求和项选择订单金额和团长返现金额。
梳理后得出各一级分类和二级分类的毛利润率:
根据参团人数、订单金额和团长返现金额图表得知,团长返现金额和订单金额及参团人数呈正相关。
假设参团人数的奖励为X,订单金额奖励为Y,团长返现金额=参团人数× X+订单金额× Y。根据表格数据,解方程式组:
43.85=19X+497Y
33.45=8X+509Y
X=1
Y=0.05
将该猜测值代入系统进行测算,发现预测的返现金额与实际返现金额没有差异:
因此,该平台的返利机制与参团人数和订单金额相关,返利金额=参团人数×1元/人+订单金额×5%。
选择以下几个指标来评估团长的贡献价值:
因为该平台上线不久,所以在现阶段可能拉新会是最重要的目标,同时因为平台最终目的是销售,所以因此将这3个指标分别给予35%,35%,30%的权重。
计算使用该评估方法的团长贡献价值
以1月份为例,新建数据透视表,得知每个团长的参团人数和订单金额;
使用COUNTIF函数得知每个团长ID的成团数量,结合之前给予的权重进行计算:
去掉一个最低值和一个最高值,团长平均得分1196。在此基础上假设将团长等级分为5个等级:青铜团长100-600,白银团长600-1200,黄金团长1200-1800,铂金团长1800-2100,钻石团长2100+。
以此为基础,可分别得出2月、3月各月的团长贡献价值。
补贴活动数据异常,抓出羊毛党
问题所在章节:第四周:【模块四】数据分析进阶
请使用如下账号登录三节课本次作业的数据平台 (https://zhangtao.cloud.sensorsdata.cn/segmentation/?project=share_bike):
项目:共享单车
账号名:data@sanjieke.com
密码:Sanjieke2019
此账号仅供课程服务期内合理使用。
账号可查数据来基于真实数据的演绎或模拟,具体可查的数据、权限已作处理,但仍包括一定程度的敏感内容。希望你切勿将账号扩散给他人。(另外:本数据所含用户IP均相同,故可忽略此维度的影响。)
作业改编自真实的业务场景。
特别说明:为突出本次作业训练目标并规避数据风险,所有数据均经过处理,并只保留了相关事件。
共享单车潮汐效应明显,上班高峰期单车大多堆积在地铁站,复用率不高;平台运力有限,难以缓解此趋势。
为解决这种情况,某单车推出了「众骑」活动,鼓励有闲暇时间的用户在早高峰期间反向骑行(将车从地铁站骑回居住社区等地),希望缓解高峰期的单车供应问题。
此任务的完成的计算方式是:在「高峰」时间段,于指定地铁站附近 100 米「解锁活动车辆」;骑出地铁站 500 米范围后,「锁定活动车辆」,即可完成。考虑到单车成本,车辆上并未配备 GPS 装置,「解锁车辆」和「锁定车辆」时,会收集手机上的地理位置信息作为判断依据。
每完成一次任务,该用户均可以得到平台发放的红包奖励(1 - 20 元不等),以维持整个活动顺利运转。
活动上线后,红包不断被发放出去,越发越多;但从消费者的角度来看,早晚高峰的单车供应并没有显著的改善。负责这个活动运营的同事很纳闷,明明有这么多人在努力搬运,为什么却没有效果?综合多方面的信息,部分同事已经开始怀疑:活动多半是被羊毛党光顾了,但苦于没有证据。
此时,他们邀你出马。
请观察该活动从 2018 年 10 月 10 日上线后,到 2018 年 10 月 31 日的数据表现,给出你的分析结论。
推荐步骤:
用户获取红包的途径:在地铁站附近100米通过设备(手机 & iPad?)解锁活动车辆,骑出地铁站500米(或者只要告诉系统离开地铁站500米+),锁定活动车辆,即可获得红包。
羊毛党作弊方式猜测:
根据任意事件的人均次数发现10-15号和28-31号之间的日均人均次数分布40-51之间,而16-27号,人均次数分布在25-31次之间;这2个时间段的人均次数差值15-20。
事件分析:找到具有代表性的用户(找到1)。
查看任意事件次数最多User ID:309893。该用户总计参加解锁和锁定次数3852次,活动期间该平均每天参与175次。 该用户参与活动日期分布发现16号数据最高。211次解锁/锁定,时长120分钟,每分钟可以解锁/锁定1.76次(约2次)。
按照普通人骑普通无变速功能的代步自行车的行驶速度为每小时12-20公里(考虑到上班高峰期人流量大,取最小值12km/h,骑行500米需要2.5分钟左右。同时加上还要返回到地铁站100米内寻找新车辆进行解锁的时间(按6km/h时计算,回程用时4分钟),因此预估两次解锁的时间应该间隔6.5分钟以上。
取16号数据进行分析发现该用户存在同一分钟内既解锁又锁定又解锁的行为,可以更加确定该用户是作弊用户。
分析该用户的特征:
用户使用设备:iPad Air2
该用户在16日解锁的三个地铁站为:苹果园,军事博物馆,中关村
这三个地方相隔很远,由于车辆上并未配备 GPS 装置,「解锁车辆」和「锁定车辆」时,会收集手机上的地理位置信息作为判断依据。因此推测该用户可能利用修改设备上的 GPS定位信息来作弊。
因此推测作弊用户的手段之一:修改GPS定位;表现:解锁的地铁站位置相距很远。
根据之前的推测,完成一次解锁-锁定的流程大概需要2.5分钟,两次解锁的时间应该间隔6.5分钟以上。因此使用漏斗分析发现,查看有多少用户不符合这个行为特征。
活动期间,解锁活动单车到锁定活动单车,窗口期1分钟的占比7.01%,用户数达到845人,再在1分钟窗口内解锁活动单车的用户数745人,说明至少700多人在作弊(因为这里只创建了3步,可能有些时候单车坏了,会出现短时间内连续扫多次的情况)?
PS:创建漏斗后,系统提示指定的漏斗已经不存在,已重新跳转,所以在这里查看了其他同学创建的漏斗。可以告诉下,我的问题出在哪里了吗?
那么这么多的用户到底分布情况如何,通过用户分布分析面板可以得知,大部分的用户锁定活动单车的次数在5-10次左右。但仍有相当大比例的用户,每天的解锁次数超过100次。
查看锁定次数超过100的用户列表发现他们的ID是连着的(说明这可能是有规模的团伙作弊?):
从用户属性来看,大部分人的年龄都比较偏大,这也不太符合共享单车用户群的假设。
由此猜测:多个连续ID均处于异常行为漏斗中,很大可能就是羊毛党作弊用户 这部分ID连着的用户是团伙作战的(大部分羊毛党都在这里)。
集中看16-28号之间相关数据可以发现:
使用设备:使用设备类型分散,但iPad比例较高和手机比重差不多,不符合正常用户使用习惯
解锁方式:有差不多10%的用户通过Wi-Fi解锁,与正常室外使用环境不符;
推测该作案团伙成员集中注册,一方面可以拍照二维码后,在团队中集体解锁,通过修改手机GPS信息更改地理位置完成任务,一方面可以解锁后将单车二维码发送给远距离的其他团伙成员完成锁定。
搭建数据驱动的三节课学习服务体系
问题所在章节:第六周:【毕业设计】
借助课程所学及工作经验,帮助打造数据驱动的三节课学习服务体系。
选择的角色:课程负责人。
该角色的业务诉求和数据指标及相关分析方法如下:
要选择模块的指标,需要知道业务目的。三节课的业务目的,主要是让用户为了通过便捷的学习系统高效学习课程和氛围良好的社群服务提供的教学效果支付学费。
为了让用户付费,三节课提供了:
针对这几个模块的数据指标及分析如下:
具体见以下表格:
选择班期内作业讨论区(社区模块)进行阐述:作业讨论区选择的指标是作业数量、作业质量和互动量。
作业数量:这里指用户提交的作业数量,产生的内容越多,可消费的内容也就越多,用户更有机会获得更多的交流。
作业质量:这里是指用户作业获得强烈推荐、优秀、合格和不合格,对于社区来说,内容质量越高,用户的留存也会相应的提高。
作业互动量涉及作业的浏览量、点赞量和评论量:这些指标可以看到社区用户之间的互动情况和用户关系,体现社区的活力。
进入作业交流区浏览作业这个埋点可以获取到作业区的数量和质量,以及学员在作业区的互动情况。
选择:批改作业这个埋点,该埋点设置了:班期名称、内容模块名称、作业所有者ID,作业名称、作业版本、作业批改状态、作业等级、作业批改时间、批改作业助教ID、作业是否强烈推荐等属性。
通过该埋点,可以得知: