# 分布分析
# 一、分布分析的意义
分布分析模型可以根据每个用户(分析主体)聚合后的总完成次数、天数或属性值划分区间,查看不同区间用户的数量及占比。以下是常见的分析场景
- 事件频率(次数):按用户每天参与战斗次数划分区间,查看每天不同战斗次数的用户数量
- 用户黏性(天数):按用户在过去七天的登录天数,区分不同黏性的用户进行后续分析
- 属性值:按一段时间内,充值的累计付费金额将用户拆分为大中小R,并查看不同等级用户数量占比
# 二、分布分析的位置和适用角色
在顶部导航栏中的“行为分析”中选择“分布分析”,即可进入分布分析模型:
公司超管 | 管理员 | 分析师 | 普通成员 | |
---|---|---|---|---|
分布分析模型 | ● | ● | ▲ | △ |
权限说明:
● 角色必有
▲ 角色默认有,可以没有
△ 角色默认没有,可以有
○ 角色必没有
# 三、分布分析的页面概览
同其他模型一样,分布分析也是由“指标设置区”、“筛选展示区”、“图表展示区”三部分组成
# 3.1 指标设置区
# 3.1.1 用户参与事件的设置
类似事件分析,分布分析设置用户参与事件时可以选择(「事件」+「属性」+「计算方法」)或直接(「事件」+「计算方法」),但支持的计算方法和事件分析有区别,具体见下:
事件 | 属性 | 计算方法 |
---|---|---|
任意事件 | 次数、天数、小时数 | |
元事件 | 次数、天数、小时数 | |
元事件 | 事件属性(数值) | 总和、均值、最大值、最小值、去重数 、方差、标准差 |
元事件 | 事件属性(布尔) | 为真数、为假数、为空数、不为空数、去重数 |
元事件 | 事件属性(文本、时间、列表) | 去重数 |
这里同样支持切换为指标公式,查看用户基于指标公式得出的数值的分布情况
# 3.1.2 分布区间的设置
点击小齿轮icon可以打开区间设置,默认情况下会选中“默认区间”,所有选项的逻辑都和数值类型属性在分组项里的区间设置完全一致。
计算方法 | 单位 |
---|---|
次数 | 次 |
天数 | 天 |
小时数 | 小时 |
数值型属性的值(去重数除外) | 与属性单位一致 |
去重数或其他角度 | “无” |
# 3.1.3 筛选条件的设置和交互
- 筛选条件的设置
可以对该事件下的事件属性或用户属性或用户分群进行筛选,筛选条件支持且或逻辑,同事件分析一致
筛选项目的数据类型 | 举例 | 可支持的筛选逻辑关键字 |
---|---|---|
数值 | 消费金额 | 等于、不等于、小于、小于等于、大于、大于等于、有值、无值、区间 |
文本 | 省份 | 等于、不等于、包含、不包含、有值、无值、正则匹配 |
列表 | ID 名单 | 存在元素、不存在元素、元素位置、有值、无值 |
时间 | 注册时间、最后活跃日期(yyyy-MM-dd HH:mm:ss.SSS 或 yyyy-MM-dd HH:mm:ss) | 位于区间、小于等于、大于等于、相对当前日期、相对事件发生时刻、有值、无值 |
布尔 | Wifi 使用 | 为真、为假、有值、无值 |
对象 | 玩家资源快照 | 有值、无值 |
对象组 | 出征阵容 | 存在对象满足、没有对象满足、全部对象满足、有值、无值 |
如果筛选条件使用了用户分群,可以选择「属于分群」或者「不属于分群」
- 筛选条件的交互
# 3.1.4 重命名
选择“重命名”后,可以对分析内容重命名,该重命名会显示在表格中
# 3.1.5 同时展示选项的选择
基于某一分布区间的用户,可以通过同时展示选项继续深入分析。
点击「同时展示」按钮,会出现新的选项,名称为「同时展示各区间用户参与」,可以选择(「事件」+「属性」+「计算方法」)或直接(「事件」+「计算方法」),选项同事件分析模型一致
事件 | 属性 | 计算方法 |
---|---|---|
任意事件 | 总次数、触发用户数、人均次数 | |
事件 | 总次数、触发用户数、人均次数 | |
事件 | 事件属性(数值型) | 总和、均值、最大值、最小值、人均值、去重数、 方差、标准差、 99分位数、95分位数、90分位数、80分位数、75分位数、70分位数、60分位数、40分位数、30分位数、25分位数、20分位数、10分位数、5分位数 |
事件 | 事件属性(列表型) | 列表去重数、列表元素去重数 |
事件 | 事件属性(布尔型) | 去重数、为真数、为假数、为空数、不为空数 |
事件 | 事件属性(非数值、布尔型) | 去重数 |
需要注意,同时展示选项的触发用户数是当前选择的分析主体的去重数,并非用户唯一ID的去重数;目前同时展示指标暂不支持下钻,也不支持保存为结果分群。
# 3.1.6 用户的分组
(1)分组查看对象的选项
分组项可选择事件的事件属性或者用户属性、用户分群、用户标签。(当分析对象为任意事件时,可选的事件属性为项目内所有事件属性)
(2)数值型、时间型、列表型数据的汇总
数值型数据可按照区间进行汇总,有默认区间、离散数字、自定义区间三种选项。
时间型数据可按照时间粒度进行汇总,分两类,即汇总和不汇总。其中,汇总包括按天、按分钟、按小时、按周、按月、按季、按年七种选项,不汇总则按毫秒级展示用户选择的指标对应的数据明细列表。
列表型数据可选择按元素、按列表整体、按元素集合三种选项汇总。
# 3.2 筛选展示区
# 3.2.1 初始分析页面及选项
有分析时段、分析粒度、分组选中项、图表样式可供选择,可导出表格或全量下载数据。如果指标设置区中有设置同时展示选项,则在筛选展示区显示「只看同时展示数据」选项。
# 3.2.2 各选项的默认设置和选择范围
分析时段: 将决定分析数据的时间范围区间,默认选中“最近 7 天(动态时间)”
分析粒度: 默认选中“按天”;可选择按天、按周、按月、合计。当选择“按周”或“按月”时,会将分析时段按实际粒度补全,补充方法与事件分析模型相同
分组选中项: 分组选中项为总体或可能的分组项,为单选框,该选项在图表类型仅在图表样式不为表格时有效
图表样式: 有表格、数值分布、百分比分布、直方图、折线图、柱状图
只看同时展示数据: 默认未勾选,选中后图表展示区内各图表均只按同时展示的指标绘制
# 3.3 图表展示区
根据用户所选的时间粒度,以及是否勾选「只看同时展示数据」,展示的图表类型也有区别
是否勾选只看同时展示数据 | 时间粒度 | 展示的图表类型 |
---|---|---|
未勾选只看同时展示数据 | 非合计 | 表格、数值分布、百分比分布 |
未勾选只看同时展示数据 | 合计 | 表格、直方图 |
勾选只看同时展示数据 | 非合计 | 表格、折线图 |
勾选只看同时展示数据 | 合计 | 表格、柱状图 |
注意:未勾选「只看同时展示数据」,可能有两种情况:
- 左侧指标设置区未设置「同时展示」指标
- 左侧指标设置区有设置「同时展示」按钮,但筛选展示区未勾选「只看同时展示数据」选项
# 3.3.1 表格
# 3.3.1.1 表格主体结构
- 第一行为表格标题,从左往右分别为事件发生时间、全部用户(分析主体)、区间1、区间2……
- 表格里的内容从上到下分别为:该区间的用户(分析主体)数量、占比、同时展示指标
- 鼠标移动到表格时,会显示该单元格对应的数据逻辑
# 3.3.1.2 事件发生时间
- 事件发生时间的区间由分析时段决定
- 按照分析粒度,将时段拆分并补全,如“2021-09-06当周”、“2021-09月”
# 3.3.1.3 分组详情的影响
分组详情为单选框,表格状态下时,该选项不影响表格的展示,即仍然展示全部数据。
# 3.3.1.4 分组的展示逻辑
- 可收起或展开分组项。当展开分组项时,可展开多个日期下的分组项
- 分组的排序按照该日期下的总人数进行排序
- 每个用户的分组属性按照实际发生行为时的属性进行统计
- 总共记录 1000 项可能的“日期+分组”数据,完整数据可选择「以页面格式下载全量数据」
- 支持下钻到用户列表,可通过下划线进入用户列表,并进一步查看单个用户的用户行为序列
# 3.3.1.5 多分组项下的展示逻辑
展开时,可同时查看多个分组项交叉下的数据
# 3.3.2 数值分布、百分比分布
展示场景:未勾选只看同时展示数据、时间粒度为非合计
每种颜色(图形)代表该区间的用户数或者占比情况随日期变化的趋势。如果在指标设置区设置了分组项,可点击「分组」下拉列表切换,默认为「总体」
# 3.3.3 直方图
展示场景:未勾选只看同时展示数据、时间粒度为合计
每个柱子代表该区间的用户数。如果在指标设置区设置了分组项,可点击「分组」下拉列表切换,默认为「总体」
# 3.3.4 折线图
展示场景:勾选只看同时展示数据、时间粒度为非合计
每条折线代表该区间用户的同时展示指标随日期变化的趋势。如果在指标设置区设置了分组项,可点击「分组」下拉列表切换,默认为「总体」
# 3.3.5 柱状图
展示场景:勾选只看同时展示数据、时间粒度为合计
每个柱子代表该区间用户的同时展示指标。如果在指标设置区设置了分组项,可点击「分组」下拉列表切换,默认为「总体」
# 四、分布分析的使用
# 4.1 常见的使用场景
1.初始分析场景
初始按总体分析,如分析一周内,每天玩家活跃小时数情况
2.按指定分组查看分析场景
如按省份查看,各省份一周内,每天玩家活跃小时数情况
3.按时间查看分布的人数变化趋势
4.按时间查看分布的人数百分比变化趋势
# 4.2 数据计算逻辑
# 4.2.1 分组的归属
在按分析粒度的细分时间内,当用户参与分析对象时,即计入数据
如果按分组查看(事件属性、用户属性或用户分群),那么在具体的分组值中记录这次行为。
举例来说: 小明、小美 1月1日分别在上海、杭州、宁波三地充值,具体充值次数如下
上海 | 杭州 | 宁波 | |
---|---|---|---|
小明 | 1 | 2 | 3 |
小美 | 9 | 6 | 3 |
上海 | 杭州 | 宁波 | 总体 | |
---|---|---|---|---|
小明 | 1 | 2 | 3 | 按总体=6、18 |
小美 | 9 | 6 | 3 | |
按城市 | 上海=1、9 | 杭州=2、6 | 宁波=3、3 | |
按省份 | 上海=1、9 | 浙江=5、9 |
# 4.2.2 分组的取值与展示上限
- 先从整个时间区间的总数据按分组进行计算,当可能的分组数超过 1000 项时,取总数值最多的 1000 项作为具体的分组类。并以这个排序作为分组详情中的排序。
- 查看某个具体日期时,可展开该日期下的具体分组。
# 五、最佳实践
# 5.1 了解参与行为的分布情况
分布分析在设置上与事件分析非常类似,从算法上来看,分布分析也可以视为事件分析指标的一种下钻,事件分析中可以获取聚合的总和以及人均值,可以计算出集中量数。而分布分析模型则可以直接将指标的完整分布情况计算出来,可以更为细致地描述实际的参与情况,从而进一步了解集中量无法表达的部分。
# 5.2 获得高价值用户
通过分布分析对用户的付费金额进行分簇,可以获取各个付费档位的用户数,并支持进行进一步的用户分群,那么通过对高付费档次的用户进行分群,可以很方便地获取高价值用户。将付费金额替换成其他值得关注的行为,同样可以对高参与度的用户进行分群,从而获取高价值用户。
# 5.3 查看不同金币消耗量用户的金币收支情况
维护游戏内虚拟货币的产出及支出平衡是运营的日常工作。以金币为例,首先按照每个用户的金币消耗量设置区间,将用户分为不同的组别,然后设置同时展示指标:金币获得量人均值 - 金币消耗量人均值。在表格内,可以通过正负分析经济系统是否健康,并细分到每个组别的情况。