用户画像:怎么做才有意义

用户画像:怎么做才有意义

用户画像是用户增长、数据分析、用户运营、产品设计、市场研究、广告投放、智能定价等永远绕不开的话题。当然,尤其有两个地方关于用户画像及其泛滥,一个是在数据分析师的招聘JD里,另外一个是数据服务和营销咨询类的公司里,本文就从一个数据分析师的角度,集中梳理一下用户画像有关的底层逻辑和实践方法论。

用户画像解决什么问题

Again,讲清楚这个问题最重要,因为现实中有太多的用户画像是为了做而做,往往是老板“觉得”要干,产品、运营、数据等一众部门花了大量的人力和财力,但最后成果往往在墙角吃灰,例如下面这个例子。

但是用户画像又是非常重要的,上到总裁,下到基础牛马,大家都在讲用户画像(例如下图小鹏总裁何小鹏在自己的微博大谈小鹏MONA的用户画像)。用户画像可以称之为企业的头等问题,字节在AI时代为什么依然很有竞争力,就是它说掌握的用户画像已经是国内任何企业无法比拟的了。本人曾经遇到的一个国内顶级的企业家在谈业务扩张时一上来就问的是用户画像的问题。

但大家往往却做不好用户画像,例如有的老板是这么讲自己的用户画像的:

有的打工人是这样给老板做用户画像的:

像这样的例子不胜枚举。为何会有这样的问题,怎么才能做出好的用户画像,这就是下面我们要聊的内容。

用户画像是什么?

老板们错在哪里了

上文中老板们错在哪里了,核心在于老板对于自己“用户画像”的认知不够清晰,且和产品的消费人群对自我的认知出现了失调。

即使一个用户是月薪5000以下,虽然无法经常消费你的产品,但也有可能偶尔想要改善一下生活,去吃巴奴、西贝、甚至买LV的包,所以这些高端品牌、渗透品牌的用户画像不仅有富裕人群,也极有可能还包含那些怀揣梦想和想要善待自己的年轻人,所以这些人也应该在企业的核心用户画像里,也应该在老板对于企业核心用户画像的认知里。

这便是用户画像所代表的意义——企业的核心用户群体是谁、在哪里能够找到他们。只有搞清楚了核心群体是谁,才能搞清楚他们有什么样的需求、才能指导你的产品研发;只有搞清楚他们在哪里,才能找到他们、触达他们、和他们建立长期友好的关系,让他们源源不断地来你这里消费。

所以,所有用户画像的落脚点都在“什么样的人在消费你的产品”,他们可能是一类人、也可能是完全不同的N类人,他们可能有有钱的、也有没钱的,但不管你从年龄性别去描述他们、还是用收入去描述他们、还是用他们的消费心理来描述他们,都是不停地对你的消费群体做“素描”。

换句话来说,如果你的用户画像最终回答不了“他们具有什么样的需求”和/或“如何找到他们”,那你的用户画像就是没有意义。

用户画像是标签和聚类

所以用户画像是什么,用用户画像概念的提出者——Alan Cooper的话来说,用户画像就是用户代表,是目标用户的模型,用于需求挖掘和产品设计。

“Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型,用于产品需求挖掘与交互设计。”

所以既然是用户模型,那就要用一些方式来刻画这个模型。关于用户模型的刻画,常用的方法是指标和标签,那么用户画像就是一堆描述用户的指标和标签。

当然,正如前文所说,企业的客群可能不止一个人或一类人,但千千万万个消费者每一个都有自己的独特的指标和标签,那人脑的又无法对千千万万个用户模型做处理,所以需要对客群进行归类,借助这些描述用户的指标和标签将用户分成N类,每一类的指标和标签的属性都比较相近,所以是一类人,也就是“人以群分”。

如何做出好的用户画像

传统公式或市场研究机构的通常做法是对消费者和潜在消费者做调研,让消费者尽可能地用标签来描述自己,例如以下问题:

Q:您觉得以下哪个词更能符合您?

A.喜欢新产品 B.参照多数人的想法 C.从不跟随大众

从而用聚类的方法对不同产品的目标客群的标签做聚类,得出类似下面这张图:

而在互联网公司,我们可以非常轻易地获取每一个用户的数据,所以调研的方式基本用的就很少了。一般来说,做出好的用户画像主要分为两个步骤:

Step1:设计描述用户的指标和标签

Step2:根据指标和标签对用户分类

用户指标和标签设计

大公司一般都有非常庞大的用户画像和标签系统/平台,往往例如京东的“统一标签平台”,里面存储着上千个标签供你选择。小公司可能没有画像平台,需要分析师们自己去搭建标签。当然,大家也不用觉得有大厂的标签平台就有多么好,因为大厂的算法平台指标体系非常庞大,怎么选指标往往成了问题,有一千个指标并不代表你真正知道谁是你的目标客群。所以无论是大公司标签平台,还是小公司的一穷二白,其实面对的问题是一样的。

我们先说针对特定问题的指标和标签设计,然后再聊大公司的标签平台和画像的开发问题。

标签的设计是最核心的环节,也是最容易分辨出高手和菜鸟的地方,因为你可以用无数个角度来描述一个人,但是你无法真正穷尽所有角度,所以你就得做选择,你选择用什么样的标签来描述你的用户。

这通常有三个解决步骤:

你要解决的问题是什么

问题-用户特征的假设

挖掘现有数据做假设补充

首先,要搞清楚你要解决的问题是什么,你要选择什么样的标签100%是根据你要解决的问题决定的。通常的问题有:什么样的人用我的产品?什么样的人对价促敏感?什么样的人留存更好?这些问题往往都要求我们从不同的视角去看用户。

其次,产生问题-用户特征之间的假设,这一步往往需要你有很好的业务sense和经验(这就是为什么我们在招人的时候要求候选人有经验),因为什么样的问题是和用户什么样的特征有关系这件事没法用算法来挖掘(因为算法的基础就是特征)。

比如,“什么样的人用我的产品”这个问题,如果你是有经验的分析师,一般来说你就知道会和用户本身的demo(年龄、人生阶段、性别…)有关,其次和用户的消费能力有关,还有和用户的接触渠道有关系,另外可能更多有的用户之前和产品是否有接触、之前是否买过其它品牌的类似产品、是否有某种重大的需求等…

再比如,“什么样的用户更可能流失”,一般来说会和用户的来源渠道、用户首次接触产品的价位段和促销、用户的生命周期阶段、用户最后一次的产品体验、用户的需求类型等相关。

最后是挖掘现有数据做假设补充。当然,从经验无法穷尽所有可能的高相关的标签,这时候可以多看以前的分析资料,看看是否能从中得到一些好的idea。大公司一般都有自己的知识库,这些知识库中存放了以前的项目和分析资料,毕竟,对于用户的日积月累的理解是一个公司最重要的资产。

归类和特征分析

画像的终极目的是描述“XX类的用户有XXX的特征”,所以归类和特征分析是最后的一步,当然也是最难的一步。

如何将用户进行归类,使得同类之间特征尽可能相近、异类之间特征尽可能相背呢?根据实践来看,主要有两种方法:聚类法和规则法

1. 聚类法

聚类法非常简单(且粗暴),还记得我们怎么将鸢尾花进行聚类的吗,我们根据鸢尾花的花萼的长度和宽度作为特征,使用各种聚类算法(K-Means,KNN,DBSCAN…)进行聚类,最终把鸢尾花分为三类: Setosa、Versicolour、Virginica。

但是聚类法在工业界的实践很差,问题在于:

聚类法解释性非常差。虽然用算法很容易将N多个特征聚成一类,但是很难说清楚聚的那个类究竟代表什么,尤其是当参与聚类的特征非常多的时候,这时候变量非常多,很难描述类与类之间有什么样的人群特征的差别,就像很难给这个类取个名字一样。

聚类法不一定能找到自变量和因变量的相关关系。往往我们会有N个用户的特征去做聚类,但是聚类完了之后会发现这些类与类之间用户的目标变量(购买金额、留存情况等)存在相关关系,也就达不到通过聚类“解释”用户行为了。

2. 规则法

规则法是通过对特征做一定的规则处理,而将用户进行聚类的方法,比如说“年龄大于50”、“首单优惠折扣大于30%”、“购买品类集中在刚需产品”的用户可以归为“羊毛党类”,我们常用的RFM的27个分层就属于这一种方法。

规则法在实际应用中比聚类法更为常见,因为聚类法的痛点正是规则法的优点,可解释性非常强,例如“年龄大于50”就是大爷大妈类的人群,根据常识这部分用户的确成为羊毛党的概率更高,这样去给客户或者老板做汇报就很容易,产品经理也很轻松就能联想出该群体的其它行为特征和偏好。

但是规则法的缺点在于非常难做,尤其是对于新手来说。上文中提到规则法时有一个词很重要,那就是“根据常识”。但是现实中不一定每个人都有这样的常识,尤其是当你对公司的业务和用户并不熟悉的时候。

解决这个问题的有效方法是翻阅历史资料、以及做大量的描述性数据分析,重点看目标变量在单个特征上的分布情况,例如某充电类APP的用户ARPU值在不同“车辆用途”和“是否有家充”上具有显著的差异性,那么“车辆用途”和“是否有家充”就是创建规则的重要变量。

当然,上文提到的聚类法也可以使用,虽然完全依赖聚类法会造成很多问题,但是你可以借助算法聚出来的类做研究,看看算法在做聚类时更看重哪些特征。

关于标签平台

大厂的标签和画像平台

大厂都有自己的标签和画像平台,这个平台存储了上千个用户标签,且平台作为一种数据产品,向运营、算法、产品、营销等开放,用来支持算法推荐、营销活动、用户触达、产品设计等。

以下是某大厂的算法平台的架构。

用户画像建模其实就是为用户打标签,为用户打的标签分为三种:

基于统计类的标签:这类标签是最为基础和常见的标签类型,例如对于某个用户来说,他的性别、年龄、所在城市、星座、近7日活跃情况,这类标签可以往往通过注册数据获得。

基于规则类的标签:该类标签基于用户行为及确定的规则产生,例如对平台上“消费活跃”的用户的定义为仅30天交易次数2次的用户。在实际的开发过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此基于规则类标签中涉及的规则由运营人员和数据人员共同协商制定。

基于挖掘类的标签:该类标签通过数据挖掘产生,用于对用户的某些属性或行为进行预测。例如,根据一个用户的行为习惯判断该用户是男性还是女性,根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签还需要通过算法挖掘产生。

用户画像的开发流程

开发出的用户画像,按应用场景一般分为用户人口属性画像、用户个性化标签、各类业务线用户画像、用户偏好画像和用户群体属性画像等。

1. 用户基础属性标签开发流程

用户属性标签表一般从比较基础的表中抽取用户基本属性相关的字段即可,例如注册时填写的各种身份信息等。

2. 用户行为标签开发流程

用户行为标签一般有4个主要步骤:

从日志表抽取用户浏览、收藏、点赞、加购等的行为带来的标签,并统计行为类型、时间、次数等。

抽取一段时间用户的标签的数量和,利用算法(例如TF-IDF)计算用户身上每个标签的权重值。

计算各标签对应的属性值,并与预定阈值比较,判断是否包含该属性。

基于各维度属性,判断用户画像。

3. 用户偏好标签表开发流程

用户偏好标签表在用户行为标签表的基础上,结合标签相似度的表开发而成,主要过程分为3步:

从用户行为标签表中抽取数据,计算每个用户对各标签偏好的综合打分(即权重),按分数高低做标签排序。

应用同现矩阵算法,计算两两标签之间的相似性

将步骤1和步骤2过程中建立的临时表通过标签ID相关联,以用户行为标签表为基础,找到用户偏好类标签。

4. 用户群体偏好画像开发流程

用户群体画像需要在用户标签表的基础上进行二次开发,其主要过程分为三步进行:

先将用户按性别、年龄段等人群属性进行划分,从属性表抽取相应的逻辑做用户属性归类,然后将每个用户通过用户id关联到用户标签上。

应用TF-IDF算法计算用户标签中每类人群中各标签的权重值ratio,对标签按ratio值的大小做排序。

三个用户画像开发中的常用算法

这里讲三个与标签开发相关的算法,一个是时间衰减系数、一个是余弦相似度、另一个是TF-IDF算法。

1. 时间衰减系数

时间衰减系数解决的问题是用户行为和偏好随时间变化而改变的问题,这时候就要引入一定的“权重”对用户以前的行为进行降权、而对用户最新的行为进行加权。工业界在定义时间衰减系数时往往参考牛顿冷却定律。

牛顿冷却定律描述的是一个较热的物体在一个温度比这个物体低的环境下,这个较热物体的温度会逐渐降低,最后和周围的温度达到平衡,这个温度降低的过程中,物体的温度F(t)是随着时间t的增长而呈现指数型衰减的,衰减公式为

F(t)=初始温度 ✖️️ exp(-α ✖️️ 衰减时间)

其中α是冷却系数,在实践中可以对不同的行为根据其随时间衰减的影响程度设置不同的权重值,例如购买行为可以设置得重一点,比如1.5,而浏览行为可以设置得轻一点,例如0.3。

2. TF-IDF算法

TF-IDF(英文叫 Term Frequency – Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,用来评估一个字或者词相对于一个文件集或者语料库中其它词语的重要程度。字词的重要性与它在文件集中出现的次数成正比,同时与它在语料库中出现的频率成反比。

TF-IDF的前半段,也就是TF,描述的是标签T对于用户P的重要程度。如果用w(P, T)表示一个标签T出现在用户P身上的次数,TF(P, T)表示这个标记次数在用户P所有标签标记次数(相当于文件集)中所占的比例,TF计算公式如下:

而TF-IDF的后半段,IDF(P, T)表示标签T的稀缺程度,即这个标签在所有用户标签中(相当于语料库)出现的频率,如果人人都有标签T,那么标签T本身的价值就很低,其计算公式为

这样,用户P和标签T之间的关系系数为TF(P, T)和IDF(P, T)的乘积,公式为

Rel(P, T) = TF(P, T)✖️ IDF(P, T)

举一个简单的例子,有甲乙丙三个用户,有ABCDE五种标签,每个标签在ABC每个人身上出现的次数如下图所示,那么用户甲身上A标签的TF-IDF值为4/15 ✖️ 41/9=1.21。

3. 余弦相似度

余弦相似度是一个向量空间的概念,是通过计算两个向量的夹角余弦值来评估他们的相似度。

相关性= 标签A、标签B 共有人数 / sqrt(标签A用户数 X 标签B用户数)

工业中可以用余弦相似度来做标签之间关联性的计算,从而用户做算法推荐等。其基本原理是假设N(a)表示喜欢a物品的人数,N(b)表示喜欢b物品的人数,N(a)∩N(b)表示同时喜欢a和b物品的人数,可以用N(a)∩N(b) / sqrt(N(a)✖️️N(b))表示物品a和物品b之间的相关性。

相关作品

透过图片了解喉咙的状态! bt.bt365

透过图片了解喉咙的状态!

❤️ 691 📅 07-24
河马摇耳朵代表啥 bt.bt365

河马摇耳朵代表啥

❤️ 670 📅 08-12