downgoon / vcad

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

精准投放的基石之DMP

downgoon opened this issue · comments

用户画像

{
    "ID": 123456,
    "姓名": "张建国",
    "性别": "",
    "出生年月": 631123200,
    "籍贯": "北京",
    "居住地": "北京",
    "教育背景": {
        "学校":"北京大学",
        "专业": "CS",
        "入学年月":1220198400
    }
}

用户画像的参考资料:https://www.usability.gov/how-to-and-tools/methods/personas.html

DMP价值

个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好都是基于用户画像的应用。

DMP玩家

精准投放=数据+算法。其中数据部分,也即是DMP平台,应该是最重要的。因为数据的积累需要时间,而算法可以快速找人合作。国内DMP主要玩家:

  • BAT
    • 淘宝达摩盘:面向开通了钻的商家用户。阿里后面还全面整合了数据,代号为GProfile
    • 腾讯有两套DMP,分别是:OMG网络媒体事业群的DMP和社交网络事业群的广点通的de
    • 百度DMP智选
  • 第三方检测机构
    • 秒针
    • AdMaster
    • Talking Data

GProfile在阿里内部应用场景主要有三个方向:

  • ID 画像: 给出一个ID,比如手机号,能查询对应用户的基本特征。比如性别,年龄,消费水平等等。
  • 人群透视: 比如有个高端化妆品品牌,可以直接圈定30~40岁的白领高薪女性,这些人的ID。
  • 人群放大: 这一群人抽象出来他们的特质,并以此为规则找到更大类似群体。

用户画像的难点

Talking Data 的王鹏:
http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture

最后说一说用户画像和标签设计/计算中的一些难点。

  • 如何定义画像主体?也可以理解为 如何唯一标识一个实体

可以理解真实世界每个人都是一个实体,但是虚拟世界他可能就变身为多个,比如 人可能有一个身份ID,但是可能有多个手机,就对应了多个手机号,多个设备终端ID,那就对应多个移动终端的使用行为;这多个终端ID分别代表了这个实体的不同特征,只有将这个实体拼接起来才能代表完整的画像。一个人可能有多个qq号,如果从qq行为的角度分析,同样的逻辑。这是终端实体多对一的体现。

反过来也会有一对多的情况,比如就一个家庭用的ipad,孩子用ipad来玩游戏,父亲用ipad来查收邮件,母亲用ipad来购物,这一个ipad代表了多个实体的行为特征,并且无法分拆。 所以要想唯一完整的定义一个实体其实很难。所以在业务领域中追求标签的完整性有时候是一个很难达到的目标,反过来应该更多的关注标签的代表性,无论是一对多还是多对一,只要能通过标签筛选出来想寻找的受众群体就可以,即便是家庭公用的ipad,有游戏标签也表明了家庭中有成员有该方面的兴趣偏好。

  • 如何打通不同源的数据?

pc端的行为信息、移动终端的行为信息和TV端的行为信息,如何将这些信息关联起来?(现在的二维码扫码登陆,就很好的解决了跨屏用户关联的问题,扫码登陆相比账号密码登陆要方便,用户愿意扫码) 核心问题在于如何将这些终端的唯一标识ID打通。TalkingData的数据体系已经建立了以TDID为核心ID的关联图谱,TalkingData的IDmapping能力已经实现了跨设备ID的关联映射。所以要解决不同源ID的打通只要接入一家类似TalkingData的数据即可。

相关技术

标签的存储有多种:hdfs、vertica、hbase。
标签的追溯属于另外一个问题,取决于你的标签的生命周期,有的标签就是最新的,有的标签就是每周每月加工的,有的标签是有时间衰减迭代的。

还有自研的开源算法系统fregata,基于spark,支持10亿样本1亿维度的超大规模运算,无需调参,超高速度。

计算标签的具体流程我在刚才讲的过程中已经说过了,这里可以再贴一下:

  • 数据抽取:从不同数据源抽取要计算标签的数据原材料。
  • 数据标准化:针对抽取的数据将其清洗为标准格式,将其中的错误数据和无效数据剔除。
  • 数据打通:不同来源的数据有不同的主键和属性,如何将这些数据关联起来是数据打通的关键,比如有设备的wifi信息,又有设备的poi信息,就可以通过wifi将设备终端和POI建立起关联。
  • 模型设计:针对不同的数据内容和业务目标设计不同的规则和算法进行模型的构建,并 使用小样本数据来验证模型的可靠性
  • 标签计算:在模型可靠性验证的基础上,部署生产运营环境来进行标签计算

腾讯的广告部门

  • OMG: 腾果针对腾讯旗下在线媒体(OMG)的资源,主要是腾讯网和腾讯视频等;
  • 广点通: 针对腾讯旗下社交广告(SNG+WXG)资源,主要是QQ和微信。

CDG(企业发展事业群)
详细:在2015年,腾讯已经进行了一次广告平台的整合。微信的广告部门与SNG(社交网络事业群)的广点通一起被划分到了CDG(企业发展事业群),共同成立了社交与效果广告平台部;2017年,腾讯将OMG的效果广告业务智汇推与CDG (企业发展事业群)的效果广告业务广点通整合。


腾讯核心产品

image

腾讯7大事业群

https://join.qq.com/business.php

腾讯的企业架构可以概括为:1+3+1。

  • TEG: 第一个1是TEG,技术工程事业群,做的是纯技术的工作,不实现具体的产品;
  • 三产品:其中的3是3个产品,分别是SNG社交网络事业群的QQ;WXG微信事业群的微信;和IEG互动娱乐事业群的泛娱乐(游戏,文学,动漫等)。另外的两个事业群,比如媒体(腾讯网)和移动工具(腾讯宝)之类的都比较冷门。
  • CDG: 最后一个1是CDG,企业发展事业群。现在腾讯把挣钱和关系未来战略相关的都集中在这个部门。广告和投资等。

Personas

The purpose of personas is to create reliable and realistic representations of your key audience segments for reference. These representations should be based on qualitative and some quantitative user research and web analytics. Remember, your personas are only as good as the research behind them. Effective personas:

  • Represent a major user group for your website
  • Express and focus on the major needs and expectations of the most important user groups
  • Give a clear picture of the user's expectations and how they're likely to use the site
  • Aid in uncovering universal features and functionality
  • Describe real people with backgrounds, goals, and values