读书笔记 [15-1]
【15-1】
【传媒营销】
《内容算法 —— 把内容变成价值的效率系统》 —— 闫泽华

“凡有痛点,必有机会”
感谢陪伴~
【摘 —— Part 1】
(A)
·【Kill Time 消磨时间】
·凡有【机会】,必有【进化】
·人这种动物,对不了解的东西总是心存恐惧
·【推荐】是特定场景下人和信息更有效率的连接
·在快速的迭代过程中,我相信一定有可以让我们慢下来的东西——那是【内容的核】
·科技让【个体价值】前所未有地凸显出来,能够吸收足够【定制化】的信息集合,以及一个个让自己【成为独一无二的个体】的理由
(B)
·推荐是一个【协作与进化的过程】
·权重~更靠前的展现位置(即【点击调权】的过程)
·推荐系统的架构与搜索系统的架构具有一定的相似度~二者实现的都是【信息与用户意图之间的匹配】
·对【内容】而言,每一个用户既是消费者又是决策者,被认可的内容得以进一步扩散,不被认可的内容则被系统纠偏,以免给更多人造成负面影响
·对【用户】而言,每一次行为反馈都在不断完善自己的「数字躯体(用户画像)」,而系统的兴趣探索行为,也在进一步给这幅画像补充更多维度
(C)
·通常将搜索系统划分为【离线】和【在线】两部分
·【索引】是一个基于【关键词】的序列,每一个关键词对应一长串提及该关键词的内容
·搜索系统的【离线部分】专注于【内容的搜集和处理】~搜索引擎的爬虫系统会从海量网站上抓取原始内容,并对搜索系统的不同要求建立不同的索引体系~【在线部分】则负责【响应用户的搜索请求,完成内容的筛选和排序,并最终把结果返回给用户】,系统会对关键词进行【分词、变换、扩充、纠错】等处理过程
(D)
·排序模块按照【特定预估目标(如点击导向、互动导向、停留时长导向等)】对候选集统一排序,并经过【规则层】的处理后最终反馈给用户
·推荐与搜索最大的差异在于【用户表意是否明确】~推荐系统需要尽可能完善用户的【长期画像(对哪些类别、实体词、话题感兴趣)】和【短期场景(时间、地点信息)】
·当用户打开内容推荐应用时,提交给系统的信息包括【时间、地理位置、网络环境、手机设备型号、登陆用户ID(身份认证)】等,基于用户ID,推荐系统会从数据库中取出用户的【画像数据(User Profile)】
(E)
·【规则】是最快的上线生效途径,可以用于【纠偏、提权】等操作
·【用户画像完善】~【查询语义丰富】~【更多的候选集合】~【更好的推荐体验】
·【短期的干预是应该逐步被「长期的机制」所替换的】~规则就像打补丁,【太多的规则系统会严重增加系统复杂度,降低可理解性】
·在推荐系统中,用户的行为不仅像在搜索系统中那样具有【针对内容价值的群体评估意义】,而且还具有【针对自身画像的个体进化意义】
·【要把用户当作小白来看待,以不断降低用户的「使用成本」】~但也需铭记,不论如何让产品普世化、小白化,每一个产品都客观存在【由浅入深的功能进阶】
(F)
·【让机器不断逼近更好的上限】
·【断物识人】,是一切推荐行为的起点
·【考虑受众特点】~选择对受众来说,【最容易引起共鸣、也最具代表性】的标签
·【更好的提取和表达待推荐内容的特点】,就是【“断物”】的意义所在~“贴标签”
·对于【初始场景或应急情况】,【规则系统】必不可少,它们是用于保证服务质量底线的措施
·【标签】是我们【对多维事物的降维理解】~【抽象】出来的事物更具【表意性、更为显著的特点】
(G)
·通常来说,【分类】是【树状】的,是【自上而下】依次划分的~在分类体系中,每个节点都有【严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值】(如将人类属性划分为男女,就能够覆盖全部人类属性)
·【标签】是【网状】的,更强调表达【属性关系(has a)】而非继承关系(is a),只有【权重大小之分】,不强调包含与被包含关系~【灵活性更强、权威性更弱】,可以被应用于分类的场景
(H)
·典型的标签产出方式有【专家系统产出(PGC)】和【普通网友产出(UGC)】两种
·通常,用户画像有三类主要应用场景:
【精准广告营销】
【行业研究(不同行业的动态进展)】
【产品效率优化(实现人和信息的高度匹配,从而提升效益、降低成本)】
·需要采用【聚类】的方式来描述某些【文字表意歧义较广、难以枚举的类型】~比如怎样定义一个人是好看的呢?大眼睛、好看的发型?大家都各有各的标准,很难达成统一
(I)
·【静态用户图像数据】:
用户独立于产品场景之外的属性,如性别、学历、年龄、婚育状况、常住位置、教育程度等~往往【较为稳定】,通常具有统计意义
·【动态用户画像数据】:
用户在产品场景中所产生的显式(对某篇内容点赞、评论、分享,关注了某个作者等)或隐式行为(某页面的停留时间、用户的操作行为轨迹等)
·常见的静态或动态用户画像数据:
【位置信息】【搜索信息】【评分】【收藏】
【分享】【评论】【播放比例或播放时长】
(J)
·【推荐算法】~【物以类聚,人以群分】
·【TF-IDF方式】的权重设计基本思想:
【出现频率较高的标签区分度越低,反之亦然】
·用于「相似度计算」的常见因素有:
【作者层面的相似性(基于订阅或偏好关系)】
【内容层面的相似性(如关键词、话题、类目、聚类、标签等)】
·【基于内容属性推荐】的好处在于,只依赖物品本身的特征而不依赖用户的行为,让【新的物品、冷僻的物品】都能得到展示的机会,但问题是【推荐质量的优劣完全依赖于「特征构建(存在一定的成本)」的完备性,同时没有很好考虑用户对物品的态度,用户的品味和调性很难得到诠释和表达】
