你所不知道的千人千面,人群推荐算法深度解读,正确认识人群!
2023-06-12 14:44:07
去年夏天答应你写的那篇关于千人千面的文章,到现在才写出来。很多人都在催。先跟大家道歉,因为我一直想基于算法层面来解释,想把千人千面的工作原理解释透彻,但又怕太学术,让大部分读者看不懂,所以整理了半天,决定用学术内容+通俗易懂的场景讲解让大家看懂。在日常和粉丝的交流中,我发现很多人对千人的理解是错误的。以下是一些典型的错误理论,供大家参考:1。刷榜可以控制精准人群,称为细刷。2.刷单的时候会通过提前收藏,添加,第二天或者更长时间交易,让链接人群更加精准。3.只要我用女性账号刷单,就是女性标签。如果我用马的账号刷的话,那就是马的标签。4.通过直通车人群溢价刷单,会避免人群不准确的问题。5.人群的精准性会让链接的权重更高。6.不登录我的账号,我的搜索结果也不是几千人。以上论点在很多人心中根深蒂固,大多数人对人群标签的理解也就止于此。因为一些机构和非政府组织的传播,类似这样的说法非常流行(你会发现,以上的例子大部分都和刷单有关。其实这是告诉你,刷单不能保证人群的准确性)。但是,这些说法真的不对。你可能会觉得不可思议,那么这些论点怎么会错呢?先从推荐算法本身的原理给你解释一下,让你知道什么是千人千面。相信你可以自己找到答案(如果看完文章还是看不懂,可以再问我)。说到千人千面,人们给这些名词贴上标签,就不得不说推荐算法,这是数学和信息技术完美结合的伟大发明。它是一种基于大量样本统计和用户行为协同过滤来预测用户需求的技术。从买方的角度来看,这项技术将使用户实现他们想要的。从卖家的角度,可以拓展竞争维度,减少单一维度的竞争压力,让产品多元化,百花齐放。好吧,这只是一个千人千面的概念,可能不太好理解。让我们从现场来理解千人千面的存在。相信大家都有这样的经历。比如你坐月子的老婆打电话给你,说家里的尿布不够用。这些现象让我们感觉像是个人信息的泄露。是你的行为数据让平台知道了你的需求。我们以淘宝的千人千面为例。买家注册账号时,需要填写性别、身份证号等个人信息。很多人认为这是几千人的数据,但这些数据不靠谱,太基础。,这将构成数万人的事实标签。收集标签容易,建模型难。如何通过标签模型精准预测用户需求?我们以淘宝首页的内容板块为例。常规的行为推荐算法类似于这个公式:内容访问权重=行为权重*时间权重*衰减因子,行为权重:我们点击一条内容,回复,喜欢等。,这些都将包含在行为权重中。根据平台上积累的大数据,计算不同品类、不同产品下的各种运营行为的权重分值,在用户回复、喜欢、喜欢、喜欢时添加权重分值;时间权重:停留时间越长,时间权重越高;衰减因子:用户的单一行为不能作为用户喜好的直接评价,权重会随着时间逐渐降低。通过这三个权重维度的综合计算,得到我们的内容访问权重。当我们多次访问同一类型的内容时,每次都会得到相应的内容访问权重。平台把这些权重累加起来,然后用神经网络的阈值函数(Sigmoid函数)进行标准化,得到一个阈值为(0,1)的结果。通常推荐算法的标准化过程是Sigmoid函数的变形公式。得到一个阈值位为010的结果,也就是我们所说的质量分(直通车的质量分也是这样计算的)。权重(或质量分)越高,内容板块推荐相似内容的比例和频率越高。这就是行为推荐算法(你的行为影响你)。值得一提的是,世界上所有推荐算法的处理过程都差不多,没有太大区别。这个过程通常被称为标签化(比如我们搜索阅读了一个产品后,如果我们猜测你喜欢,就会推荐一个类似的产品,而阅读了多种产品后,我们猜测你喜欢推荐的频率是不一样的)。但这只是个人行为推荐。比如我们刷单的时候,让刷手提前浏览某个商品,第二天再搜索,位置会很高。很多人会想当然的认为这样会增加产品的重量。其实只是这个刷手看到的位置变高了,并不代表你的链接排名在其他用户的浏览结果下也会变高。是对刷手的错觉和误解!行为推荐结果本身就有一定的应用场景。比如我们在使用推广工具(比如直通车)的时候,浏览的是不被关注的人群标签。在这些场景中,使用行为推荐结果是有意义的,前提是你的访客是真实的,而不是刷手的。否则系统只会让你的刷手看到你的链接,真正的用户还是看不到。除此之外,我们想要得到的是广大的新客户。在获得新客户的过程中,推荐算法是如何工作的?大家在开直通车的时候都知道,政府提供了一系列的人群包,比如年龄,性别等等。,作为用户的基础数据呈现。但是,上面说的行为推荐结果难道对千人千面没有作用吗?显然,这是不可能的。平台会通过用户行为收集用户偏好,梳理出有类似需求的人群,并做出相关推荐。先说它是如何工作的:我们每个人的行为偏好都会以权重的形式记录在云平台里,一个人会有很多偏好。系统会将你的各种偏好转化为特征向量,比如你的消费能力、兴趣、社交偏好权重分别为3、6、7。那么你的偏好值就会作为一个坐标点R (3,6,7)存储在多维空间的数据模型中,然后通过这种方式,平台就可以很容易地根据与你有相似特征的人的购买行为来推荐你的浏览结果。即使你没有做过浏览行为,也会有人推荐给你一些产品或者内容。这种推荐算法远比你的行为推荐给你的结果更有意义,更准确。我们称之为相关性推荐算法(你的行为影响别人,别人的行为也影响你)。通常开直通车的人,搜索受购买行为影响的人,都是基于关联推荐算法,而关联推荐算法的前提是行为推荐算法。但是,用户的行为特征与用户的基础数据没有直接关系。比如我们开直通车,传统的人群包包含了年龄、性别等维度的属性,而不是特征属性。在每个用户的行为过程中,系统与用户填写的基础数据没有直接关系。我们用户的基本数据(年龄、性别等。)是显式数据。用户行为特征的系统化统计数据称为隐性数据。平台会将大部分已知的显示数据与其隐式数据关联起来,然后对未知的用户数据进行训练,预测用户的显式数据是否正确。比如平台里所有特征相同的人,可以预测这些人是否都是男性。大部分成熟的平台现在这样的预测结果准确率都在90%以上(换句话说,平台不会把你用户填写的性别年龄数据当回事,而是通过大数据来确定。这样,显式数据就可以作为商家选择购买广告的可选标签,比如直通车的性别和年龄段,这些都是商家可选的显式数据。系统会找出这些群体隐含的数据关系,推荐给你真正想推荐的用户。这也回答了我们一开始提出的一个问题。并不是用宝妈人群刷单就能给宝妈人群贴标签的!在这里,我们已经基本掌握了推荐算法的原理以及在平台中的使用场景。因为这个内容学术性很强,可能很多人看了都有抱怨。没办法。就算你看不懂,我也得先给你解释一下原理。对于做过算法工程师的朋友来说,读起来应该会轻松很多。不过没关系,就算你不理解前面的内容也没关系,记住后面的内容就行了!首先,所有的刷单行为都无法模拟系统对人群偏好的算法,所以不要指望一边刷单一边兼顾人群的精准性,这是永远无法实现的!第二,用户标签是被动形成的,商品标签也是。在用户购买的过程中,慢慢形成标签。千人千面固然重要,但也不要过分神化。只是概率论和数理统计的应用过程。你的产品适合什么样的人,是在子宫里就决定了的,不是你通过一些技术手段就能改变的。你要做的不是找到更好的人群。第三,人群标签不是竞价系统中的一种权重(比如搜索结果)。竞价权重本身还是要看产品的产值,但比如一个品类中有几个产品符合同一人群,系统会优先考虑这些产品。那么我们开直通车的时候,这类用户搜索产品的时候,系统会根据我们和竞品的竞价关系,决定先给用户展示哪些产品。说到这里,我突然想到,很多品类的计费比例是很大的,所以在这些品类中,用户的特征采集必然会有很大的误差,所以这个时候,即使我们付费的人是最适合这个产品的人,也不一定能得到最好的数据,所以很多商家会觉得很难为更多品类的推广付费。其实在你明白原理之后,你只需要知道你可以被动的测试所有的人群条件,找到表现最好的人群去做,而不是主观的认为我的产品一定是男性标签或者高消费群体标签,这样你的数据就可以在这个类别得到优化。更何况根据法律要求,推荐算法形成的商业广告是不允许针对个人的,所以你不用担心个人资料的泄露(即使泄露不是推荐算法造成的)。正因如此,即使你没有登录账号,你的操作行为依然会被平台收集,关联你的硬件信息,方便下一次行为推荐结果的推送。至此,我想我已经把千人千面的道理解释的很透彻了。可能大家会觉得晦涩难懂,但是你反复看,一定能看懂。这篇文章可以让大家很容易的理解千人千面的工作原理,不会被一些错误的方法所欺骗,因为错误的理解,做出一些看似有效实际上毫无意义的行为。也希望借助这个平台,认识真正有共鸣的人,多做研究和探讨(感觉很难找到知音!)