当前位置:首页> 歌单 >“今日头条”算法逻辑,自媒体作者懂点才好

“今日头条”算法逻辑,自媒体作者懂点才好

2023-05-10 14:56:27

今日头条的算法一直是业内比较认可和被认为很牛B的,我在微信的群内听取了杨震原对于算法的分析和解读,我把我听到的和想到的分享给亲们。

今日头条在整个的数据存储和运算过程中,依据现在的体谅,每天数据达到100T,每天日志100亿行,以及包含很多的特征组合数。
在如此庞大的背后,有8000台服务器作为支撑。
1
介质的变化
今日头条从诞生整个角度来说,是基于介质的变化,媒体一直是跟着介质的变化而不断变化的。
从贴墙广告到电台,到互联网以及现在的移动互联网。

用户稳定性变化:
PC能获取的信息有很多风险,首先就是用户稳定性不如移动设备好,所以PC页面一般获取用户信息需要用户登录的。

用户使用场景变化:
PC上流量高峰在商务和下午4点的高峰,大概是办公场景,而移动设备是随身携带的, 用户是随时随地的,所以今日头条的阅读高峰是在中午和晚上10点钟的时间。
这个条件是比较基础的变化,随着基础介质变化了,所以让个性化成为可能。
人们在整片时间的时候,你可能有明确的需求和意向去决定自己看什么,但是在碎片化时间内,阅读的目的性是不强的,所以个性化的诉求就会重要了。
2
机器学习的发展
以前是基本上以发布内容,存储,读取,按照时间排序来进行。但是现在平台需要把所有候选的资源,在用户在每次打开和刷新你的产品的时候,根据用户的行为,向下,向上点击等行为的实时计算,哪些是用户喜欢的和不喜欢的。
传统对于内容的删选通过编辑进行,但是一个编辑每天可以看的内容也就是几百条,最多上千,但是一个机器每天可以浏览几百万条甚至几十亿条“见多识广”,这个是互联网效率问题。而机器就是在这里不断的积累和学习用户的行为,如同大脑的发展。

互联网的发展,让人的阅读行为发生了变化。

3
需求的变化
人们在阅读中不仅仅是只考虑到过程,也会考虑到内容生态的问题。
创作
一个能激励内容创作者生产内容的生态系统才能持续发展。
分发
好的分发效率会可以刺激创作,偏门的领域可能文章比较难创作,但是写出来之后依然可以得到推荐。
互动
有了内容,会有读者互动,读者的互动会不断的刺激创作。

高效率的分发可以刺激互动,可能会发给那些更容易产生互动的人,从而引发进一步刺激创作,所以三者是相辅相成的,一个好的算法引擎会让整个循环跑的更快一点,生态会朝着良性的方向发展
(以上这个图比较复杂,他说了一堆技术词我听不懂,整体来说分为2个方面来看:

1、内容
-特征:抽取文章中的很多特征,降维、相似信息,通过这些特呈进行匹配人。

-标签:同时在每篇文章中会打上标签,这个标签来源于运营人员自己打上去的标,甚至内容刚刚发布的时候就打上去了。

-实体词:运营会打上“实体词”甚至优质内容的标。同时算法会依据一定的运营标来学习优质内容的特征,再生成一些实体词,实体词有四级的分类体系,对每一篇文章都能实时计算打上标签。

对于视频内容推荐来说,引入了一些其他特征,主要思路是:基于 抽帧,然后通过dcnn做图片内容分析,用帧的内容来你和一个视频的内容分析。

关键词:协同过滤、contenti-base、embedding、LDA、topic分析。

2、用户
基于用户计算用的user-profile,及时的刷新信息,进行匹配计算,包含用户阅读过的文章,浏览信息、细化用户行为,包含地点、每天的哪个小时、机型等。
对于新用户来说,他的历史信息很少,尽可能有用的信息去做匹配,例如手机型号,城市,如果微博登录就可以拿到一些冷启动的信息来猜测用户的兴趣,等积累了一些行为之后,就形成了用户的profile。
结语
虽然以上的分享和信息对于内容生产者来说,不是很能结合在内容中,但是通过对于内容算法的了解,会让内容生产者更加了解内容产生之后,内容是通过什么样的途径到达用户,从而反推我们如何来满足目标用户对于内容的需求。

虽然说在大数据时代我们不需要知道为什么,只需要知道是什么。但是能知道点为什么,也许会让一些思考的维度变得更加多元化!
友情链接