今日头条算法原理分享

415 阅读3分钟

一级标题 1111111111111111111111111111111111111111111111

二级标 1111111111111111111111111111111111111111111111111111111

三级标题1111111111111111111111111111111111111111111111

四级标题 1111111111111111111111111111111111111111111111

五级标题 1111111111111111111111111111111111111111111111
六级标题 1111111111111111111111111111111111111111111111

1、【原文】今日头条算法推荐系统,主要输入三个维度的变量。一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣。三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。结合这三方面纬度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。
2、【解析】:(1)内容特征,好理解,既是对各类文章、视频提取关键要素,比如可以通过对文本进行语义识别,识别出文章的主要关键字,视频标题关键字如何,这个工作主要目的是对文章进行画像,方便以后对客户推荐。至于能否做到视频内容的关键字提取,比如虽然标题是周杰伦相关视频,但视频内容全部是方文山的帅气身影,能否将视频中方文山这个关键字提取出来,则暂不可知,这个工作需要耗费巨大服务器资源,估计头条暂时还没有做吧。
(2)用户特征,同上面内容特征一样,提取你的有效数据,比如经常浏览哪种类型文字、你经常搜索的关键字、你注册时登记信息的内容、还有原文提到的用什么手机之类,你是iphone我便显示这个游戏只能iphone玩,你是安卓我便显示这个游戏只能安卓玩、甚至精细的话可以将每个人的留言呀、评论呀等进行关键字提取,比如你经常评论历史内容文章,即使你浏览此类文章比较少,但是也可以作为一个关键指标进行使用,通过以上各类方式最终形成用户画像