目前历史追踪功能是这样做的:
- 历史数据只存储 10 天,每天大概 1500 万数据,所以最多限制存了 1.5 亿条数据。
- 然后数据是通过 parquet 形式落地到磁盘的,查询用的 duckdb ,数据之间的相似性通过汉明距离来判断(有可能误判),没有通过 ai 去做,是因为 ai 的消耗太大了。
- 使用方法:点击任意热点标题旁边的📈按钮,即可查看他的历史记录
突发热点查询是这样做的
- 逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点
- 使用方法:点击分类列表中的【🔥突发】,即可查看突发热点
有点嘴碎了,哈哈,还是贴几张图吧
热榜站地址:tgmeng.com