首页
AI Coding
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
HelloWonder
掘友等级
cv算法工程师
|
杭州某搬砖公司
找个朋友&伴儿,一起在新一线大城市打拼生活下去
获得徽章 25
动态
文章
专栏
沸点
收藏集
关注
作品
赞
782
文章 43
沸点 739
赞
782
返回
|
搜索文章
最新
热门
DW 大运河杯数据开发应用大赛(RAG方向) Task2 打卡
Datawhale教程打卡, rag-agent 做工业化难度还是挺大的, 有大量的bad case, 要处理, 要解决;
【心跳信号分类预测】Datawhale打卡- Task05 模型融合 (尝试记录)
构建多层模型,并利用预测结果再拟合预测。 回归:多分类不适用——直接放弃. 投票制:没有成功跑分成功,lgb无法再五折交叉验证后仍可以输出模型用于投票,待提问。
【心跳信号分类预测】Datawhale打卡- Task4 建模与调参 (贝叶斯调参调包实践)
通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好。 集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大…
【心跳信号分类预测】Datawhale打卡- Task03 特征工程
可以看到,每个样本的心电特征都由205个时间步的心电信号组成。 1. 使用tsfresh特征抽取 **Tsfresh(TimeSeries Fresh)**是一个Python第三方工具包。 它可以自动计算大量的时间序列数据的特征。此外,该包还包含了特征重要性评估、特征选择的方法…
《Python Spark 2.0...》第10章 Python Spark RDD (读书笔记)
Spark的核心是RDD,即是弹性分布式数据集,是一种分布式的内存系统数据集的应用;Spark的主要优势来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如HDFS、HBase、Hadoop数据源。 RDD具备血缘机制,它会记录每个RDD与其父代RD…
零基础天池新闻推荐初学-04-特征工程(制作特征列和标签列,转为监督学习)
本期数据为非机构化数据,主要使用(训练集的)用户的历史浏览记录作为训练数据,使用(训练集的)用户历史的最后一次浏览记录作为标签列;得到模型,输入测试集的全部用户的历史浏览记录,预测下一次的点击文章。 文章的自身特征, category_id表示这文章的类型, created_a…
零基础天池新闻推荐初学-03-多路召回
00. 环境安装的踩坑 01. 多路召回的思想简介 简介:多策略,使用不同的策略、特征或者简单模型,分别召回一部分的候选集,然后把不同的候选集混合在一起进行排序的结果. 02. 数据读取和准备 03. 工具函数的准备 (dict的准备等) 05. 计算相似性矩阵 Faiss工具…
零基础天池新闻推荐初学-02-数据分析
-1. 由分别的Profiling Report可以得出:训练集的用户ID由0 ~ 199999,而测试集A的用户ID由200000 ~ 249999。 从点击环境click_environment来看,仅有2499 次(占0.2%)点击环境为1;仅有38948次(占2.4%)…
零基础天池新闻推荐初学-01-赛题理解&Baseline
提交的格式是针对每个用户, 我们都会给出五篇文章的推荐结果,按照点击概率从前往后排序。 而真实的每个用户最后一次点击的文章只会有一篇的真实答案, 所以我们就看我们推荐的这五篇里面是否有命中真实答案的。比如对于user1来说, 我们的提交会是: 把该预测问题转成一个监督学习的问题…
初学推荐系统-04-FM (因子分解机:多特征的二阶特征交叉)
FM模型其实就是一种思路,具体应用较少。 每个特征对最终输出的结果独立,需要手动进行特征交叉(xi*xj),比较麻烦。 但这个式子有一个问题,只有当$x_i$与$x_j$均不为0时这个二阶交叉项才会生效,后面这个特征交叉项本质是和多项式核SVM等价的. $k(k<&#…
下一页
个人成就
文章被点赞
39
文章被阅读
13,868
掘力值
422
关注了
128
关注者
50
收藏集
8
关注标签
20
加入于
2019-07-31