练习可以测试。用于学习的教程。
图片由作者提供
Datatable是一个用于操作表格数据的python库。它支持内存外数据集,多线程数据处理,并且有一个灵活的API。
如果这让你想起了R的data.table,那你就太对了,因为Python的datatable包与R库密切相关,并受到了R库的启发。
v1.0.0的发布是在2021年7月1日完成的,现在可能是开始探索这个包的好时机。
笔记本是学习包和深入研究包的最好形式之一。它很方便,能让人亲身体验,而且往往与清晰的文档相伴而行。
body[data-twttr-rendered="true"] {background-color: transparent;}.twitter-tweet {margin: auto !emant;}
- @vopani
function notifyResize(height) {height = height ? height : document.documentElement.offsetHeight; var resized = false; if (window.donkey && donkey.resize) {donkey.resize(height); resized = true;}if (parent && parent._resizeIframe) {var obj = {iframe: window.frameElement, height: height}; parent._resizeIframe(obj); resized = true;}if (window.location && window.location.hash === "#amp=1" && window.parent && window.parent.postMessage) {window.donkey.resize(height); resized = true; }if (window.donkey.resize === "#amp=1")postMessage) {window.parent.postMessage({sentinel: "amp", type: "embed-size", height: height}, "*");}if (window.webkit && window.webkit.messageHandlers && window.webkit.messageHandlers.resize) {window.webkit.messageHandlers.resize.postMessage(height); resized = true;}return resized;}twttr.events.bind('rendered', function (event) {notifyResize(); }); twttr.events.bind('resize', function (event) {notifyResize(); })。if (parent && parent._resizeIframe) {var maxWidth = parseInt(window.frameElement.getAttribute("width")); if ( 500 < maxWidth) {window.frameElement.setAttribute("width", "500");}}.
DatatableTon: 💯 datatable练习
DatatableTon是一个开源项目,由100个不同部分的Python数据化练习组成,以课程或教程的形式为初学者、中级者和专家提供教学和学习。
结构化的练习和教程 - 选择你的风格✅
适合初学者、中级者和专家 - 选择你的水平✅
可在Colab、Kaggle、Binder和GitHub上使用 - 选择你的平台
学习
数据[data.f.set ≥ mylevel] 。
- 对于希望从头开始学习datatable的初学者,建议从头开始按顺序浏览所有的集合。它们的结构使新人容易上手并快速学习。
- 对于希望提高自己数据化能力的中层人士,建议从第5套或第6套开始,并按顺序学习所有后续的套装。
- 对于希望更多练习数据化的专家,建议从最后两套开始测试自己。第9套和第10套。
教学
data[data.f.style == mystyle]
- 对于正在寻找测试学生的练习的教师,建议使用所有的 练习风格的套装。
- 对于正在寻找教程的教师来说,建议使用所有的 解决方案风格的套装。
教学内容
数据包套装
DatatableTon的每个部分都是一个Jupyter笔记本,旨在展示软件包的特定能力,从基本设置和数据处理到机器学习模型和完整项目。
套餐01 - Datatable介绍 - 初学者 - 练习1-10
- 软件包的安装和设置
- 创建和显示数据
- 查看数据和它的细节
集合02 - 文件和格式 - 初学者 - 练习11-20
- 读/写csv、gz、jay、zip文件或urls
- 整合pandas、numpy、箭头格式
- 使用带有框架的列表、数据集和图元
Set 03 - 数据选择 - 初学者 - 练习 21-30
- 选择行/列/片/元素
- 使用单个或多个启发式方法过滤行/列
- 删除缺失的行/列并删除重复的行/列
第04套 - 框架操作 - 初学者 - 练习31-40
- 改变列名和类型
- 创建、更新、删除行/列
- 计算和设置缺失值
题目05 - 列的聚合 - 初级 - 练习41-50
- 计算计数、总和、最小值、最大值、平均数、中位数、模式、SD、偏态、Kurt
- 列的协方差
- 特征相关性和相关矩阵
集合06 - 分组方法 - 中级 - 练习51-60
- 汇总按特征分组的指标
- 比较按特征分组的列统计
- 将分组与过滤和排序相结合
题目 07 - 多框架 - 中级 - 练习 61-70
- 读取、rbind、cbind多个框架
- 使用单键或多键连接框架
- 框架的并集、交集、差集
集合08 - 时间序列 - 中级 - 练习71-80
- 提取和创建日期/时间特征
- 创建组内/组外的滞后和领先变量
- 计算日期/时间戳的差异
集合09 - 本地FTRL - 专家 - 练习81-90
- FTRL模型的初始化和超参数
- 训练和给FTRL模型打分
- 执行k-fold交叉验证
第十组 - 顶点项目 - 专家 - 练习 91-100
- 多个数据集的端到端工作流程
- Kaggle竞赛数据集和实际提交的数据集
- 探索你自己的数据集和用例
DatatableTon是开源的,可在GitHub上免费使用
特别感谢Parul Pandey&Shrinidhi Narasimhan的
合作🙏。
介绍DatatableTon--Python Datatable教程和练习》最初发表在《走向数据科学》杂志上,人们通过强调和回应这个故事来继续对话。