详细介绍DatatableTon--Python Datatable教程和练习

636 阅读4分钟

练习可以测试。用于学习的教程。

图片由作者提供

Datatable是一个用于操作表格数据的python库。它支持内存外数据集,多线程数据处理,并且有一个灵活的API。

如果这让你想起了R的data.table,那你就太对了,因为Python的datatable包与R库密切相关,并受到了R库的启发。

v1.0.0的发布是在2021年7月1日完成的,现在可能是开始探索这个包的好时机。

笔记本是学习包和深入研究包的最好形式之一。它很方便,能让人亲身体验,而且往往与清晰的文档相伴而行。

body[data-twttr-rendered="true"] {background-color: transparent;}.twitter-tweet {margin: auto !emant;}

- @vopani

function notifyResize(height) {height = height ? height : document.documentElement.offsetHeight; var resized = false; if (window.donkey && donkey.resize) {donkey.resize(height); resized = true;}if (parent && parent._resizeIframe) {var obj = {iframe: window.frameElement, height: height}; parent._resizeIframe(obj); resized = true;}if (window.location && window.location.hash === "#amp=1" && window.parent && window.parent.postMessage) {window.donkey.resize(height); resized = true; }if (window.donkey.resize === "#amp=1")postMessage) {window.parent.postMessage({sentinel: "amp", type: "embed-size", height: height}, "*");}if (window.webkit && window.webkit.messageHandlers && window.webkit.messageHandlers.resize) {window.webkit.messageHandlers.resize.postMessage(height); resized = true;}return resized;}twttr.events.bind('rendered', function (event) {notifyResize(); }); twttr.events.bind('resize', function (event) {notifyResize(); })。if (parent && parent._resizeIframe) {var maxWidth = parseInt(window.frameElement.getAttribute("width")); if ( 500 < maxWidth) {window.frameElement.setAttribute("width", "500");}}.

DatatableTon: 💯 datatable练习

DatatableTon是一个开源项目,由100个不同部分的Python数据化练习组成,以课程或教程的形式为初学者、中级者和专家提供教学和学习。

结构化的练习和教程 - 选择你的风格✅
适合初学者、中级者和专家 - 选择你的水平✅
可在Colab、Kaggle、Binder和GitHub上使用 - 选择你的平台

学习

数据[data.f.set ≥ mylevel] 。

  • 对于希望从头开始学习datatable的初学者,建议从头开始按顺序浏览所有的集合。它们的结构使新人容易上手并快速学习。
  • 对于希望提高自己数据化能力的中层人士,建议从第5套或第6套开始,并按顺序学习所有后续的套装。
  • 对于希望更多练习数据化的专家,建议从最后两套开始测试自己。第9套和第10套。

教学

data[data.f.style == mystyle]

  • 对于正在寻找测试学生的练习的教师,建议使用所有的 练习风格的套装。
  • 对于正在寻找教程的教师来说,建议使用所有的 解决方案风格的套装。

教学内容

数据包套装

DatatableTon的每个部分都是一个Jupyter笔记本,旨在展示软件包的特定能力,从基本设置和数据处理到机器学习模型和完整项目。

套餐01 - Datatable介绍 - 初学者 - 练习1-10

  • 软件包的安装和设置
  • 创建和显示数据
  • 查看数据和它的细节

medium.com/media/6ee32…

集合02 - 文件和格式 - 初学者 - 练习11-20

  • 读/写csv、gz、jay、zip文件或urls
  • 整合pandas、numpy、箭头格式
  • 使用带有框架的列表、数据集和图元

medium.com/media/78056…

Set 03 - 数据选择 - 初学者 - 练习 21-30

  • 选择行/列/片/元素
  • 使用单个或多个启发式方法过滤行/列
  • 删除缺失的行/列并删除重复的行/列

medium.com/media/9ddfe…

第04套 - 框架操作 - 初学者 - 练习31-40

  • 改变列名和类型
  • 创建、更新、删除行/列
  • 计算和设置缺失值

medium.com/media/11d73…

题目05 - 列的聚合 - 初级 - 练习41-50

  • 计算计数、总和、最小值、最大值、平均数、中位数、模式、SD、偏态、Kurt
  • 列的协方差
  • 特征相关性和相关矩阵

medium.com/media/e48ee…

集合06 - 分组方法 - 中级 - 练习51-60

  • 汇总按特征分组的指标
  • 比较按特征分组的列统计
  • 将分组与过滤和排序相结合

medium.com/media/76738…

题目 07 - 多框架 - 中级 - 练习 61-70

  • 读取、rbind、cbind多个框架
  • 使用单键或多键连接框架
  • 框架的并集、交集、差集

medium.com/media/9f9f7…

集合08 - 时间序列 - 中级 - 练习71-80

  • 提取和创建日期/时间特征
  • 创建组内/组外的滞后和领先变量
  • 计算日期/时间戳的差异

medium.com/media/c7241…

集合09 - 本地FTRL - 专家 - 练习81-90

  • FTRL模型的初始化和超参数
  • 训练和给FTRL模型打分
  • 执行k-fold交叉验证

medium.com/media/b63b7…

第十组 - 顶点项目 - 专家 - 练习 91-100

  • 多个数据集的端到端工作流程
  • Kaggle竞赛数据集和实际提交的数据集
  • 探索你自己的数据集和用例

medium.com/media/8e3c1…

DatatableTon是开源的,可在GitHub上免费使用
特别感谢Parul Pandey&Shrinidhi Narasimhan的
合作🙏。


介绍DatatableTon--Python Datatable教程和练习》最初发表在《走向数据科学》杂志,人们通过强调和回应这个故事来继续对话。