一个关于tf.data的简介

278 阅读2分钟

原视频地址在这儿:www.youtube.com/watch?v=uIc…

视频中介绍了tf.data设计的一些原则和一些基本用法。设计的三个原则:

1. 快速高效

tf.data可以在每秒读取13000张图片,官网上有一页专门介绍输入数据pipeline的效率。输入输入的pipeline分为以下三步(ETL)

分别是从数据源头处读取数据(Extract)(比如内存,磁盘,远程服务器,云端)、对数据做一系列的变换(Transform)、载入CPU或者GPU(Load)等等,下面是一个例子,ETL分别代表这三个步骤:

小技巧

  1. 如果从云端或者多个来源读取数据,很显然并行读取可以提升读取效率,这个操作可以通过简单的num_parallel_reads参数来完成,如:tf.data.TFRecordDataset(files, num_parallel_reads=32)
  2. 利用contrib模块的一些函数,提高数据transform阶段的速度,这些函数可以将transform阶段的多个不同操作融合到一起来做,以提高运行效率,如:
dataset = dataset.apply(tf.contrib.data.shuffle_and_repeat(10000, NUM_EPOCHS))
dataset = dataset.apply(tf.contrib.data.map_and_batch(lambda x: ...., BATCH_SIZE))
  1. 利用GPU prefetch提前吧数据在使用前加载到GPU
dataset = dataset.apply(tf.contrib.data.prefetch_to_device('\gpu:0'))
  1. dataset中的数据可以通过生成迭代器来访问,如:
iterator = dataset.make_one_shot_iterator()
data = iterator.get_next()
  1. 如果对数据的效率要求比较高,或者数据集很大,建议使用TFRecord等数据类型读取数据

2. 灵活

  1. 通过dataset.map函数可以对每条数据做自定义的transform
  2. 有一个接口Dataset.from_generator()可以把原本已经写好的python的读取数据集的函数包在里面,得到Tensorflow的数据集。

3. 易用

  1. 在tf.enable_eager_execution()模式下,dataset可以被看做简单的python可迭代对象,通过for..in..来访问,并且这种模式依然是支持prefetch_to_device的
  2. 可以用一个函数打包上述所说的载入数据的三个步骤:
tf.contrib.data.make_batched_features_dataset(file_pattern, BATCH_SIZE, features, num_epochs=NUM_EPOCHS)
  1. tf.data和最新的高级API Estimator有着很好的兼容性,只要生成了数据,就可以直接灌数据而不需要任何的迭代器什么的。

关于tf.data的Example

 

参考网址:

  1. www.e-learn.cn/content/qit…
  2. zhuanlan.zhihu.com/p/37106443
  3. www.datalearner.com/blog/105155…
  4. blog.csdn.net/tiangcs/art…
  5. blog.csdn.net/u014061630/…
  6. zhuanlan.zhihu.com/p/30751039
  7. www.jianshu.com/p/d80ea5d73…
  8. www.tensorflow.org/guide/datas…
  9. www.jianshu.com/p/baf1a933d…
  10. blog.csdn.net/wangdongwei…
  11. www.jianshu.com/p/f580f4fc2…
  12. www.jianshu.com/p/d80ea5d73…
  13. blog.csdn.net/weixin_4249…
  14. blog.csdn.net/qq_37747262…
  15. blog.csdn.net/ssmixi/arti…
  16. www.cnblogs.com/augustone/p…
  17. blog.csdn.net/DumpDoctorW…
  18. www.enpeizhao.com/?p=514
  19. blog.csdn.net/Z609834342/…
  20. blog.csdn.net/qq_37747262…
  21. github.com/FrancescoSa…
  22. blog.csdn.net/loveliuzz/a…
  23. blog.csdn.net/DumpDoctorW…