ICLR 2021：合成数据生成前沿技术解析本文介绍了由业界与学术界专家联合在ICLR 2021举办的合成数据生成研讨会

某中心助力发起关于合成数据生成的研讨会

在某中心的推动下，首届关于合成数据生成的研讨会于2021年5月7日在ICLR 2021线上会议期间举行。该研讨会汇集了来自学术界和工业界的研究者，共同探讨如何利用合成数据改进机器学习并保护隐私。

合成数据是解决两个不同问题的有力方案：数据局限性和隐私风险。在标注数据有限的情况下，合成数据可用于扩充训练数据，缓解过拟合问题。在保护隐私方面，数据管理者可以分享合成数据而非真实数据，从而在保护用户隐私的同时，保留原始数据的实用性。尽管这两种场景面临相似的技术挑战，如数据质量和公平性，但它们通常被分开研究。本次研讨会旨在加深我们对这两种场景下合成数据生成挑战的理解。

研讨会组织与内容

本次研讨会由来自学术界和工业界的研究人员团队组织，他们在隐私、公平性、医疗保健和机器学习鲁棒性等主题方面拥有丰富的专业知识。组织团队包括来自某中心外部安全服务团队的应用科学家Sergul Aydore、某中心机器学习团队的首席应用科学家Krishnaram Kenthapadi，以及来自哈佛大学、韩国科学技术院、谷歌DeepMind、CISPA亥姆霍兹信息安全中心、哥伦比亚大学等机构的研究人员。

研讨会的内容丰富多样，包括：

特邀演讲： 邀请了七位领域专家进行分享，主题涵盖：
- 机器学习如何变革医疗保健（剑桥大学、艾伦·图灵研究所、UCLA）
- 用于图像合成的生成模型（NVIDIA）
- 使用生成对抗网络的差分隐私合成数据生成（谷歌云AI）
- 面向金融的合成数据（J. P. Morgan， CMU）
- 深度生成模型的偏见与泛化（斯坦福大学）
- 用于音乐生成的生成建模（DeepMind）
- 生成式AI的伦理考量（谷歌伦理AI团队）
论文报告与海报展示： 研讨会收录了24篇论文，每篇论文都有单独的海报展示分会场。其中，七篇论文被选为口头报告，涉及的技术主题包括：
- 用于模型选择的合成数据
- 用于生成合成训练数据的GAN集成
- 基于张量幻觉的小样本学习
- 利用公共数据进行实用的私有查询发布
- 快速、公平且私密的数据生成
- 利用医学图像生成克服数据共享障碍
- GAN加剧面部数据偏见的影响
小组讨论与颁奖： 研讨会最后以特邀演讲者参与的小组讨论和颁奖典礼结束。

涉及的研究领域与标签

研究领域： 机器学习，安全、隐私和滥用防范
标签： 合成数据生成， ICLR，差分隐私