ICLR 2021:合成数据生成前沿技术解析

4 阅读3分钟

某中心助力发起关于合成数据生成的研讨会

在某中心的推动下,首届关于合成数据生成的研讨会于2021年5月7日在ICLR 2021线上会议期间举行。该研讨会汇集了来自学术界和工业界的研究者,共同探讨如何利用合成数据改进机器学习并保护隐私。

合成数据是解决两个不同问题的有力方案:数据局限性隐私风险。在标注数据有限的情况下,合成数据可用于扩充训练数据,缓解过拟合问题。在保护隐私方面,数据管理者可以分享合成数据而非真实数据,从而在保护用户隐私的同时,保留原始数据的实用性。尽管这两种场景面临相似的技术挑战,如数据质量和公平性,但它们通常被分开研究。本次研讨会旨在加深我们对这两种场景下合成数据生成挑战的理解。

研讨会组织与内容

本次研讨会由来自学术界和工业界的研究人员团队组织,他们在隐私、公平性、医疗保健和机器学习鲁棒性等主题方面拥有丰富的专业知识。组织团队包括来自某中心外部安全服务团队的应用科学家Sergul Aydore、某中心机器学习团队的首席应用科学家Krishnaram Kenthapadi,以及来自哈佛大学、韩国科学技术院、谷歌DeepMind、CISPA亥姆霍兹信息安全中心、哥伦比亚大学等机构的研究人员。

研讨会的内容丰富多样,包括:

  • 特邀演讲: 邀请了七位领域专家进行分享,主题涵盖:
    • 机器学习如何变革医疗保健(剑桥大学、艾伦·图灵研究所、UCLA)
    • 用于图像合成的生成模型(NVIDIA)
    • 使用生成对抗网络的差分隐私合成数据生成(谷歌云AI)
    • 面向金融的合成数据(J. P. Morgan, CMU)
    • 深度生成模型的偏见与泛化(斯坦福大学)
    • 用于音乐生成的生成建模(DeepMind)
    • 生成式AI的伦理考量(谷歌伦理AI团队)
  • 论文报告与海报展示: 研讨会收录了24篇论文,每篇论文都有单独的海报展示分会场。其中,七篇论文被选为口头报告,涉及的技术主题包括:
    • 用于模型选择的合成数据
    • 用于生成合成训练数据的GAN集成
    • 基于张量幻觉的小样本学习
    • 利用公共数据进行实用的私有查询发布
    • 快速、公平且私密的数据生成
    • 利用医学图像生成克服数据共享障碍
    • GAN加剧面部数据偏见的影响
  • 小组讨论与颁奖: 研讨会最后以特邀演讲者参与的小组讨论和颁奖典礼结束。

涉及的研究领域与标签

  • 研究领域: 机器学习, 安全、隐私和滥用防范
  • 标签: 合成数据生成, ICLR, 差分隐私