某中心助力发起关于合成数据生成的研讨会
在某中心的推动下,首届关于合成数据生成的研讨会于2021年5月7日在ICLR 2021线上会议期间举行。该研讨会汇集了来自学术界和工业界的研究者,共同探讨如何利用合成数据改进机器学习并保护隐私。
合成数据是解决两个不同问题的有力方案:数据局限性和隐私风险。在标注数据有限的情况下,合成数据可用于扩充训练数据,缓解过拟合问题。在保护隐私方面,数据管理者可以分享合成数据而非真实数据,从而在保护用户隐私的同时,保留原始数据的实用性。尽管这两种场景面临相似的技术挑战,如数据质量和公平性,但它们通常被分开研究。本次研讨会旨在加深我们对这两种场景下合成数据生成挑战的理解。
研讨会组织与内容
本次研讨会由来自学术界和工业界的研究人员团队组织,他们在隐私、公平性、医疗保健和机器学习鲁棒性等主题方面拥有丰富的专业知识。组织团队包括来自某中心外部安全服务团队的应用科学家Sergul Aydore、某中心机器学习团队的首席应用科学家Krishnaram Kenthapadi,以及来自哈佛大学、韩国科学技术院、谷歌DeepMind、CISPA亥姆霍兹信息安全中心、哥伦比亚大学等机构的研究人员。
研讨会的内容丰富多样,包括:
- 特邀演讲: 邀请了七位领域专家进行分享,主题涵盖:
- 机器学习如何变革医疗保健(剑桥大学、艾伦·图灵研究所、UCLA)
- 用于图像合成的生成模型(NVIDIA)
- 使用生成对抗网络的差分隐私合成数据生成(谷歌云AI)
- 面向金融的合成数据(J. P. Morgan, CMU)
- 深度生成模型的偏见与泛化(斯坦福大学)
- 用于音乐生成的生成建模(DeepMind)
- 生成式AI的伦理考量(谷歌伦理AI团队)
- 论文报告与海报展示: 研讨会收录了24篇论文,每篇论文都有单独的海报展示分会场。其中,七篇论文被选为口头报告,涉及的技术主题包括:
- 用于模型选择的合成数据
- 用于生成合成训练数据的GAN集成
- 基于张量幻觉的小样本学习
- 利用公共数据进行实用的私有查询发布
- 快速、公平且私密的数据生成
- 利用医学图像生成克服数据共享障碍
- GAN加剧面部数据偏见的影响
- 小组讨论与颁奖: 研讨会最后以特邀演讲者参与的小组讨论和颁奖典礼结束。
涉及的研究领域与标签
- 研究领域: 机器学习, 安全、隐私和滥用防范
- 标签: 合成数据生成, ICLR, 差分隐私