iNaturalist开放海量自然数据与计算机视觉挑战本文探讨了iNaturalist项目如何结合众包与机器学习，为计算

iNaturalist开放海量自然数据，推动计算机视觉研究

iNaturalist应用程序允许全球用户记录和识别野生动植物。如今，由某机构云服务支持的人工智能技术正越来越多地参与到对这些观察数据的分类工作中。该项目从一个硕士项目发展成为一个拥有150万科学家和自然爱好者的社区，其目标是将人与自然连接起来，而计算机视觉技术正在显著提升用户的参与度和体验。

独特的计算机视觉挑战

iNaturalist的数据对计算机视觉领域提出了独特挑战。与互联网上精心拍摄的高质量图片不同，iNaturalist上的照片多为业余人士拍摄，背景复杂、目标模糊、姿态各异。例如，识别快速飞行的燕子，或区分外观极为相似的物种，对计算机模型都是巨大考验。此外，物种存在多种命名方式（学名与俗名）和生命周期形态（卵、幼虫、成虫），进一步增加了识别难度。

这些挑战涵盖了地球上数百万种动植物。目前，托管在某机构云上的iNaturalist已收录超过30万个物种，随着用户持续添加数据，其潜力巨大。研究人员展望，未来可能构建一个能以前所未有的能力推理所有这些事物的系统。

新型机器学习竞赛

自2017年起，研究人员Grant Van Horn和Oisin Mac Aodha开始在计算机视觉与模式识别会议（CVPR）上，利用iNaturalist数据举办竞赛。这些竞赛属于会议中“细粒度视觉分类”研讨会的一部分，旨在评估参赛团队对数据集的分类准确率。

早期竞赛仅构建基础分类体系就是一个挑战，因为世界上没有统一的分类学权威。研究人员花费大量时间学习处理分类法、清理数据。首届竞赛使用了包含85.9万张图片的数据集。第二年，他们引入了具有长尾分布特征的数据集，即许多物种只有少量相关图片。2019年的数据集则缩减至268,243张图片，这些图片在广泛场景下捕捉了高度相似的类别。

经过一年休整，2021年的iNat竞赛规模更大，其训练数据集包含270万张图片，涵盖10，000个物种。竞赛于3月8日开始，5月28日结束。更大的数据集鼓励团队探索机器学习领域中的无监督学习趋势，即模型无需标签，通过寻找数据内在模式进行学习。

每个竞赛参赛作品必须为数据集中的每张图片提供一个预测分类。对于今年的数据集，实现5%的错误率将是“惊人的”成绩。

向开放数据迈进

对大规模图像进行分类的能力，为解答有关物种栖息地、行为和个体差异的广泛科学问题打开了大门。例如，iNaturalist用户已记录了洛杉矶异蜥蜴的交配仪式，这在传统野生动物研究中因私有财产限制而无法实现。

基于此类洞察，研究人员创建了一个新的自然世界任务数据集（NeWT），该数据集超越了物种分类问题，探索了照片中展现的行为和属性相关概念。相关成果将在今年的CVPR会议上展示，并计划举办竞赛，挑战参与者构建能泛化解决这些替代性问题的模型。

目前，竞赛的优胜代码尚未直接部署到iNaturalist应用中，因为最低错误率的代码与能在智能手机上高效运行的代码之间存在性能权衡。然而，竞赛数据集已在计算机视觉和机器学习文献中得到广泛应用，在过去几年中产生了约300次引用。

竞赛托管在Kaggle平台上，吸引了iNaturalist社区之外的众多参赛者。2019年的竞赛吸引了来自全球的213支队伍，获胜者来自中国。

为确保公平，参赛者必须能无障碍访问和处理数据集中成千上万的图片。这些竞赛以及iNaturalist应用本身，都是某机构云上开放数据的一部分，这使得数据访问变得极其便捷。

2020年，iNaturalist获得了某机构机器学习研究奖，该奖项为学术界提供无限制现金和某机构云推广积分，以推动机器学习前沿。这帮助iNaturalist在实施机器学习分类时，继续将数据存储在云上。今年3月，该应用迁移至某机构云开放数据注册中心，确保其约6000万条的庞大观察数据对任何人免费开放。

如今，iNaturalist已从完全由人工驱动，转变为定期提供机器生成的识别结果，这正开始揭示新的潜在研究路径。确保这些数据的长期稳定性和可访问性至关重要。FINISHED