100+开箱即用的AI工具箱;程序员150岁长寿指南;『地理空间数据科学』课程资料;Graphic数据可视化图表库;前沿论文 | ShowMeAI资讯日报

5,671 阅读10分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第15天,点击查看活动详情

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

工具&框架

🚧 『Lite.AI.ToolKit』开箱即用的C++ AI工具箱

github.com/DefTruth/li…

Lite.Ai.ToolKit 是一个根据个人兴趣整理的C++工具箱,包括 100+ 流行的开源 AI 模型,盖目标检测、人脸检测、人脸识别、语义分割、抠图等领域。对用户友好,开箱即用。

🚧 『Colossal AI』整合高效并行技术的 AI 大模型训练系统

github.com/hpcaitech/C…

Colossal AI 提供了一系列并行训练组件,提供的工具可以在几行代码内快速开始分布式训练和推理,使其像普通的单GPU模型一样简单。

🚧 『solo-learn』Pytorch Lightning 无监督视觉表示学习自监督方法库

github.com/lavoiems/si…

本 Repo 是『Simplicial Embeddings for Self-supervised Learning and Downstream Classification』一文的配套代码,是自我监督学习库『solo-learn』的一个分支。

🚧 『DeepVision3D』点云理解的开源工具箱

github.com/dvlab-resea…

DeepVision3D 是 Deep Vision Lab 开发的用于点云理解的开源工具箱,集成了流行的公开 3D 代码库,包括OpenPCDet、 MMDetection3D,并开发了 DVClassification 和 DVSegmentation,以促进对室外/室内物体检测、形状分类和语义分割等多种 3D 理解任务的研究。

🚧 『Graphic』数据可视化图表工具库

github.com/entronad/gr…

Graphic 是一个数据可视化语法和 Flutter 图表库,对美感和实用性做了很好的平衡,并且具有高度交互性和可定制性,可以轻松定制自己的元素、工具提示、注释等。

博文&分享

👍 『多传感器定位融合』学习笔记

github.com/kahowang/se…

👍 『健康学习到150岁』人体系统调优不完全指南

github.com/zijie0/Huma…

hubermanlab.com/

通过一系列的学习,逐渐有种学习了各种人类的“组成和操作原理”的感觉。通过一系列的工具和实践,我们也可以像调优软件程序那样来“调优”我们自身的人体系统。这篇文章就来介绍睡眠、饮食、心态与动力、学习与专注、长寿等相关的知识内容。

数据&资源

🔥 『SOTA Deep Anomaly Detection』最新异常检测算法实现大列表

github.com/GuansongPan…

Repo 是文献中 SOTA 深度异常检测方法的实现集合,持续更新中。

🔥 『Geospatial Data Science』地理空间数据科学·课程资料

github.com/mszell/geos…

learnit.itu.dk/local/cours…

本 Repo 是课程『Geospatial Data Science』的学习资料,课程介绍了基于数据科学的地理空间数据分析方法,包括GIS的数据结构和原理、地图投影和测量、收集和预处理大规模地理空间数据、最先进的 GDS 计算工具、空间网络分析、地理空间数据科学家可用的主要方法、这些技术在应用环境中的实际应用等。

研究&论文

公众号回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.08 『计算机视觉』 An Improved One millisecond Mobile Backbone
  • 2022.07.26 『计算机视觉』 Monocular 3D Object Detection with Depth from Motion
  • 2022.07.27 『计算机视觉』 AvatarPoser: Articulated Full-Body Pose Tracking from Sparse Motion Sensing
  • 2022.07.25 『计算机视觉』 CelebV-HQ: A Large-Scale Video Facial Attributes Dataset

⚡ 论文:An Improved One millisecond Mobile Backbone

论文时间:8 Jun 2022

所属领域计算机视觉

对应任务:Image Classification,object-detection,Object Detection,Semantic Segmentation,图像分类,物体检测,目标检测,语义分割

论文地址arxiv.org/abs/2206.04…

代码实现github.com/apple/ml-mo… , github.com/federicopoz…

论文作者:Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

论文简介:Furthermore, we show that our model generalizes to multiple tasks - image classification, object detection, and semantic segmentation with significant improvements in latency and accuracy as compared to existing efficient architectures when deployed on a mobile device./此外,我们还表明,我们的模型可以通用于多种任务--图像分类、物体检测和语义分割,与现有的高效架构相比,部署在移动设备上的延迟和准确性都有明显的改善。

论文摘要:用于移动设备的高效神经网络骨干通常针对FLOPs或参数计数等指标进行优化。然而,当部署在移动设备上时,这些指标可能与网络的延迟没有什么关联。因此,我们通过在移动设备上部署几个适合移动的网络,对不同的指标进行了广泛的分析。我们识别并分析了近期高效神经网络的架构和优化瓶颈,并提供了缓解这些瓶颈的方法。为此,我们设计了一个高效的骨干网络MobileOne,其变体在iPhone12上的推理时间低于1毫秒,在ImageNet上的准确率高达75.9%。我们表明,MobileOne在高效的架构中实现了最先进的性能,同时在移动端上快了许多倍。我们最好的模型在ImageNet上获得了与MobileFormer相似的性能,同时速度快了38倍。在相似的延迟下,我们的模型在ImageNet上获得了比EfficientNet高出2.3%的最高准确率。此外,我们还表明,我们的模型可以通用于多种任务--图像分类、对象检测和语义分割,与现有的高效架构相比,在部署在移动设备上时,延迟和准确率都有明显的改善。

⚡ 论文:Monocular 3D Object Detection with Depth from Motion

论文时间:26 Jul 2022

所属领域:计算机视觉

对应任务:3D Object Detection,Depth Estimation,Monocular 3D Object Detection,object-detection,Object Detection,三维物体检测,深度估计,单目三维物体检测,物体检测,物体检测

论文地址arxiv.org/abs/2207.12…

代码实现github.com/tai-wang/de…

论文作者:Tai Wang, Jiangmiao Pang, Dahua Lin

论文简介:Perceiving 3D objects from monocular inputs is crucial for robotic systems, given its economy compared to multi-sensor settings./从单目输入中感知3D物体对机器人系统至关重要,因为与多传感器设置相比,它更经济。

论文摘要:从单目输入感知三维物体对于机器人系统来说是至关重要的,因为与多传感器设置相比,它是经济的。这是很困难的,因为单一图像不能为预测绝对深度值提供任何线索。在双目3D物体检测方法的启发下,我们利用摄像机自我运动提供的强大几何结构来进行准确的物体深度估计和检测。我们首先对这个一般的双视角案例进行了理论分析,并注意到两个挑战。1)多个估计的累积误差使直接预测难以实现;2)由静态摄像机和匹配模糊性造成的固有困境。因此,我们建立了具有几何感知成本量的立体对应关系,作为深度估计的替代方法,并进一步用单眼理解来补偿它,以解决第二个问题。我们的框架被命名为 "来自运动的深度"(DfM),然后使用所建立的几何体将二维图像特征提升到三维空间,并检测其中的三维物体。我们还提出了一个无姿态的DfM,以使其在摄像机姿态不可用时也能使用。我们的框架在KITTI基准上以很大的幅度超越了最先进的方法。详细的定量和定性分析也验证了我们的理论结论。代码将发布在 github.com/Tai-Wang/De…

⚡ 论文:AvatarPoser: Articulated Full-Body Pose Tracking from Sparse Motion Sensing

论文时间:27 Jul 2022

所属领域:计算机视觉

对应任务:Mixed Reality,Pose Estimation,Pose Tracking,混合现实,姿势估计,姿势跟踪

论文地址arxiv.org/abs/2207.13…

代码实现github.com/eth-siplab/…

论文作者:Jiaxi Jiang, Paul Streli, Huajian Qiu, Andreas Fender, Larissa Laich, Patrick Snape, Christian Holz

论文简介:In this paper, we present AvatarPoser, the first learning-based method that predicts full-body poses in world coordinates using only motion input from the user's head and hands./在本文中,我们介绍了AvatarPoser,这是第一个基于学习的方法,只用用户的头和手的运动输入就能预测世界坐标中的全身姿势。

论文摘要:今天的混合现实头戴式显示器追踪用户在世界空间中的头部姿势,以及用户在增强现实和虚拟现实场景中的双手互动。虽然这足以支持用户的输入,但不幸的是,它将用户的虚拟表现仅仅局限于他们的上半身。因此,目前的系统求助于浮动的虚拟化身,其局限性在协作环境中尤为明显。为了从稀疏的输入源中估计全身的姿势,先前的工作在骨盆或下半身加入了额外的跟踪器和传感器,这增加了设置的复杂性并限制了在移动环境中的实际应用。在本文中,我们提出了AvatarPoser,这是第一个基于学习的方法,只用用户的头和手的运动输入就能预测世界坐标中的全身姿势。我们的方法建立在Transformer编码器的基础上,从输入信号中提取深层特征,并将全局运动与学习的局部关节方向解耦,以指导姿势估计。为了获得类似于运动捕捉动画的准确的全身运动,我们使用反运动学的优化程序来完善手臂关节的位置,以匹配原始跟踪输入。在我们的评估中,AvatarPoser在大型运动捕捉数据集(AMASS)的评估中取得了新的最先进的结果。同时,我们的方法的推理速度支持实时操作,为Metaverse应用提供了一个实用的界面来支持整体的虚拟化身控制和表现。

⚡ 论文:CelebV-HQ: A Large-Scale Video Facial Attributes Dataset

论文时间:25 Jul 2022

所属领域计算机视觉

对应任务:Face Generation,Unconditional Video Generation,Video Generation,人脸生成,无约束视频生成,视频生成

论文地址arxiv.org/abs/2207.12…

代码实现github.com/celebv-hq/c…

论文作者:Hao Zhu, Wayne Wu, Wentao Zhu, Liming Jiang, Siwei Tang, Li Zhang, Ziwei Liu, Chen Change Loy

论文简介:Large-scale datasets have played indispensable roles in the recent success of face generation/editing and significantly facilitated the advances of emerging research fields./大规模的数据集在最近的人脸生成/编辑的成功中发挥了不可或缺的作用,并大大促进了新兴研究领域的进步。

论文摘要:大型数据集在近期人脸生成/编辑的成功中发挥了不可或缺的作用,并极大地促进了新兴研究领域的发展。然而,学术界仍然缺乏一个具有多样化面部属性注释的视频数据集,这对人脸相关视频的研究至关重要。在这项工作中,我们提出了一个具有丰富面部属性注释的大规模、高质量和多样化的视频数据集,名为高质量名人视频数据集(CelebV-HQ)。CelebV-HQ包含35,666个分辨率至少为512x512的视频片段,涉及15,653个身份。所有的片段都是用83个面部属性手动标注的,涵盖了外观、动作和情绪。我们从年龄、种族、亮度稳定性、运动平滑度、头部姿势多样性和数据质量等方面进行了综合分析,以证明CelebV-HQ的多样性和时间一致性。此外,它的多功能性和潜力在两个代表性的任务上得到了验证,即无条件视频生成和视频面部属性编辑。此外,我们设想了CelebV-HQ的未来潜力,以及它将给相关研究方向带来的新机遇和挑战。数据、代码和模型是公开可用的。项目页面:celebv-hq.github.io

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。