200+ML知识速查卡;『图解算法数据结构』配套代码;『剑指Offer』解题代码;『Python3』高频面试题目集;前沿论文 | ShowMeAI资讯日报

2,452 阅读11分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

工具&框架

🚧 『ML Logger』面向机器学习项目的日志、服务器与可视化面板

github.com/geyang/ml_l…

ML Logger 可以在本地和远程使用相同的日志记录代码,并且具有超快的、漂亮的可视化仪表板。

🚧 『Urho3D』跨平台 2D/3D 游戏引擎

github.com/urho3d/Urho…

urho3d.io/

Urho3D 是一个免费的、轻量级、跨平台的2D与3D游戏引擎,用 C++ 实现。Urho3D 的诞生,受到了 OGRE 和 Horde3D 的极大启发。

🚧 『Zotero Tag』Zotero的 Tag 管理插件

github.com/windingwind…

Zotero Tag 是一个 Zotero 附加的标签管理插件,自动为新项目添加标签并在阅读后删除、支持带标签的批处理、支持自定义规则进行标签管理。简单安装插件后,右键单击集合中的任何项目,就可以批量添加/删除标签啦!

🚧 『nglview』交互式查看分子结构和轨迹的 Jupyter widget

github.com/nglviewer/n…

nglview 是一个 IPython / Jupyter 小插件,用于交互式地查看分子结构和轨迹。

🚧 『Fairo』模块化『具身智能体 embodied agent』结构和平台,用于构建具身智能体

github.com/facebookres…

Fairo 是由 Meta AI 研究人员开发的统一机器人平台,包括『Droidlet』『Polymetis』『Meta Robotics Platform』等一组项目。『Droidlet』是较早期的研究项目,围绕基础对话、交互式学习和人机界面,快速构建执行各类真实或虚拟的任务代理。『Polymetis』是一个基于 PyTorch 的实时控制器管理器,为机器人编写 PyTorch 控制器,模拟测试并无缝传输到实时硬件。『Meta Robotics Platform』部署、启动、管理和编排异构机器人。

博文&分享

👍 『GitHub City』根据GitHub贡献图生成的GitHub城市

github.com/honzaap/Git…

👍 机器学习 / 计算机视觉 / 计算机科学『速查卡片集』

github.com/b7leung/MLE…

作者制作了 200 多张知识卡片,包括『计算机科学』『机器学习』『计算机视觉和深度学习基础』『计算机视觉和深度学习精选专题』4个主题,用以回顾多年的 ML 研究、课程和学习中的所有内容,并为机器学习工程师的面试做准备。作者在 2022 年拿到了谷歌、特斯拉、三星、Motional、UiPath 和 TikTok 等多家公司的Offer!如果你已经有较好的ML基础,需要系统复习和查漏补缺,那推荐学起来呀!

数据&资源

🔥 LeetBook『图解算法数据结构』配套代码 &『剑指 Offer』Python / Java / C++ 解题代码

github.com/krahets/Lee…

LeetBook《图解算法数据结构》面向算法初学者、互联网求职者设计,主要内容包括『剑指 Offer 图文题解』『数据结构与算法专栏』两部分内容,为互联网算法/软件求职者、学习者等提供一份比较完整的学习和打卡资料。

🔥 『Python3 面试』准备参考

github.com/peterlamar/…

作者在自学 Python3 进行各种面试和有趣的 leetcoding 时,构建了这个备忘单。这份小抄不求全而是抓重点,是一个 Python 高频问题子集。

🔥 『Awesome Face Generation』人脸生成相关文献资源列表

github.com/zhangzjn/aw…

研究&论文

公众号回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.13 『计算机视觉』 Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution
  • 2022.07.15 『机器学习』 Registration based Few-Shot Anomaly Detection
  • 2022.07.17 『医疗』 MetaFed: Federated Learning among Federations with Cyclic Knowledge Distillation for Personalized Healthcare
  • 2021.12.18 『自然语言处理』 The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large Web Corpus

⚡ 论文:Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution

论文标题:Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution

论文时间:13 Jul 2022

所属领域计算机视觉

对应任务:Humanitarian,Multi-Frame Super-Resolution,Super-Resolution,多帧超分辨率,超分辨率

论文地址arxiv.org/abs/2207.06…

代码实现github.com/worldstrat/…

论文作者:Julien Cornebise, Ivan Oršolić, Freddie Kalaitzis

论文简介:We hereby hope to foster broad-spectrum applications of ML to satellite imagery, and possibly develop from free public low-resolution Sentinel2 imagery the same power of analysis allowed by costly private high-resolution imagery./我们在此希望促进ML在卫星图像上的广泛应用,并可能从免费的公共低分辨率Sentinel2图像中开发出与昂贵的私人高分辨率图像相同的分析能力。

论文摘要:用卫星图像和机器学习大规模地分析地球是一个大梦想,但它一直被难以获得的高度代表性的高分辨率图像的成本所阻挠。为了解决这个问题,我们在此介绍WorldStrat数据集。在空客SPOT 6/7卫星高达1.5米/像素的高分辨率下,作为欧空局资助的QueryPlanet项目的一部分,我们策划了近1万平方公里的独特地点,以确保分层代表世界各地的所有类型的土地使用:从农业到冰盖,从森林到多种城市化密度。我们还充实了那些在ML数据集中通常代表性不足的地点:具有人道主义意义的地点、非法采矿点和处境危险者的定居点。我们在时间上将每张高分辨率图像与来自免费获取的低分辨率Sentinel-2卫星的多张10米/像素的低分辨率图像进行匹配。我们为这个数据集提供了一个开源的Python软件包,用于重建或扩展WorldStrat数据集,训练和推断基线算法,并通过丰富的教程进行学习,这些都与流行的EO-learn工具箱兼容。因此,我们希望促进ML在卫星图像上的广泛应用,并可能从免费的公共低分辨率Sentinel2图像中开发出与昂贵的私人高分辨率图像所允许的相同的分析能力。我们通过在多帧超分辨率任务上训练和发布几个高计算效率的基线来说明这一具体观点。数据集可在zenodo.org/record/6810…

⚡ 论文:Registration based Few-Shot Anomaly Detection

论文标题:Registration based Few-Shot Anomaly Detection

论文时间:15 Jul 2022

所属领域机器学习

对应任务:Anomaly Detection,Few Shot Anomaly Detection,异常检测,少样本异常检测

论文地址arxiv.org/abs/2207.07…

代码实现github.com/mediabrain-…

论文作者:Chaoqin Huang, Haoyan Guan, Aofan Jiang, Ya zhang, Michael Spratling, Yan-Feng Wang

论文简介:Inspired by how humans detect anomalies, i. e., comparing an image in question to normal images, we here leverage registration, an image alignment task that is inherently generalizable across categories, as the proxy task, to train a category-agnostic anomaly detection model./受人类检测异常情况的启发,即把有问题的图像与正常图像进行比较,我们在此利用一个可跨类别通用的图像对齐任务,作为代理任务,来训练一个类别无关的异常检测模型。

论文摘要:本文考虑了少数照片的异常检测(FSAD),这是一个实用但研究不足的异常检测(AD)环境,在训练时每个类别只提供有限数量的正常图像。到目前为止,现有的FSAD研究遵循标准AD使用的每个类别一个模型的学习范式,而类别间的共性还没有被探索。受人类检测异常的启发,即把有问题的图像与正常的图像进行比较,我们在这里利用一种内在的可跨类别通用的图像对齐任务,作为代理任务,来训练一个不分类别的异常检测模型。在测试过程中,通过比较测试图像和其相应的支持(正常)图像的注册特征来识别异常情况。据我们所知,这是第一种训练单一通用模型的FSAD方法,不需要针对新的类别进行重新训练或参数微调。实验结果表明,所提出的方法在MVTec和MPDD基准上的AUC比最先进的FSAD方法高出3%-8%。

⚡ 论文:MetaFed: Federated Learning among Federations with Cyclic Knowledge Distillation for Personalized Healthcare

论文标题:MetaFed: Federated Learning among Federations with Cyclic Knowledge Distillation for Personalized Healthcare

论文时间:17 Jun 2022

所属领域医疗

对应任务:Federated Learning,Knowledge Distillation,联邦学习,知识蒸馏

论文地址arxiv.org/abs/2206.08…

代码实现github.com/microsoft/p…

论文作者:Yiqiang Chen, Wang Lu, Xin Qin, Jindong Wang, Xing Xie

论文简介:Federated learning has attracted increasing attention to building models without accessing the raw user data, especially in healthcare./联邦学习已经吸引了越来越多的注意力,在不访问原始用户数据的情况下建立模型,特别是在医疗保健方面。

论文摘要:联邦学习已经吸引了越来越多的关注,在不访问原始用户数据的情况下建立模型,特别是在医疗保健领域。在实际应用中,由于数据的异质性和中央服务器的不信任/不存在等可能的原因,不同的联邦很少能一起工作。在本文中,我们提出了一个名为MetaFed的新框架,以促进不同联邦之间的可信任的FL。MetaFed通过提议的循环知识蒸馏法为每个联邦获得一个没有中央服务器的个性化模型。具体来说,MetaFed将每个联邦视为一个元分布,并以循环的方式聚合每个联邦的知识。训练分为两部分:共同知识的积累和个性化。在三个基准上的综合实验表明,与最先进的方法相比,没有服务器的MetaFed实现了更好的准确性(例如,与PAMAP2的基线相比,准确性提高了10%以上),而且通信成本更低。

⚡ 论文:The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large Web Corpus

论文标题:The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large Web Corpus

论文时间:18 Dec 2021

所属领域自然语言处理

对应任务:Common Sense Reasoning,常识推理

论文地址arxiv.org/abs/2112.09…

代码实现github.com/facebookres…

论文作者:Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Dmytro Okhonko, Samuel Broscheit, Gautier Izacard, Patrick Lewis, Barlas Oğuz, Edouard Grave, Wen-tau Yih, Sebastian Riedel

论文简介:In order to address increasing demands of real-world applications, the research for knowledge-intensive NLP (KI-NLP) should advance by capturing the challenges of a truly open-domain environment: web-scale knowledge, lack of structure, inconsistent quality and noise./为了解决现实世界应用中日益增长的需求,知识密集型NLP(KI-NLP)的研究应该通过捕捉真正的开放领域环境的挑战来推进:网络规模的知识、缺乏结构、不一致的质量和噪音。

论文摘要:为了解决现实世界应用中日益增长的需求,知识密集型NLP(KI-NLP)的研究应该通过捕捉真正的开放领域环境的挑战来推进:网络规模的知识、缺乏结构、不一致的质量和噪音。为此,我们提出了一个评估现有知识密集型任务的新设置,其中我们将背景语料库概括为一个通用的网络快照。我们研究了一系列依赖知识的NLP任务--无论是事实还是常识,并要求系统使用CCNet的一个子集--Sphere语料库--作为知识源。与维基百科(KI-NLP中常见的背景语料库)相比,Sphere的规模要大得多,能更好地反映网络上知识的全部多样性。尽管在覆盖面上存在潜在的差距、规模上的挑战、缺乏结构和较低的质量,我们发现从Sphere中检索能够使一个先进的系统在一些任务上与基于维基百科的模型相匹配,甚至超过后者。我们还观察到,虽然密集索引可以在维基百科上胜过稀疏的BM25基线,但在Sphere上还不行。为了促进进一步的研究,并尽量减少社区对专有的黑盒搜索引擎的依赖,我们分享了我们的指数、评估指标和基础设施。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。