666!无人机加入海上搜救;对线面试官·Java后端知识图谱;清华大学·量化神经网络课程;动物园实际场景多视数据集;前沿论文 | ShowMeAI资讯日报

475 阅读7分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第22天,点击查看活动详情

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 SeaDronesSee:使用无人机系统完成海上搜救任务

github.com/Ben93kie/Se…

SeaDronesSee 是一个大规模的数据集,旨在实现海洋场景中使用无人驾驶飞行器(UAVs)的搜索和救援(SAR)系统。建立高度复杂的自主无人机系统来协助搜救任务,需要强大的计算机视觉算法来探测和跟踪感兴趣的物体或人员

SeaDronesSee 数据集提供了三组轨迹:物体探测、单物体跟踪和多物体跟踪,每条轨道都由它自己的数据集和排行榜组成。

工具&框架

🚧 『solo-learn』Pytorch Lightning 无监督视觉表示学习自监督方法库

github.com/vturrisi/so…

jmlr.org/papers/volu…

solo-learn 是一个基于 PyTorch Lightning 的无监督视觉表示学习的自监督方法库。我们的目标是在一个可比较的环境中提供 SOTA 自监督的方法,包含尽量多的训练技巧。

🚧 『whisper.cpp』OpenAI 的 Whisper 高质量语音识别模块

github.com/ggerganov/w…

OpenAI 的 Whisper 自动语音识别(ASR)模型的高性能模块,是 C/C++ 移植版,支持 ARM_NEON 和 AVX intrinsics,支持 Linux、Mac OS(Intel和Arm)、Windows(MinGW)、Raspberry Pi、Android等平台。

🚧 『OpenMatch v2』信息检索一站式开发包

github.com/OpenMatch/O…

OpenMatch 是一个工具库,与 Huggingface Transformer 和数据集深度集成,支持各种预训练语言模型(BERT、RoBERTa、T5...),本地支持常见的IR和QA数据集(MS MARCO、NQ、KILT、BEIR)。

🚧 『xpag』JAX 实现的模块化强化学习库

github.com/perrin-isir…

xpag 是一个带有 JAX 代理的模块化强化学习库,目前处于 beta 版本。xpag 可用于标准强化学习,在设计时也考虑了目标条件强化学习 (GCRL),除了 RL 平台中的常用模块(环境、代理、缓冲区/采样器)之外,xpag 还引入了一个名为『setter』的模块,可以帮助设置和管理目标。

🚧 『scalable-pytorch-sinkhorn』使用 Sinkhorn 算法计算快速 Wasserstein 距离

github.com/fwilliams/s…

该工具库包含 PyTorch 代码,用于计算d维点云之间的快速 p-Wasserstein 距离,使用 Sinkhorn 算法。算法实现使用线性内存开销,在 float32 中是稳定的,可在GPU上运行,并且完全可微调。

博文&分享

👍 『面试系列 | 对线面试官』Java 后端知识图谱

github.com/ZhongFuChen…

《对线面试官》是作者连载了近一年一个讲人话的面试系列。作者曾经通过这些资料去斩获了不少的公司的offer,基本涵盖了Java常问的知识点:

  • 简历准备
  • Java 基础
  • Java 并发
  • Java 虚拟机
  • Java 集合
  • Spring
  • Redis
  • 消息队列
  • MySQL

👍 『megvii-tsinghua-dl-course』清华大学 · 量化神经网络课程

github.com/megvii-rese…

这是一门清华大学开设的《量化神经网络》课程,包含以下章节:

  • ISP系统简介
  • 基础与 PTQ
  • QAT 与硬件
  • Vision Transformer 的量化
  • 自监督学习与量化

数据&资源

🔥 『Event Camera in Top Conference』事件相机相关文献资源列表

github.com/Event-AHU/E…

🔥 『Multiview Bootstrapping in the wild (MBW) - Zoo Dataset』动物园实际场景多视数据集

github.com/mosamdabhi/…

在不受约束的环境中标记关节物体具有多种应用。除了最常见的关节对象(如人类)之外,并不存在大型离线标记数据集。这个 Repo 就展示了使用 Multi-view Bootstrapping in the Wild (MBW) 方法完成的标准人类数据集,以及在动物园随便拍摄的视频中的老虎、猎豹、鱼、疣猴、黑猩猩和火烈鸟。

研究&论文

公众号后台回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.10.13 『语义文本相似性』 MTEB: Massive Text Embedding Benchmark
  • 2022.10.14 『文本到图像生成』Is synthetic data from generative models ready for image recognition?
  • 2022.07.27 『分布式计算』 FedML: A Research Library and Benchmark for Federated Machine Learning

⚡ 论文:MTEB: Massive Text Embedding Benchmark

论文时间:13 Oct 2022

领域任务:Semantic Textual Similarity, STS, 语义文本相似性STS

论文地址arxiv.org/abs/2210.07…

代码实现github.com/embeddings-…

论文作者:Niklas Muennighoff, Nouamane Tazi, Loïc Magne, Nils Reimers

论文简介:MTEB spans 8 embedding tasks covering a total of 56 datasets and 112 languages./MTEB涵盖了8个嵌入任务,共涉及56个数据集和112种语言。

论文摘要:文本嵌入通常在单一任务的一小部分数据集上进行评估,而不包括它们在其他任务中的可能应用。目前还不清楚关于语义文本相似性(STS)的最先进的嵌入技术是否能同样适用于其他任务,如聚类或重新排序。这使得该领域的进展难以跟踪,因为各种模型不断被提出,却没有适当的评估。为了解决这个问题,我们引入了海量文本嵌入基准(MTEB)。MTEB涵盖了8个嵌入任务,共涉及56个数据集和112种语言。通过在MTEB上对33个模型进行基准测试,我们建立了迄今为止最全面的文本嵌入基准。我们发现,没有任何一种文本嵌入方法在所有任务中占主导地位。这表明,该领域还没有汇聚到一个通用的文本嵌入方法上,并将其充分扩大,以在所有嵌入任务中提供最先进的结果。MTEB带有开放源代码和一个公共排行榜,网址是 huggingface.co/spaces/mteb…

⚡ 论文:Is synthetic data from generative models ready for image recognition?

论文时间:14 Oct 2022

领域任务:Text to image generation, Text-to-Image Generation, 文本到图像生成

论文地址arxiv.org/abs/2210.07…

代码实现github.com/cvmi-lab/sy…

论文作者:Ruifei He, Shuyang Sun, Xin Yu, Chuhui Xue, Wenqing Zhang, Philip Torr, Song Bai, Xiaojuan Qi

论文简介:Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images./最近的文本-图像生成模型在生成高保真照片-逼真的图像方面显示出令人鼓舞的结果。

论文摘要:最近的文本-图像生成模型在生成高保真照片-逼真的图像方面显示出可喜的成果。尽管这些结果对人的眼睛来说是惊人的,但这些生成的图像对识别任务的适用性仍然没有得到充分的探索。在这项工作中,我们广泛地研究了由最先进的文本到图像生成模型生成的合成图像是否以及如何用于图像识别任务,并着重于两个方面:在数据稀缺的环境下(即0-shot和少-shot)改进分类模型的合成数据,以及用于转移学习的大规模模型预训练的合成数据。我们展示了现有生成模型中合成数据的强大功能和缺陷,并提出了更好地将合成数据用于识别任务的策略。代码:github.com/CVMI-Lab/Sy…

⚡ 论文:FedML: A Research Library and Benchmark for Federated Machine Learning

论文时间:27 Jul 2020

领域任务:BIG-bench Machine Learning, Distributed Computing, BIG-bench 机器学习分布式计算

论文地址arxiv.org/abs/2007.13…

代码实现github.com/FedML-AI/Fe… , github.com/chaoyanghe/… , github.com/yukizhao199… , github.com/sugaruncle/…

论文作者:Chaoyang He, Songze Li, Jinhyun So, Xiao Zeng, Mi Zhang, Hongyi Wang, Xiaoyang Wang, Praneeth Vepakomma, Abhishek Singh, Hang Qiu, Xinghua Zhu, Jianzong Wang, Li Shen, Peilin Zhao, Yan Kang, Yang Liu, Ramesh Raskar, Qiang Yang, Murali Annavaram, Salman Avestimehr

论文简介:Federated learning (FL) is a rapidly growing research field in machine learning./联合学习(FL)是机器学习中一个快速增长的研究领域。

论文摘要:联合学习(FL)是机器学习中一个快速增长的研究领域。然而,现有的FL库不能充分支持多样化的算法开发;不一致的数据集和模型使用使得公平的算法比较具有挑战性。在这项工作中,我们介绍了FedML,一个开放的研究库和基准,以促进FL算法的开发和公平的性能比较。FedML支持三种计算范式:边缘设备的设备上训练、分布式计算和单机模拟。FedML还通过灵活、通用的API设计和全面的参考基准实现(优化器、模型和数据集),促进多样化的算法研究。我们希望FedML能够为开发和评估FL算法提供一个高效和可重复的手段,从而使FL研究界受益。我们在 fedml.ai 维护源代码、文档和用户社区。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。