为了方便机器学习知识相关的学习,整理了机器学习相关的600+开源项目列表。
解释黑箱模型和数据集
- [Aequitas] github.com/dssg/aequit… 一个开源的偏见审计工具包,供数据科学家、机器学习研究人员和政策制定者审计机器学习模型中的歧视和偏见,并在开发和部署预测风险评估工具时做出明智和公平的决策。
- [AI Explainability 360] github.com/Trusted-AI/… 数据和机器学习模型的可解释性和可解释性工具包,包括一套全面的算法,涵盖不同维度的解释以及代理可解释性指标。
- [AI Fairness 360] github.com/Trusted-AI/… 一套全面的公平性指标,用于数据集和机器学习模型,解释这些指标,并提供算法以减轻数据集和模型中的偏见。
- [Alibi] github.com/SeldonIO/al… Alibi 是一个开源的 Python 库,旨在对机器学习模型进行检查和解释。该库最初专注于黑箱、基于实例的模型解释。
- [anchor] github.com/marcotcr/an… 该代码用于论文 "高精度模型无关解释",这是一个模型无关的系统,通过称为锚点的高精度规则解释复杂模型的行为。
- [captum] github.com/pytorch/cap… 由 Facebook 开发的 PyTorch 模型解释和理解库,它包含集成梯度、显著性图、平滑梯度、变异梯度等的通用实现,适用于 PyTorch 模型。
- [casme] github.com/kondiz/casm… 在论文 "无分类器显著性图提取" 中展示了在 ImageNet 上使用无分类器显著性图提取的示例。
- [CleverHans] github.com/tensorflow/… 一个对抗样本库,用于构建攻击、防御和基准测试,一个 Python 库,用于基准测试系统对对抗样本的脆弱性。
- [ContrastiveExplanation (Foil Trees)] github.com/MarcelRobee… 用于机器学习的模型无关对比/反事实解释的 Python 脚本,伴随论文 "使用局部箔树的对比解释" 的代码。
- [DeepLIFT] github.com/kundajelab/… 包含论文 "通过传播激活差异学习重要特征" 中方法的代码库,这里是 幻灯片 和在 ICML 上进行的 15 分钟演讲的视频。
- [DeepVis Toolbox] github.com/yosinski/de… 这是运行深度可视化工具箱所需的代码,以及使用正则化优化生成逐个神经元可视化的代码,该工具箱和方法在这里进行了非正式描述,并在这篇论文中进行了更正式的描述。
- [ELI5] github.com/TeamHG-Meme… "Explain Like I'm 5" 是一个 Python 包,帮助调试机器学习分类器并解释其预测。
- [FACETS] github.com/PAIR-code/f… Facets 包含两个强大的可视化工具,帮助理解和分析机器学习数据集,使用 Facets Overview 了解数据集中每个特征的形状,或使用 Facets Dive 探索单个观测值。
- [Fairlearn] github.com/fairlearn/f… Fairlearn 是一个 Python 工具包,用于评估和减轻机器学习模型中的不公平性。
- [FairML] github.com/adebayoj/fa… FairML 是一个 Python 工具箱,用于审计机器学习模型中的偏见。
- [Fairness Comparison] github.com/algofairnes… 该仓库旨在基于这篇论文促进公平感知机器学习算法的基准测试。
- [Fairness Indicators] github.com/tensorflow/… 该工具支持团队在评估、改进和比较模型的公平性问题时,与更广泛的 TensorFlow 工具包合作。
- [GEBI - Global Explanations for Bias Identification] github.com/AgaMiko/GEB… 一个基于注意力的总结后解释,用于检测和识别数据中的偏见。我们提出了一种全局解释,并介绍了一个逐步框架,说明如何检测和测试偏见。适用于图像数据的 Python 包。
- [iNNvestigate] github.com/albermax/in… 一个开源库,用于通过深度泰勒分解、PatternNet、显著性图和集成梯度等方法对 Keras 模型进行可视化分析。
- [Integrated-Gradients] github.com/ankurtaly/I… 该仓库提供了实现图像输入网络的集成梯度的代码。
- [InterpretML] github.com/interpretml… InterpretML 是一个开源包,用于训练可解释的模型并解释黑箱系统。
- [keras-vis] github.com/raghakot/ke… keras-vis 是一个高层次的工具包,用于可视化和调试已训练的 Keras 神经网络模型,目前支持的可视化包括:激活最大化、显著性图、类激活图。
- [L2X] github.com/Jianbo-Lab/… 用于复现论文 "学习解释:基于信息论的模型解释视角" 中实验的代码,该论文在 ICML 2018 上发表。
- [Lightly] github.com/lightly-ai/… 一个用于图像自监督学习的 Python 框架,学习到的表示可以用于分析未标记数据的分布并重新平衡数据集。
- [Lightwood] github.com/mindsdb/lig… 一个基于 Pytorch 的框架,将机器学习问题分解为可以无缝组合的小块,目标是用一行代码构建预测模型。
- [LIME] github.com/marcotcr/li… 本地可解释模型无关解释,用于机器学习模型。
- [LOFO Importance] github.com/aerdem4/lof… LOFO(Leave One Feature Out)重要性通过迭代地从特征集中移除每个特征,并根据所选指标评估模型性能,计算一组特征的重要性。
- [MindsDB] github.com/mindsdb/min… MindsDB 是一个可解释的 AutoML 框架,供开发者使用。使用 MindsDB,您可以用一行代码构建、训练和使用最先进的机器学习模型。
- [mljar-supervised] github.com/mljar/mljar… 一个用于表格数据的 AutoML Python 包,包含特征工程、超参数调优、解释和自动文档生成。
- [NETRON] github.com/lutzroeder/… 神经网络、深度学习和机器学习模型的查看器。
- [pyBreakDown] github.com/MI2DataLab/… 一个模型无关的工具,用于分解黑箱模型的预测,Break Down 表显示每个变量对最终预测的贡献。
- [responsibly] github.com/Responsibly… 用于审计和减轻机器学习系统偏见和公平性的工具包。
- [SHAP] github.com/slundberg/s… SHapley Additive exPlanations 是一种统一的方法,用于解释任何机器学习模型的输出。
- [SHAPash] github.com/MAIF/shapas… Shapash 是一个 Python 库,提供多种类型的可视化,显示每个人都能理解的明确标签。
- [Skater] github.com/datascience… Skater 是一个统一的框架,支持所有形式的模型解释- [tensorflow's Model Analysis] github.com/tensorflow/… TensorFlow 模型分析(TFMA)是一个用于评估 TensorFlow 模型的库,它允许用户在大量数据上以分布式方式评估其模型,使用与其训练器中定义的相同指标。
- [themis-ml] github.com/cosmicBboy/… themis-ml 是一个基于 pandas 和 sklearn 构建的 Python 库,实现了公平感知的机器学习算法。
- [Themis] github.com/LASER-UMASS… Themis 是一种基于测试的方法,用于测量软件系统中的歧视。
- [Transformer Debugger] github.com/openai/tran… Transformer Debugger (TDB) 是由 OpenAI 的 Superalignment 团队开发的工具,旨在支持对小型语言模型特定行为的调查。
- [TreeInterpreter] github.com/andosa/tree… 用于解释 scikit-learn 的决策树和随机森林预测的包。允许将每个预测分解为偏差和特征贡献组件,如这里所述。
- [WhatIf] github.com/pair-code/w… 一个易于使用的界面,用于扩展对黑箱分类或回归机器学习模型的理解。
- [woe] github.com/boredbird/w… 用于 WoE 转换的工具,主要用于信用评级的评分卡模型。
- [XAI - eXplainableAI] github.com/EthicalML/x… 一个用于机器学习的可解释性工具箱。
隐私保护机器学习
- [BastionLab] github.com/mithril-sec… BastionLab 是一个用于保密数据科学协作的框架,它使用保密计算、访问控制数据科学和差分隐私,使数据科学家能够远程对保密数据进行数据探索、统计和训练,同时确保数据所有者的最大隐私。
- [Concrete-ML] github.com/zama-ai/con… Concrete-ML 是一个基于 Zama的 Concrete 框架构建的隐私保护机器学习(PPML)开源工具集,它旨在简化完全同态加密(FHE)的使用,帮助数据科学家自动将机器学习模型转换为同态等效模型。
- [Fedlearner] github.com/bytedance/f… Fedlearner 是一个协作机器学习框架,使机构之间的数据联合建模成为可能。
- [FATE] github.com/FederatedAI… FATE(Federated AI Technology Enabler)是世界上第一个工业级联邦学习开源框架,使企业和机构能够在保护数据安全和隐私的同时进行数据协作。
- [FedML] github.com/FedML-AI/Fe… FedML 提供了一个研究和生产集成的边缘云平台,用于在任何地方、任何规模的联邦/分布式机器学习。
- [Flower] github.com/adap/flower Flower 是一个具有统一方法的联邦学习框架,它使任何机器学习工作负载、任何机器学习框架和任何编程语言的联合成为可能。
- [Google's Differential Privacy] github.com/google/diff… 这是一个 C++ 库,包含 ε-差分隐私算法,可用于对包含私密或敏感信息的数值数据集进行聚合统计。
- [Intel Homomorphic Encryption Backend] github.com/NervanaSyst… Intel HE transformer for nGraph 是 Intel nGraph 编译器的同态加密(HE)后端,Intel 的人工神经网络图编译器。
- [Microsoft SEAL] github.com/microsoft/S… Microsoft SEAL 是由微软密码学研究小组开发的易于使用的开源(MIT 许可)同态加密库。
- [OpenFL] github.com/intel/openf… OpenFL 是一个用于联邦学习的 Python 框架。OpenFL 旨在成为数据科学家一个灵活、可扩展且易于学习的工具。OpenFL 由 Intel 物联网集团(IOTG)和 Intel 实验室开发。
- [PySyft] github.com/OpenMined/P… 一个用于安全、私密深度学习的 Python 库。PySyft 通过在 PyTorch 中使用多方计算(MPC)将私密数据与模型训练分离。
- [Rosetta] github.com/LatticeX-Fo… 一个基于 TensorFlow 的隐私保护框架,使用多方计算(MPC)进行定制后端操作。Rosetta 重用 TensorFlow 的 API,并允许以最小的更改将原始 TensorFlow 代码转换为隐私保护方式。
- [Substra] github.com/SubstraFoun… Substra 是一个用于隐私保护、可追溯和协作机器学习的开源框架。
- [Tensorflow Privacy] github.com/tensorflow/… 一个 Python 库,包含用于差分隐私训练机器学习模型的 TensorFlow 优化器实现。
- [TF Encrypted] github.com/tf-encrypte… 一个用于在 TensorFlow 中对加密数据进行保密机器学习的框架。
模型和数据版本控制
- [Aim] github.com/aimhubio/ai… 一种超级简单的方法来记录、搜索和比较AI实验。
- [Catalyst] github.com/catalyst-te… 用于PyTorch深度学习和强化学习研究的高级工具。它的开发重点是可重复性、快速实验和代码/想法的重用。
- [ClearML] github.com/allegroai/c… 自动化实验管理器和AI版本控制(前称Trains)。
- [CodaLab] github.com/codalab/cod… CodaLab Worksheets是一个用于可重复研究的协作平台,允许研究人员在云中运行、管理和分享他们的实验。它帮助研究人员确保他们的运行是可重复和一致的。
- [Data Version Control (DVC)] github.com/iterative/d… 一个允许模型版本管理的git分支。
- [Deepkit] github.com/deepkit/dee… 一个开源平台和跨平台桌面应用程序,用于执行、跟踪和调试现代机器学习实验。
- [Dolt] github.com/dolthub/dol… Dolt是一个SQL数据库,你可以像git仓库一样进行分叉、克隆、分支、合并、推送和拉取。
- [Flor] github.com/ucbrise/flo… 为编写机器学习代码的数据科学家设计的易于使用的日志记录器和自动版本控制器。
- [Guild AI] github.com/guildai/gui… 开源工具包,自动化和优化机器学习实验。
- [Hangar] github.com/tensorwerk/… 张量数据的版本控制,具有git-like语义的高速度和效率的数值数据。
- [Keepsake] github.com/replicate/k… 机器学习的版本控制。
- [KitOps] github.com/jozu-ai/kit… KitOps是一个开放和基于标准的AI/ML项目打包和版本控制系统,适用于你已经在使用的所有AI/ML、开发和DevOps工具。
- [lakeFS] github.com/treeverse/l… 基于对象存储的可重复、原子和版本化的数据湖。
- [MLflow] github.com/mlflow/mlfl… 管理机器学习生命周期的开源平台,包括实验、可重复性和部署。
- [ModelDB] github.com/VertaAI/mod… 一个开源系统,用于版本控制机器学习模型,包括其成分代码、数据、配置和环境,并在模型生命周期中跟踪机器学习元数据。
- [ModelStore] github.com/operatorai/… 一个开源的Python库,允许你将机器学习模型版本化、导出并保存到你的云存储提供商。
- [ormb] github.com/kleveross/o… 基于OCI工件的机器学习/深度学习模型的Docker。
- [Polyaxon] github.com/polyaxon/po… 一个用于在Kubernetes上进行可重复和可扩展的机器学习和深度学习的平台 - (视频)。
- [Quilt] github.com/quiltdata/q… 数据和模型的版本控制、可重复性和部署。
- [Sacred] github.com/IDSIA/sacre… 帮助你配置、组织、记录和重现机器学习实验的工具。
- [Studio] github.com/studioml/st… 模型管理框架,最小化调度、运行、监控和管理机器学习实验工件的开销。
- [TerminusDB] github.com/terminusdb/… 一个图数据库管理系统,像git一样存储数据。
模型训练编排
- [Accelerate] github.com/huggingface… Accelerate 抽象了与多 GPU/TPU/混合精度相关的样板代码,并保持其余代码不变。
- [Aqueduct] github.com/aqueducthq/… Aqueduct 使您能够轻松定义、运行和管理在任何云基础设施上的 AI 和 ML 任务。
- [CML] github.com/iterative/c… 连续机器学习(CML)是一个开源库,用于在机器学习项目中实现持续集成和交付(CI/CD)。
- [CoreNet] github.com/apple/coren… CoreNet 是一个深度神经网络工具包,允许研究人员和工程师训练各种任务的标准和新型小型和大型模型,包括基础模型(例如 CLIP 和 LLM)、对象分类、对象检测和语义分割。
- [Determined] github.com/determined-… 深度学习训练平台,集成了分布式训练、超参数调优和模型管理(支持 Tensorflow 和 Pytorch)。
- [envd] github.com/tensorchord… 为数据科学和 AI/ML 工程团队提供的机器学习开发环境。
- [Fabrik] github.com/Cloud-CV/Fa… Fabrik 是一个在线协作平台,通过简单的拖放界面构建、可视化和训练深度学习模型。
- [Hopsworks] github.com/logicalcloc… Hopsworks 是一个数据密集型平台,用于设计和操作机器学习管道,包括一个特征存储 - (视频)。
- [Kubeflow] github.com/kubeflow/ku… 基于 Google 内部机器学习管道的云原生机器学习平台。
- [MFTCoder] github.com/codefuse-ai… MFTCoder 是 CodeFuse 的一个开源项目,用于在大型语言模型(LLMs)上进行准确高效的多任务微调(MFT),特别是代码任务的大型语言模型(Code-LLMs)。
- [MLeap] github.com/combust/mle… 用于 Spark、Tensorflow 和 sklearn 的管道和模型序列化标准化。
- [Nanotron] github.com/huggingface… Nanotron 提供分布式原语,以使用 3D 并行高效训练各种模型。
- [NeMo] github.com/NVIDIA/NeMo NVIDIA NeMo 是一个可扩展的云原生生成 AI 框架,专为从事大型语言模型(LLMs)、多模态模型(MMs)、自动语音识别(ASR)、文本转语音(TTS)和计算机视觉(CV)领域的研究人员和 PyTorch 开发人员设计。它旨在帮助您通过利用现有代码和预训练模型检查点高效创建、定制和部署新的生成 AI 模型。
- [Nos] github.com/nebuly-ai/n…
nos是一个开源平台,用于在 Kubernetes 上高效运行 AI 工作负载,提高 GPU 利用率并降低基础设施和运营成本。 - [NVIDIA TensorRT] github.com/NVIDIA/Tens… TensorRT 是一个用于 NVIDIA GPU 和深度学习加速器上高性能推理的 C++ 库。
- [Onepanel] github.com/onepanelio/… 生产规模的视觉 AI 平台,具有用于模型构建、自动标注、数据处理和模型训练管道的完全集成组件。
- [Open Platform for AI] github.com/Microsoft/p… 提供完整 AI 模型训练和资源管理能力的平台。
- [PyCaret] pycaret.org/ 低代码库,用于训练和部署模型(scikit-learn、XGBoost、LightGBM、spaCy)。
- [Sematic] github.com/sematic-ai/… 用于构建资源密集型管道的平台,使用简单的 Python 代码。
- [Skaffold] github.com/GoogleConta… Skaffold 是一个命令行工具,促进 Kubernetes 应用程序的持续开发。您可以在本地迭代应用程序源代码,然后部署到本地或远程的 Kubernetes 集群。
- [SkyPilot] github.com/skypilot-or… 在任何云上运行 LLMs、AI 和批处理作业。通过简单的界面获得最大节省、最高的 GPU 可用性和托管执行。
- [Streaming] github.com/mosaicml/st… 一个用于高效神经网络训练的数据流库。
- [Tensorflow Extended (TFX)] github.com/tensorflow/… 基于 TensorFlow 的生产导向配置框架,包括监控和模型版本管理。
- [TonY] github.com/linkedin/To… TonY 是一个在 Apache Hadoop 上本地运行深度学习作业的框架,目前支持 TensorFlow、PyTorch、MXNet 和 Horovod。
模型服务与监控
- [Backprop] github.com/backprop-ai… Backprop 使得使用、微调和部署最先进的机器学习模型变得简单。
- [BentoML] github.com/bentoml/Ben… BentoML 是一个开源框架,用于高性能的机器学习模型服务。
- [Cortex] github.com/cortexlabs/… Cortex 是一个开源平台,用于将使用任何框架训练的机器学习模型部署为生产级 Web 服务。无需 DevOps。
- [Deepchecks] github.com/deepchecks/… Deepchecks 是一个开源包,用于在开发、部署或生产中以最小的努力全面验证你的机器学习模型和数据。
- [DeepDetect] github.com/jolibrain/d… 由 Jolibrain 维护的用于 TensorFlow、XGBoost 和 Cafe 模型的机器学习生产服务器,使用 C++ 编写。
- [Evidently] github.com/evidentlyai… Evidently 帮助在开发、验证或生产监控期间分析机器学习模型,该工具从 pandas DataFrame 生成交互式报告。
- [ForestFlow] github.com/ForestFlow/… 云原生机器学习模型服务器。
- [Giskard] github.com/Giskard-AI/… AI 模型的质量保证,开源平台,帮助组织提高 AI 开发工作流程的效率,消除 AI 偏见的风险,并确保稳健、可靠和道德的 AI 模型。
- [Helicone] github.com/Helicone/he… Helicone 是一个 LLM 的可观测性平台。
- [Hydrosphere ML Lambda] github.com/Hydrosphere… 开源模型管理集群,用于以 FaaS 架构部署、服务和监控机器学习模型和临时算法。
- [Intel® Extension for Transformers] github.com/intel/intel… 一个创新的基于 Transformer 的工具包,用于加速 GenAI/LLM 的应用。
- [Inference] github.com/roboflow/in… 一个快速、生产就绪的计算机视觉推理服务器,支持部署许多流行的模型架构和微调模型,使用 Inference,你可以使用 Docker 在自己的硬件上部署如 YOLOv5、YOLOv8、CLIP、SAM 和 CogVLM 等模型。
- [Jina] github.com/jina-ai/jin… 云原生搜索框架,支持使用深度学习/最先进的 AI 模型进行搜索。
- [KServe] github.com/kserve/kser… 无服务器框架,用于在 Kubernetes 中部署和监控机器学习模型 - (视频)。
- [Langfuse] github.com/langfuse/la… Langfuse 是一个开源的可观测性和分析解决方案,适用于基于 LLM 的应用程序。
- [LightLLM] github.com/ModelTC/lig… LightLLM 是一个基于 Python 的大型语言模型(LLM)推理和服务框架,以其轻量级设计、易于扩展和高速度性能而著称。
- [LLMonitor] github.com/LLMonitor/l… AI 应用和代理的可观测性和分析。
- [LocalAI] github.com/mudler/Loca… LocalAI 是一个兼容 OpenAI API 规范的本地推理 REST API 替代品。
- [m2cgen] github.com/BayesWitnes… 一个轻量级库,允许将训练好的经典机器学习模型转译为 C、Java、Go、R、PHP、Dart、Haskell、Rust 和许多其他编程语言的本地代码。
- [MLEM] github.com/iterative/m… 按照 GitOps 原则对你的机器学习模型进行版本控制和部署。
- [MLRun] github.com/mlrun/mlrun MLRun 是一个开源的 MLOps 框架,用于快速构建和管理跨生命周期的连续机器学习和生成 AI 应用程序。
- [MLServer] github.com/SeldonIO/ml… 一个用于机器学习模型的推理服务器,包括对多种框架的支持、多模型服务等。
- [mltrace] github.com/loglabs/mlt… 一个轻量级的开源 Python 工具,用于在机器学习管道中获得“附加”可观测性。
- [MLWatcher] github.com/anodot/MLWa… MLWatcher 是一个 Python 代理,记录运行中的机器学习分类算法的各种时间序列指标,它使你能够实时监控。
- [Model Server for Apache MXNet (MMS)] github.com/awslabs/mxn… 来自亚马逊 Web 服务的 Apache MXNet 模型服务器,能够运行 MXNet 模型以及 Gluon 模型(亚马逊的 SageMaker 在后台运行自定义版本的 MMS)。
- [NannyML] github.com/NannyML/nan… 一个开源库,用于估计部署后模型的性能(无需访问目标),能够完全捕捉数据漂移对性能的影响。
- [Mosec] github.com/mosecorg/mo… 一个基于 Rust 的多阶段流水线模型服务器,提供动态批处理等功能,超级容易实现和部署为微服务。
- [Nuclio] github.com/nuclio/nucl… 一个高性能的"无服务器"框架,专注于数据、I/O 和计算密集型工作负载,它与流行的数据科学工具(如 Jupyter 和 Kubeflow)集成良好,支持多种数据和流媒体源,并支持在 CPU 和 GPU 上执行。
- [ONNX Runtime] github.com/microsoft/o… ONNX Runtime 是一个跨平台的推理和训练机器学习加速器。
- [OpenScoring] github.com/openscoring… 用于 Scikit-Learn、R 和 Apache Spark 模型的真正实时评分(< 1 毫秒)的 REST Web 服务。
- [OpenVINO] github.com/openvinotoo… OpenVINO 是一个开源工具包,用于优化和部署 AI 推理。
- [Pandas Profiling] github.com/pandas-prof… 从 pandas DataFrame 对象创建 HTML 分析报告,它通过 df.profile_report() 扩展 pandas DataFrame 以进行快速数据分析。
- [Phoenix] github.com/Arize-ai/ph… Phoenix 是一个开源的机器学习可观测性工具,用于在笔记本中验证、监控和微调你的生成 LLM、CV 和表格模型。
- [PowerInfer] github.com/SJTU-IPADS/… PowerInfer 是一个利用激活局部性的 CPU/GPU LLM 推理引擎。
- [PredictionIO] github.com/apache/pred… 一个开源的机器学习服务器,构建在最先进的开源堆栈之上,供开发人员和数据科学家创建任何机器学习任务的预测引擎。
- [Redis-AI] github.com/RedisAI/Red… 一个用于服务张量和执行深度学习模型的 Redis 模块。API 和内部结构可能会发生变化。
- [Seldon Core] github.com/SeldonIO/se… 开源平台,用于在 Kubernetes 中部署和监控机器学习模型 - (视频)。
- [skops] github.com/skops-dev/s… skops 是一个 Python 库,帮助你分享基于 scikit-learn 的模型并将其投入生产。
- [S-LoRA] github.com/S-LoRA/S-Lo… 服务数千个并发的 LoRA 适配器。
- [Tempo] github.com/SeldonIO/te… 开源 SDK,提供一个统一的接口,连接多个 MLOps 项目,使数据科学家能够部署和生产化机器学习系统。
- [Tensorflow Serving] github.com/tensorflow/… 高性能框架,通过 grpc 协议服务 Tensorflow 模型,每核每秒可处理 100k 请求。
- [text-generation-inference] github.com/huggingface… 大型语言模型文本生成推理。
- [TorchServe] github.com/pytorch/ser… TorchServe 是一个灵活且易于使用的工具,用于服务 PyTorch 模型。
- [Transformer-deploy] github.com/ELS-RD/tran… Transformer-deploy 是一个高效、可扩展和企业级的 CPU/GPU 推理服务器,用于 Hugging Face 的 transformer 模型。
- [Triton Inference Server] github.com/triton-infe… Triton 是一个高性能的开源服务软件,用于在 GPU 和 CPU 上最大化利用率地部署任何框架的 AI 模型。
- [TruLens] github.com/truera/trul… TruLens 提供了一套开发和监控神经网络(包括大型语言模型)的工具。
- [UnionML] github.com/unionai-oss… UnionML 是一个开源的 MLOps 框架,旨在减少构建模型和将其部署到生产中的样板代码和摩擦。
- [vLLM] github.com/vllm-projec… vLLM 是一个高吞吐量和内存高效的 LLM 推理和服务引擎。
对抗工具箱
- [AdvBox] github.com/advboxes/Ad… 一个工具箱,用于生成欺骗神经网络的对抗样本,支持PaddlePaddle、PyTorch、Caffe2、MxNet、Keras、TensorFlow,并且可以基准测试机器学习模型的鲁棒性。
- [Adversarial DNN Playground] github.com/QData/Adver… 类似于 TensorFlow Playground,但用于对抗样本!一个为学习和教学设计的可视化工具,攻击库的规模有限,但它有一个不错的前端界面,带有可点击的按钮!
- [AdverTorch] github.com/BorealisAI/… 专门为PyTorch设计的对抗攻击/防御库。
- [Artificial Adversary] github.com/airbnb/arti… AirBnB的库,用于生成对人类阅读相同但能通过对抗分类器的文本。
- [CleverHans] github.com/tensorflow/… 一个用于测试对抗攻击/防御的库,由对抗机器学习领域的一些重要人物维护,如Ian Goodfellow(前Google Brain,现在Apple)和Nicolas Papernot(Google Brain)。附带一些不错的教程!
- [Counterfit] github.com/Azure/count… Counterfit是一个命令行工具和通用自动化层,用于评估机器学习系统的安全性。
- [DEEPSEC] github.com/kleincup/DE… 另一个用于攻击和防御深度学习模型的系统工具。
- [Foolbox] github.com/bethgelab/f… 第二大对抗库,拥有更长的攻击列表,但没有防御或评估指标,更倾向于计算机视觉。代码比ART更容易理解/修改,也更适合探索替代模型上的黑盒攻击。
- [对抗鲁棒性工具箱 (ART)] github.com/Trusted-AI/… ART提供工具,使开发者和研究人员能够防御和评估机器学习模型和应用程序对抗规避、投毒、提取和推理的威胁。
- [MIA] github.com/spring-epfl… 一个用于对机器学习模型进行成员推断攻击(MIA)的库。
- [NeMo Guardrails] github.com/NVIDIA/NeMo… NeMo Guardrails是一个开源工具包,用于轻松为基于LLM的对话系统添加可编程的护栏。
- [Nicolas Carlini的对抗机器学习阅读列表] nicholas.carlini.com/writing/201… - 不是一个库,而是由对抗机器学习领域的领先人物Nicholas Carlini精心策划的最重要的对抗论文列表。如果你想了解最重要的10篇论文,我建议从这里开始。
- [OpenAttack] github.com/thunlp/Open… OpenAttack是一个基于Python的文本对抗攻击工具包,处理文本对抗攻击的整个过程,包括预处理文本、访问受害模型、生成对抗样本和评估。
- [RobustBench] github.com/RobustBench… 另一个由对抗机器学习领域的领先人物维护的鲁棒性资源。他们专注于防御,并提供一个标准化的对抗鲁棒性基准。
- [Robust ML] www.robust-ml.org/defenses/ - 另一个由对抗机器学习领域的领先人物维护的鲁棒性资源。他们专注于防御,并提供与论文一起发布的代码。实用且有用。
- [TextFool] github.com/bogdan-kuly… 用于文本生成的看似合理的对抗样本。
- [Trickster] github.com/spring-epfl… 使用图搜索攻击离散领域中的机器学习的库和实验。
自动机器学习 (AutoML)
- [AutoGluon] github.com/awslabs/aut… 基于流行的机器学习库(如Scikit-Learn、LightGBM、CatBoost、PyTorch、MXNet)进行表格、图像和文本数据的自动特征、模型和超参数选择。
- [Autokeras] github.com/jhfjhfj1/au… 基于Keras的AutoML库,参考论文"Auto-Keras: Efficient Neural Architecture Search with Network Morphism"。
- [AutoML-GS] github.com/minimaxir/a… 基于常见数据科学库(如tensorflow、sklearn等)进行自动特征和模型搜索,并生成代码的Python库。
- [auto-sklearn] github.com/automl/auto… 用于自动化sklearn算法和超参数调优的框架。
- [Colombus] i.stanford.edu/hazy/victor… 一个可扩展的框架,用于在R中执行探索性特征选择。
- [ENAS via Parameter Sharing] github.com/melodyguan/… 通过参数共享进行高效神经架构搜索,参考论文。
- [ENAS-PyTorch] github.com/carpedm20/E… 基于PyTorch的高效神经架构搜索(ENAS),参考论文。
- [ENAS-Tensorflow] github.com/MINGUKKANG/… 通过参数共享进行高效神经架构搜索(ENAS),适用于Windows用户的Tensorflow代码。
- [Feature Engine] github.com/feature-eng… Feature-engine是一个Python库,包含多个用于特征工程的转换器,以便在机器学习模型中使用。
- [Featuretools] github.com/alteryx/fea… 一个开源框架,用于自动化特征工程。
- [FLAML] github.com/microsoft/F… FLAML是一个快速的自动化机器学习和调优库。
- [go-featureprocessing] github.com/nikolaydubi… 一个用Go语言编写的特征预处理框架,功能与sklearn相匹配。
- [HEBO] github.com/huawei-noah… 一组开源的超参数优化框架,包括在NeurIPS 2020黑盒优化挑战中获胜的提交,经过超参数调优任务的测试。
- [Katib] github.com/kubeflow/ka… 一个基于Kubernetes的超参数调优和神经架构搜索系统。
- [keras-tuner] github.com/keras-team/… Keras Tuner是一个易于使用、可分发的超参数优化框架,解决了执行超参数搜索的痛点。Keras Tuner使定义搜索空间和利用包含的算法找到最佳超参数值变得容易。
- [Maggy] github.com/logicalcloc… 在Apache Spark上进行异步、定向的超参数搜索和并行消融研究 - (视频)。
- [Neural Architecture Search with Controller RNN] github.com/titu1994/ne… 基于使用强化学习进行神经架构搜索和学习可转移的架构以实现可扩展的图像识别的Controller RNN的基本实现。
- [Neural Network Intelligence] github.com/Microsoft/n… NNI(Neural Network Intelligence)是一个帮助用户运行自动机器学习(AutoML)实验的工具包。
- [Optuna] github.com/optuna/optu… Optuna是一个自动化超参数优化软件框架,特别为机器学习设计。
- [OSS Vizier] github.com/google/vizi… OSS Vizier是一个基于Python的黑盒优化和研究服务,是最早设计用于大规模工作的超参数调优服务之一。
- [sklearn-deap] github.com/rsteca/skle… 在scikit-learn中使用进化算法代替网格搜索。
- [TPOT] github.com/epistasisla… 自动化sklearn管道创建(包括特征选择、预处理器等)。
- [tsfresh] github.com/blue-yonder… 从时间序列中自动提取相关特征。
- [Upgini] github.com/upgini/upgi… 免费的自动化数据和特征增强库,用于机器学习:自动搜索来自公共和社区共享数据源的数千个现成特征,并仅使用提高准确性的特征来增强您的训练数据集。
数据管道
- [Apache Airflow] github.com/apache/airf… 用Python构建的数据管道框架,包括调度器、DAG定义和可视化UI。
- [Apache Nifi] github.com/apache/nifi Apache NiFi专为数据流设计。它支持高度可配置的数据路由、转换和系统中介逻辑的有向图。
- [Argo Workflows] github.com/argoproj/ar… Argo Workflows是一个开源的容器原生工作流引擎,用于在Kubernetes上编排并行作业。Argo Workflows实现为Kubernetes CRD(自定义资源定义)。
- [Azkaban] github.com/azkaban/azk… Azkaban是LinkedIn创建的批处理工作流作业调度器,用于运行Hadoop作业。Azkaban通过作业依赖关系解决排序问题,并提供易于使用的Web用户界面来维护和跟踪工作流。
- [Basin] github.com/basin-etl/b… 用于构建Spark和PySpark管道的可视化编程编辑器。
- [BatchFlow] github.com/analysiscen… BatchFlow帮助数据科学家方便地处理随机或顺序批次的数据,并为大数据集定义数据处理和机器学习工作流。
- [Bonobo] github.com/python-bono… 针对Python 3.5+的ETL框架,专注于简单的原子操作并发处理数据行。
- [Chronos] github.com/mesos/chron… 更像是Mesos的作业调度器,而不是ETL管道。
- [Couler] github.com/couler-proj… 用于在不同工作流引擎(如Argo Workflows、Tekton Pipelines和Apache Airflow)上构建和管理机器学习工作流的统一接口。
- [DataTrove] github.com/huggingface… DataTrove是一个用于大规模处理、过滤和去重文本数据的库。
- [D6tflow] github.com/d6t/d6tflow 一个Python库,允许在Python上构建复杂的数据科学工作流。
- [DALL·E Flow] github.com/jina-ai/dal… DALL·E Flow是一个用于从文本提示生成高清图像的交互式工作流。
- [Dagster] github.com/dagster-io/… 一个用于机器学习、分析和ETL的数据编排器。
- [DBND] github.com/databand-ai… DBND是一个敏捷的管道框架,帮助数据工程团队跟踪和编排他们的数据处理过程。
- [DBT] github.com/dbt-labs/db… 在数据仓库内运行转换的ETL工具。
- [Flyte] github.com/flyteorg/fl… Lyft的云原生机器学习和数据处理平台 - (演示)。
- [Genie] github.com/Netflix/gen… 作业编排引擎,用于接口和触发Hadoop系统中的作业执行。
- [Gokart] github.com/m3dev/gokar… 数据管道Luigi的包装器。
- [Hamilton] github.com/dagworks-in… Hamilton是一个微编排框架,用于定义数据流。可以在任何Python运行的地方运行(例如jupyter, fastAPI, spark, ray, dask)。在不知不觉中引入软件工程最佳实践。可用于定义特征工程转换、端到端模型管道和LLM工作流。它补充了宏编排系统(例如kedro, luigi, airflow, dbt等),替代这些宏任务中的代码。
- [Instill VDP] github.com/instill-ai/… Instill VDP(多功能数据管道)旨在简化从开始到完成的数据处理管道。
- [Kedro] github.com/quantumblac… Kedro是一个工作流开发工具,帮助你构建健壮、可扩展、可部署、可复现和版本化的数据管道。Kedro工作流的可视化可以通过
kedro-viz实现。 - [Ludwig] github.com/ludwig-ai/l… Ludwig是一个声明式机器学习框架,使得使用简单灵活的数据驱动配置系统定义机器学习管道变得容易。
- [Luigi] github.com/spotify/lui… Luigi是一个Python模块,帮助你构建复杂的批处理作业管道,处理依赖关系解析、工作流管理、可视化等。
- [Metaflow] github.com/Netflix/met… 一个框架,帮助数据科学家轻松构建和管理实际数据科学项目。
- [Neuraxle] github.com/Neuraxio/Ne… 一个构建整洁管道的框架,提供正确的抽象来链接数据转换和预测步骤,支持数据流以及超参数搜索(AutoML)。
- [Oozie] github.com/apache/oozi… Hadoop作业的工作流调度器。
- [Pachyderm] github.com/pachyderm/p… 基于Kubernetes的开源分布式处理框架,主要关注生产机器学习管道的动态构建 - (视频)。
- [PipelineX] github.com/Minyus/pipe… 基于Kedro和MLflow。完整的比较可以在这里找到。
- [Ploomber] github.com/ploomber/pl… 构建数据管道的最快方式。迭代开发,随处部署。
- [Prefect Core] github.com/PrefectHQ/p… 工作流管理系统,使得将语义(如重试、日志记录、动态映射、缓存、失败通知等)添加到数据管道中变得容易。
- [SETL] github.com/SETL-Develo… 一个简单的Spark驱动的ETL框架,帮助你结构化ETL项目,模块化数据转换逻辑并加速开发。
- [Snakemake] github.com/snakemake/s… 用于可重复和可扩展数据分析的工作流管理系统。
- [Towhee] github.com/towhee-io/t… 通用机器学习管道,用于使用一个或多个ML模型生成嵌入向量。
- [ZenML] github.com/zenml-io/ze… ZenML是一个可扩展的开源MLOps框架,用于创建可复现的ML管道,重点在于自动化元数据跟踪、缓存以及与其他工具的多种集成。
数据标注与合成
- [Argilla] github.com/argilla-io/… Argilla 帮助领域专家和数据团队在更短的时间内构建更好的 NLP 数据集。
- [Baal] github.com/baal-org/ba… Baal 是一个主动学习库,支持工业应用和研究用例。
- [brat rapid annotation tool] github.com/nlplab/brat 基于 Web 的命名实体识别任务文本标注工具。
- [cleanlab] github.com/cleanlab/cl… 数据中心 AI 的 Python 库,可以自动:发现错误标注的数据,检测异常值,估计多标注数据集的共识和标注者质量,建议下一个最佳的(重新)标注数据。
- [COCO Annotator] github.com/jsbroks/coc… 基于 Web 的图像分割工具,用于对象检测、定位和关键点标注。
- [Computer Vision Annotation Tool (CVAT)] github.com/opencv/cvat OpenCV 的基于 Web 的视频和图像标注工具,用于计算机算法。
- [Doccano] github.com/chakki-work… 开源文本标注工具,提供情感分析、命名实体识别和机器翻译功能。
- [ImageTagger] github.com/bit-bots/im… 支持协作的图像标注工具,支持边界框、多边形、线条、点标注、标签导出等。
- [ImgLab] github.com/NaturalInte… 带有自动建议和插件扩展功能的边界框图像标注工具。
- [Label Studio] github.com/heartexlabs… 多领域数据标注和注释工具,具有标准化输出格式。
- [Labelimg] github.com/tzutalin/la… 使用 Python 编写的开源图形图像标注工具,使用 QT 作为图形界面,主要关注边界框。
- [makesense.ai] github.com/SkalskiP/ma… 免费使用的在线照片标注工具。准备好的标签可以下载为多种支持的格式之一。
- [MedTagger] github.com/medtagger/M… 使用众包方法标注医疗数据集的协作框架。
- [modAL] github.com/modAL-pytho… modAL 是一个主动学习框架,设计时考虑了模块化、灵活性和可扩展性。
- [OpenLabeling] github.com/Cartucho/Op… 支持标签、边缘以及图像缩放和缩放的开源图像标注工具。
- [PixelAnnotationTool] github.com/abreheret/P… 图像标注工具,能够在图像上“着色”以选择分割标签。该过程使用 OpenCV 的分水岭标记算法半自动化。
- [refinery] github.com/code-kern-a… 数据科学家的开源选择,用于扩展、评估和维护自然语言数据。
- [Rubrix] github.com/recognai/ru… 用于 AI 项目数据跟踪、探索和标注的开源工具。
- [SDV] github.com/sdv-dev/SDV 合成数据库 (SDV) 是一个合成数据生成生态系统库,允许用户轻松学习单表、多表和时间序列数据集,然后生成具有与原始数据集相同格式和统计属性的新合成数据。
- [Semantic Segmentation Editor] github.com/Hitachi-Aut… 日立的开源工具,用于标注相机和 LIDAR 数据。
- [Snorkel] github.com/snorkel-tea… Snorkel 是一个通过弱监督快速生成训练数据的系统。
- [Superintendent] github.com/janfreyberg… superintendent 提供了一个基于 ipywidget 的交互式数据标注工具。
- [VGG Image Annotator (VIA)] www.robots.ox.ac.uk/~vgg/softwa… - 一个简单且独立的图像、音频和视频手动标注软件,VIA 在 Web 浏览器中运行,不需要任何安装或设置。
- [YData Synthetic] github.com/ydataai/yda… YData Synthetic 是一个利用最先进生成模型生成合成表格和时间序列数据的软件包。
元数据管理
- [Amundsen] github.com/amundsen-io… Amundsen 是一个元数据驱动的应用程序,旨在提高数据分析师、数据科学家和工程师在与数据交互时的生产力。
- [ArangoML Pipeline] github.com/arangoml/ar… ArangoML Pipeline 是一个通用且可扩展的机器学习流水线元数据层,使数据科学家和数据运营人员能够在一个地方管理与其机器学习流水线相关的所有信息。
- [Apache Atlas] github.com/apache/atla… Apache Atlas 框架是一组可扩展的核心基础治理服务,使企业能够在 Hadoop 环境中有效地满足合规要求,并允许与整个企业数据生态系统集成。
- [DataHub] github.com/linkedin/da… DataHub 是 LinkedIn 的通用元数据搜索和发现工具。
- [Marquez] github.com/MarquezProj… Marquez 是一个开源的元数据服务,用于收集、聚合和可视化数据生态系统的元数据。
- [Metacat] github.com/Netflix/met… Metacat 是一个统一的元数据探索 API 服务。Metacat 主要解决以下问题:1)元数据系统的联邦视图;2)关于数据集的任意元数据存储;3)元数据发现。
- [ML Metadata] github.com/google/ml-m… 一个用于记录和检索与机器学习开发者和数据科学家工作流相关的元数据的库。
- [Model Card Toolkit] github.com/tensorflow/… 简化和自动生成模型卡。
数据存储优化
- [AIStore] github.com/NVIDIA/aist… AIStore 是一个轻量级对象存储系统,具有随着每个新增存储节点线性扩展的能力,特别关注于拍字节级深度学习。
- [Alluxio] github.com/Alluxio/all… 一个虚拟分布式存储系统,连接计算框架和存储系统之间的桥梁。
- [Apache Arrow] github.com/apache/arro… 与 Pandas、基于 Hadoop 的系统等兼容的内存列式数据表示。
- [Apache Druid] github.com/apache/drui… 一个高性能实时分析数据库。介绍请查看这篇文章。
- [Apache Ignite] github.com/apache/igni… 一个以内存为中心的分布式数据库、缓存和处理平台,适用于事务、分析和流处理工作负载,提供拍字节级的内存速度 - 演示。
- [Apache Parquet] github.com/apache/parq… 与 Pandas、基于 Hadoop 的系统等兼容的磁盘列式数据表示。
- [Apache Pinot] github.com/apache/incu… 一个实时分布式 OLAP 数据存储。大数据开源 OLAP 系统的比较:ClickHouse、Druid 和 Pinot 请查看这里。
- [BayesDB] github.com/probcomp/ba… 一个贝叶斯数据库表,用于像 SQL 数据库查询数据本身一样轻松地查询数据的可能含义 - (视频)。
- [Chroma] github.com/chroma-core… BayesDB 是一个 AI 原生的嵌入数据库。
- [ClickHouse] github.com/ClickHouse/… ClickHouse 是一个开源列式数据库管理系统。
- [Delta Lake] github.com/delta-io/de… Delta Lake 是一个存储层,为 Apache Spark 和其他大数据引擎带来可扩展的 ACID 事务。
- [EdgeDB] github.com/edgedb/edge… Postgres 的 NoSQL 接口,允许对象与存储的数据进行交互。
- [GPTCache] github.com/zilliztech/… GPTCache 是一个用于为大型语言模型查询创建语义缓存的库。
- [HopsFS] github.com/hopshadoop/… 兼容 HDFS 的文件系统,具有可扩展的强一致性元数据。
- [InfluxDB] github.com/influxdata/… 可扩展的度量、事件和实时分析数据存储。
- [Milvus] github.com/milvus-io/m… Milvus 是一个云原生开源向量数据库,用于管理由机器学习模型和神经网络生成的嵌入向量。
- [Marqo] github.com/marqo-ai/ma… Marqo 是一个端到端的向量搜索引擎。
- [pgvector] github.com/pgvector/pg… pgvector 帮助 Postgres 进行向量相似性搜索。
- [PostgresML] github.com/postgresml/… PostgresML 是 PostgreSQL 的一个机器学习扩展,允许你使用 SQL 查询对文本和表格数据进行训练和推理。
- [Safetensors] github.com/huggingface… 一种简单、安全的存储和分发张量的方法。
- [TimescaleDB] github.com/timescale/t… 一个开源的时间序列 SQL 数据库,优化了快速摄取和复杂查询,作为 PostgreSQL 的扩展 - (视频)。
- [Weaviate] github.com/semi-techno… 一个低延迟的向量搜索引擎(GraphQL,RESTful),支持不同的媒体类型。模块包括语义搜索、问答、分类、可定制模型(PyTorch/TensorFlow/Keras)等。
- [Zarr] github.com/zarr-develo… 用于并行计算的分块、压缩的 N 维数组的 Python 实现。
计算负载分布
- [Analytics Zoo] github.com/intel-analy… 一个统一的数据分析和人工智能平台,用于在Apache Spark/Flink和Ray上分布式运行TensorFlow、Keras和PyTorch。
- [Apache Spark MLlib] spark.apache.org/mllib/ - Apache Spark的可扩展机器学习库,支持Java、Scala、Python和R。
- [Bagua] github.com/BaguaSys/ba… Bagua是一个高性能且灵活的分布式训练框架,适用于PyTorch,提供比PyTorch DDP和Horovod更快的替代方案。它支持高级分布式训练算法,如量化和去中心化。
- [Beam] github.com/apache/beam Apache Beam是一个统一的批处理和流处理编程模型。
- [BigDL] github.com/intel-analy… 基于Spark/Hadoop的深度学习框架,用于在HDFS系统上分布数据和计算。
- [Colossal-AI] github.com/hpcaitech/C… 一个统一的深度学习系统,适用于大模型时代,帮助用户高效快速地部署大型AI模型的训练和推理。
- [Dask] github.com/dask/dask 用于Pandas和NumPy计算的分布式并行处理框架 - (视频)。
- [DEAP] github.com/DEAP/deap 一个新颖的进化计算框架,用于快速原型设计和测试想法。它旨在使算法显式化和数据结构透明化。它与多处理和SCOOP等并行化机制完美配合。
- [DeepSpeed] github.com/microsoft/D… 一个深度学习优化库(轻量级PyTorch封装),使分布式训练变得简单、高效和有效。
- [einops] github.com/arogozhniko… 灵活且强大的张量操作,用于编写可读且可靠的代码。
- [Fiber] github.com/uber/fiber Uber开发的现代计算集群分布式计算库。
- [Flashlight] github.com/flashlight/… 一个快速、灵活的机器学习库,完全用C++编写,由Facebook AI Research和Torch、TensorFlow、Eigen和Deep Speech的创建者开发。
- [Hivemind] github.com/learning-at… PyTorch中的去中心化深度学习。
- [Horovod] github.com/uber/horovo… Uber的分布式训练框架,适用于TensorFlow、Keras和PyTorch。
- [LightGBM] github.com/microsoft/L… LightGBM是一个使用基于树的学习算法的梯度提升框架。
- [NumPyWren] github.com/Vaishaal/nu… 构建在pywren之上的科学计算框架,支持类似numpy的分布式计算。
- [PyWren] github.com/pywren/pywr… 解决Python函数执行的“云按钮”问题的框架。它是一个抽象AWS Lambda的框架,使数据科学家能够执行任何Python函数 - (视频)。
- [PyTorch Lightning] github.com/PyTorchLigh… 轻量级的PyTorch研究框架,使您能够轻松地将模型扩展到GPU和TPU,并使用所有最新的最佳实践,而无需工程样板代码 - (视频)。
- [Ray] github.com/ray-project… Ray是一个灵活的高性能分布式执行框架,适用于机器学习 - (视频)。
- [TensorFlowOnSpark] github.com/yahoo/Tenso… TensorFlowOnSpark将TensorFlow程序带到Apache Spark集群。
- [Vespa] github.com/vespa-engin… Vespa是一个用于大数据集低延迟计算的引擎。
模型序列化
- [Java PMML API] github.com/jpmml - Java库,用于消费和生成包含来自不同框架模型的PMML文件,包括:
-
- [pyspark2pmml] github.com/jpmml/pyspa…
- [r2pmml] github.com/jpmml/r2pmm…
- [sklearn2pmml] github.com/jpmml/jpmml…
- [sparklyr2pmml] github.com/jpmml/spark…
- [MMdnn] github.com/Microsoft/M… 跨框架解决方案,用于转换、可视化和诊断深度神经网络模型。
- [神经网络交换格式 (NNEF)] www.khronos.org/nnef - 一个标准格式,用于在Torch、Caffe、TensorFlow、Theano、Chainer、Caffe2、PyTorch和MXNet之间存储模型。
- [ONNX] github.com/onnx/onnx 开放神经网络交换格式。
- [PFA] dmg.org/pfa/ - 由与PMML相同的组织创建,预测分析格式是一个新兴的统计模型和数据转换引擎标准。
- [PMML] dmg.org/pmml/ - 预测模型标记语言标准,基于XML - (视频)。
- [TensorStore] github.com/google/tens… TensorStore是一个开源的C++和Python软件库,设计用于存储和操作大型多维数组。
优化计算
- [BindsNET] github.com/BindsNET/bi… BindsNET 是一个尖峰神经网络模拟库,旨在开发生物启发的机器学习算法。
- [BrainCog] github.com/BrainCog-X/… BrainCog(脑启发认知智能引擎)是一个基于尖峰神经网络的脑启发人工智能平台,用于在多个尺度上模拟大脑。
- [Composer] github.com/mosaicml/co… Composer 是一个 PyTorch 库,使您能够更快、更低成本地训练神经网络,并提高准确性。
- [CuDF] github.com/rapidsai/cu… 基于 Apache Arrow 列式内存格式构建,cuDF 是一个 GPU DataFrame 库,用于加载、连接、聚合、过滤和操作数据。
- [CuML] github.com/rapidsai/cu… cuML 是一套实现机器学习算法和数学原语函数的库,具有与其他 RAPIDS 项目兼容的 API。
- [CuPy] github.com/cupy/cupy 一个在 CUDA 上实现的兼容 NumPy 的多维数组库,CuPy 包含核心多维数组类 cupy.ndarray 及其上的许多函数。
- [Flax] github.com/google/flax 一个为 JAX 设计的灵活的神经网络库和生态系统。
- [ggml] github.com/ggerganov/g… 一个机器学习的张量库,可以高效地在 CPU 上运行 GPT-2 和 GPT-J 推理。
- [H2O-3] github.com/h2oai/h2o-3 快速可扩展的机器学习平台,用于更智能的应用:深度学习、梯度提升和 XGBoost、随机森林、广义线性建模(逻辑回归、弹性网)、K-Means、PCA、堆叠集成、自动机器学习(AutoML)等。
- [Jax] github.com/google/jax Python+NumPy 程序的可组合变换:微分、向量化、JIT 到 GPU/TPU 等。
- [MLX] github.com/ml-explore/… MLX 是一个用于 Apple Silicon 上的机器学习数组框架。
- [Modin] github.com/modin-proje… 通过更改一行代码来加速您的 Pandas 工作流。
- [Nebullvm] github.com/nebuly-ai/n… Nebullvm 是一个即插即用模块生态系统,用于提升 AI 系统的性能。优化模块与任何库兼容,设计为易于集成到您的系统中,提供快速无缝的性能提升。
- [Nevergrad] github.com/facebookres… Nevergrad 是一个无梯度优化平台。
- [Norse] github.com/norse/norse Norse 旨在利用生物启发的神经组件的优势,这些组件是稀疏且事件驱动的,与人工神经网络有根本区别。
- [Numba] github.com/numba/numba 一个用于 Python 数组和数值函数的编译器。
- [NumpyGroupies] github.com/ml31415/num… 优化的分组索引操作工具:聚合求和等。
- [OpenFlamingo] github.com/mlfoundatio… OpenFlamingo 是一个用于训练大型多模态模型的开源框架。
- [OpenVINO] github.com/openvinotoo… OpenVINO 是一个用于优化和部署 AI 推理的开源工具包。
- [Optimum] github.com/huggingface… Optimum 是 Transformers 和 Diffusers 的扩展,提供了一套优化工具,使在目标硬件上训练和运行模型达到最大效率,同时保持易用性。
- [PEFT] github.com/huggingface… 参数高效微调(PEFT)方法使预训练语言模型(PLMs)能够高效适应各种下游应用,而无需微调所有模型参数。
- [snnTorch] github.com/jeshraghian… snnTorch 是一个用于尖峰神经网络的深度和在线学习库。
- [Sonnet] github.com/google-deep… Sonnet 是一个基于 TensorFlow 2 构建的库,旨在为机器学习研究提供简单、可组合的抽象。
- [Tensor2Tensor] github.com/tensorflow/… Tensor2Tensor 是一个深度学习模型和数据集库,旨在使深度学习更易于访问并加速机器学习研究。
- [ThunderKittens] github.com/HazyResearc… ThunderKittens 是一个框架,使编写快速深度学习内核变得容易。
- [torchkeras] github.com/lyhue1991/t… torchkeras 库是一个简单的工具,用于以 Keras 风格在 PyTorch 中训练神经网络。
- [TorchOpt] github.com/metaopt/tor… TorchOpt 是一个基于 PyTorch 构建的高效可微优化库。
- [Vaex] github.com/vaexio/vaex Vaex 是一个高性能的 Python 库,用于惰性 Out-of-Core DataFrames(类似于 Pandas),以可视化和探索大规模表格数据集。Vaex 使用内存映射、零内存复制策略和惰性计算以实现最佳性能(无内存浪费)。
- [VowpalWabbit] github.com/VowpalWabbi… Vowpal Wabbit 是一个机器学习系统,通过在线学习、哈希、allreduce、降维、learning2search、主动学习和交互学习等技术推动机器学习的前沿。
- [Vulkan Kompute] github.com/axsaucedo/v… 一个超快、轻量级且支持移动设备的 Vulkan 计算框架,优化用于高级 GPU 数据处理用例。
- [Weld] github.com/weld-projec… 数据分析应用的高性能运行时,这里有一个 采访 Weld 的主要贡献者。
- [XGBoost] github.com/dmlc/xgboos… XGBoost 是一个优化的分布式梯度提升库,设计为高效、灵活和可移植。
数据流处理
- [Apache Flink] github.com/apache/flin… 开源流处理框架,具有强大的流处理和批处理能力。
- [Apache Samza] github.com/apache/samz… 分布式流处理框架,它使用 Apache Kafka 进行消息传递,并使用 Apache Hadoop YARN 提供容错、处理器隔离、安全性和资源管理。
- [Brooklin] github.com/linkedin/Br… 分布式流处理框架,它使用 Apache Kafka 进行消息传递,并使用 Apache Hadoop YARN 提供容错、处理器隔离、安全性和资源管理。
- [Bytewax] github.com/bytewax/byt… 基于 Rust 引擎构建的灵活的 Python 中心状态流处理框架。
- [FastStream] github.com/airtai/fast… 一个现代的与代理无关的流处理 Python 框架,支持 Apache Kafka、RabbitMQ 和 NATS 协议,受 FastAPI 启发,并且可以轻松与其他 Web 框架集成。
- [Faust] github.com/robinhood/f… 基于 Python 的 Asyncio 库构建的流处理库,使用异步 Kafka 客户端,受 Kafka 流处理库启发。
- [Apache Spark] spark.apache.org/streaming/ 使用 Apache Spark 框架作为后端进行流的微批处理,支持有状态的精确一次语义。
- [Apache Kafka] github.com/apache/kafk… 用于构建输入和输出存储在 Kafka 集群中的应用程序和微服务的 Kafka 客户端库。
异常和异常检测
- [adtk] github.com/arundo/adtk 一个用于时间序列中基于规则/无监督异常检测的 Python 工具包。
- [Alibi Detect] github.com/SeldonIO/al… alibi-detect 是一个专注于异常、对抗性和概念漂移检测的 Python 包。
- [dBoost] github.com/cpitclaudel… 使用自动元组扩展在异构数据集中进行异常检测。有关详细信息,请查看这篇论文。
- [Deequ] github.com/awslabs/dee… 一个基于 Apache Spark 构建的库,用于定义“数据单元测试”,以测量大数据集中的数据质量。
- [Deep Anomaly Detection with Outlier Exposure] github.com/hendrycks/o… 异常暴露(OE)是一种提高深度学习模型中异常检测性能的方法。论文
- [PyOD] github.com/yzhao062/py… 一个用于可扩展异常检测(异常检测)的 Python 工具箱。
- [SUOD (Scalable Unsupervised Outlier Detection)] github.com/yzhao062/SU… 一个用于大规模异常/异常检测的加速系统。
- [Tensorflow Data Validation (TFDV)] github.com/tensorflow/… 用于探索和验证机器学习数据的库。
- [TextAttack] github.com/QData/TextA… TextAttack 是一个用于对抗性攻击、数据增强和 NLP 模型训练的 Python 框架。
- [TODS] github.com/datamllab/t… TODS 是一个用于多变量时间序列数据异常检测的全栈自动化机器学习系统。
特征存储
- [Butterfree] github.com/quintoandar… 一个用于构建特征存储的工具,可以将原始数据转换为优美的特征。
- [FEAST] github.com/feast-dev/f… Feast(特征存储)是一个开源的机器学习特征存储。Feast 是管理现有基础设施以将分析数据生产化用于模型训练和在线推理的最快途径。
- [Featureform] github.com/featureform… 一个虚拟特征存储,即插即用,兼容现有基础设施。数据科学家认可。发现、治理、谱系和协作只需一个 pip 安装。支持 pandas、Python、spark、SQL 以及与主要云供应商的集成。
- [Hopsworks Feature Store] github.com/logicalcloc… 用于机器学习的离线/在线特征存储 (视频)。
- [Ivory] github.com/antony-a1/i… ivory 定义了存储特征数据的规范,并提供了一套查询工具。它不提供生成特征数据的工具。所有 ivory 命令都作为 MapReduce 作业运行,因此假设特征数据保存在 HDFS 上。
- [Veri] github.com/bgokden/ver… Veri 是一个特征标签存储。特征标签存储允许将特征作为键,标签作为值进行存储,只能使用 knn 通过特征查询值。Veri 还默认支持创建数据的子样本空间。
数据科学笔记本
- [Apache Zeppelin] github.com/apache/zepp… 基于 Web 的笔记本,支持数据驱动的交互式数据分析和 SQL、Scala 等协作文档。
- [Binder] github.com/jupyterhub/… Binder 在可执行环境中托管笔记本(免费)。
- [H2O Flow] github.com/h2oai/h2o-f… - 类似 Jupyter 笔记本的 H2O 界面,用于创建、保存和重用“流”。
- [Jupyter Notebooks] github.com/jupyter/not… 用于可重复开发的 Web 界面 Python 沙箱环境。
- [ML Workspace] github.com/ml-tooling/… 一体化的机器学习和数据科学 Web IDE。将 Jupyter、VS Code、Tensorflow 以及许多其他工具/库结合到一个 Docker 镜像中。
- [.NET Interactive] github.com/dotnet/inte… .NET Interactive 将 .NET 的强大功能嵌入到您的交互体验中。
- [Papermill] github.com/nteract/pap… Papermill 是一个用于参数化笔记本并像 Python 脚本一样执行它们的库。
- [Polynote] github.com/polynote/po… Polynote 是一个实验性的多语言笔记本环境。目前支持 Scala 和 Python(有或没有 Spark)、SQL 和 Vega。
- [RMarkdown] github.com/rstudio/rma… rmarkdown 包是基于 Pandoc 的下一代 R Markdown 实现。
- [Stencila] github.com/stencila/st… Stencila 是一个用于创建、协作和共享数据驱动内容的平台。内容透明且可重复。
- [Voilà] github.com/voila-dashb… Voilà 将 Jupyter 笔记本转换为独立的 Web 应用程序,例如可以用作仪表板。
神经搜索
- [Annoy] github.com/spotify/ann… Annoy(Approximate Nearest Neighbors Oh Yeah)是一个带有Python绑定的C++库,用于搜索与给定查询点接近的空间点。
- [CLIP-as-service] github.com/jina-ai/cli… CLIP-as-service是一个低延迟、高可扩展性的图像和文本嵌入服务。它可以轻松集成为神经搜索解决方案中的微服务。
- [DocArray] github.com/docarray/do… DocArray是一个用于传输嵌套、非结构化、多模态数据的库,包括文本、图像、音频、视频、3D网格等。它允许深度学习工程师使用Python风格的API高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。
- [Faiss] github.com/facebookres… Faiss是一个用于高效相似性搜索和密集向量聚类的库。
- [Finetuner] github.com/jina-ai/fin… Finetuner提供了一种有效的方法来提高神经搜索任务的性能。
- [NGT] github.com/yahoojapan/… NGT提供了用于在高维向量数据空间中对大量数据进行高速近似最近邻搜索的命令和库。
- [NMSLIB] github.com/nmslib/nmsl… 非度量空间库(NMSLIB):一个高效的相似性搜索库和用于评估通用非度量空间k-NN方法的工具包。
- [Qdrant] github.com/qdrant/qdra… 一个开源的向量相似性搜索引擎,具有扩展的过滤支持。
模型优化、编译和压缩
- [AutoAWQ] github.com/casper-hans… AutoAWQ是一个易于使用的4位量化模型包。
- [AutoGPTQ] github.com/PanQiWei/Au… 一个基于GPTQ算法的易于使用的大语言模型量化包,具有用户友好的API。
- [AWQ] github.com/mit-han-lab… 用于大语言模型压缩和加速的激活感知权重量化。
- [GPTQ] github.com/IST-DASLab/… 准确的生成预训练变换器的后训练量化。
- [neural-compressor] github.com/intel/neura… Intel® Neural Compressor旨在为主流框架提供流行的模型压缩技术,如量化、剪枝(稀疏性)、蒸馏和神经架构搜索。
- [Quanto] github.com/huggingface… Quanto旨在简化深度学习模型的量化。
工业级计算机视觉
- [Deep Lake] github.com/activeloopa… Deep Lake是一个为计算机视觉优化的数据基础设施。
- [Detectron2] github.com/facebookres… Detectron2是Facebook AI Research的下一代库,提供最先进的检测和分割算法。
- [iGibson] github.com/StanfordVL/… iGibson是一个基于Bullet的提供快速视觉渲染和物理模拟的仿真环境。
- [KerasCV] github.com/keras-team/… KerasCV是一个模块化计算机视觉组件的Keras库。
- [LAVIS] github.com/salesforce/… LAVIS是一个用于语言与视觉智能研究和应用的深度学习库。
- [MMDetection] github.com/open-mmlab/… MMDetection是一个基于PyTorch的开源目标检测工具箱。
- [SCEPTER] github.com/modelscope/… SCEPTER是一个开源代码库,专注于生成训练、微调和推理,涵盖图像生成、迁移、编辑等一系列下游任务。
- [SuperGradients] github.com/Deci-AI/sup… SuperGradients是一个用于训练基于PyTorch的计算机视觉模型的开源库。
- [VISSL] github.com/facebookres… VISSL是FAIR的一个库,提供用于图像的最先进的自监督学习的可扩展、模块化组件。
- [supervision] github.com/roboflow/su… 我们编写可重用的计算机视觉工具。无论您是需要从硬盘加载数据集、在图像或视频上绘制检测结果,还是统计某个区域内的检测数量,您都可以依赖我们!
工业级自然语言处理(NLP)
- [AdaptNLP] github.com/Novetta/ada… 基于Zalando Research的Flair和Hugging Face的Transformers库构建,AdaptNLP为机器学习研究人员和科学家提供了一种模块化和自适应的方法来处理各种NLP任务,具有易于使用的API用于训练、推理和部署基于NLP的微服务。
- [Blackstone] github.com/ICLRandD/Bl… Blackstone是一个用于处理长篇非结构化法律文本的spaCy模型和库。Blackstone是英格兰和威尔士法律报告协会研究实验室ICLR&D的一个实验性研究项目。
- [Coqui STT] github.com/coqui-ai/ST… Coqui STT是一个快速、开源、多平台的深度学习工具包,用于训练和部署语音转文本模型。
- [CTRL] github.com/salesforce/… 由SalesForce发布的可控生成的条件Transformer语言模型。
- [dspy] github.com/stanfordnlp… 一个用于基础模型编程的框架。
- [Dust] github.com/dust-tt/dus… Dust帮助设计和部署大型语言模型应用程序。
- [ESPnet] github.com/espnet/espn… ESPnet是一个端到端的语音处理工具包。
- [Facebook's XLM] github.com/facebookres… 跨语言模型预训练的PyTorch原始实现,包括BERT、XLM、NMT、XNLI、PKM等。
- [FastChat] github.com/lm-sys/Fast… FastChat是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。
- [Flair] github.com/zalandorese… 由Zalando开发的简单框架,直接基于PyTorch构建的最先进的NLP。
- [FlexGen] github.com/FMInference… FlexGen是一个高吞吐量生成引擎,用于在有限的GPU内存下运行大型语言模型。
- [GluonNLP] github.com/dmlc/gluon-… GluonNLP是一个工具包,能够轻松进行文本预处理、数据集加载和神经模型构建,帮助加速您的自然语言处理(NLP)研究。
- [Gretel Synthetics] github.com/gretelai/gr… Gretel Synthetics是一个用于生成结构化和非结构化文本的合成数据生成器,具有差分隐私学习功能。
- [Grover] github.com/rowanz/grov… Grover是一个用于神经假新闻生成和检测的模型,但它也可能用于其他生成任务。
- [Guardrails] github.com/ShreyaR/gua… Guardrails是一个包,允许用户为大型语言模型的输出添加结构、类型和质量保证。
- [h2oGPT] github.com/h2oai/h2ogp… h2oGPT是一个开源生成式AI,赋予组织拥有大型语言模型的能力,同时保留数据所有权。
- [Haystack] github.com/deepset-ai/… Haystack是一个开源NLP框架,使用Transformer模型和LLMs(如GPT-3)与您的数据进行交互。Haystack提供生产就绪的工具,快速构建类似ChatGPT的问题回答、语义搜索、文本生成等功能。
- [Interactive Composition Explorer] github.com/oughtinc/ic… ICE是一个用于语言模型程序的Python库和跟踪可视化工具。
- [Kashgari] github.com/BrikerMan/K… Kashgari是一个简单而强大的NLP迁移学习框架,可以在5分钟内构建最先进的命名实体识别(NER)、词性标注(PoS)和文本分类模型。
- [Lamini] github.com/lamini-ai/l… Lamini是一个快速定制模型的LLM引擎。
- [LangChain] github.com/hwchase17/l… LangChain通过组合性帮助构建LLM应用程序。
- [LlamaIndex] github.com/jerryjliu/l… LlamaIndex(GPT Index)是一个用于LLM应用的数据框架。
- [LLaMA] github.com/facebookres… LLaMA旨在作为一个最小化、可修改和可读的示例,用于加载LLaMA(arXiv)模型并进行推理。
- [LMFlow] github.com/OptimalScal… LMFlow是一个可扩展、方便且高效的工具箱,用于微调大型机器学习模型。
- [Megatron-LM] github.com/NVIDIA/Mega… Megatron-LM是一个高度优化和高效的库,用于训练大型语言模型。
- [MLC LLM] github.com/mlc-ai/mlc-… MLC LLM是一个通用解决方案,允许任何语言模型在多种硬件后端和本地应用程序上本地部署,并为每个人提供一个生产性框架,以进一步优化模型性能以满足其自身的使用案例。
- [Ollama] github.com/jmorganca/o… 快速启动并运行本地的大型语言模型。
- [sense2vec] github.com/explosion/s… 一个Pytorch库,允许训练和使用sense2vec模型,这些模型利用与word2vec相同的方法,但也利用每个标记的词性属性,使其能够"感知意义"。
- [Sentence Transformers] github.com/UKPLab/sent… Sentence Transformers提供了一种简单的方法来计算句子、段落和图像的密集向量表示。
- [SpaCy] github.com/explosion/s… 由explosion.ai团队开发的工业级自然语言处理库,使用Python和Cython构建。
- [StableLM] github.com/Stability-A… Stability AI语言模型。
- [Tensorflow Lingvo] github.com/tensorflow/… 一个用于在Tensorflow中构建神经网络(特别是序列模型)的框架。
- [Tensorflow Text] github.com/tensorflow/… TensorFlow Text提供了一系列与文本相关的类和操作,准备与TensorFlow 2.0一起使用。
- [Transformers] github.com/huggingface… Huggingface的最先进预训练模型库,用于自然语言处理(NLP)。
- [text-generation-inference] github.com/huggingface… 在TFOIL许可下的大型语言模型文本生成推理。
- [trlX] github.com/CarperAI/tr… trlX是一个分布式训练框架,从头开始设计,专注于使用强化学习微调大型语言模型,可以使用提供的奖励函数或奖励标记的数据集。
- [YouTokenToMe] github.com/vkcom/youto… YouTokenToMe是一个专注于计算效率的无监督文本分词器。目前实现了快速的字节对编码(BPE)。
工业级强化学习
- [Acme] github.com/deepmind/ac… Acme 是一个强化学习(RL)构建模块库,旨在提供简单、高效且可读的代理。
- [AI-Optimizer] github.com/TJU-DRL-LAB… AI-Optimizer 是下一代深度强化学习套件,提供从无模型到基于模型的RL算法,从单代理到多代理算法的丰富算法库。此外,AI-Optimizer 包含一个灵活且易于使用的分布式训练框架,用于高效的策略训练。
- [ALF] github.com/HorizonRobo… ALF 是一个强化学习框架,强调实现涉及许多不同组件的复杂算法的灵活性和易用性。
- [AlpacaFarm] github.com/tatsu-lab/a… AlpacaFarm 是一个用于从人类反馈中学习的方法的模拟框架。
- [CityLearn] github.com/intelligent… CityLearn 是一个开源的 OpenAI Gym 环境,用于在城市中实现建筑能源协调和需求响应的多代理强化学习(RL)。
- [CleanRL] github.com/vwxyzjn/cle… CleanRL 是一个深度强化学习库,提供高质量的单文件实现和研究友好的特性。实现简洁且简单,但我们可以扩展它以使用 AWS Batch 运行数千个实验。
- [CompilerGym] github.com/facebookres… CompilerGym 是一个易于使用且高性能的编译器任务强化学习环境库。
- [d3rlpy] github.com/takuseno/d3… d3rlpy 是一个面向实践者和研究人员的离线深度强化学习库。
- [DIAMBRA] github.com/diambra/are… DIAMBRA Arena 是一个软件包,包含用于强化学习研究和实验的高质量环境集合。
- [Dopamine] github.com/google/dopa… Dopamine 是一个用于快速原型开发强化学习算法的研究框架。它旨在满足一个小型、易于理解的代码库的需求,用户可以在其中自由地进行大胆的实验(探索性研究)。
- [EvoTorch] github.com/nnaisense/e… EvoTorch 是一个开源的进化计算库,由 NNAISENSE 开发,基于 PyTorch 构建。
- [FinRL] github.com/AI4Finance-… FinRL 是第一个展示金融强化学习巨大潜力的开源框架。
- [garage] github.com/rlworkgroup… garage 是一个用于开发和评估强化学习算法的工具包,并附带使用该工具包构建的最先进实现的库。
- [Gymnasium] github.com/Farama-Foun… Gymnasium 是一个开源的 Python 库,通过提供一个标准 API 来开发和比较强化学习算法,以便在学习算法和环境之间进行通信,并提供符合该 API 的标准环境集合。
- [Gymnasium-Robotics] github.com/Farama-Foun… Gymnasium-Robotics 包含一组使用 Gymnasium API 的强化学习机器人环境。这些环境使用 MuJoCo 物理引擎和维护的 mujoco Python 绑定运行。
- [Jumanji] github.com/instadeepai… Jumanji 是一套用 JAX 编写的强化学习(RL)环境,提供干净、硬件加速的环境,用于行业驱动的研究。
- [MALib] github.com/sjtu-marl/m… MALib 是一个基于种群学习的并行框架,嵌套了强化学习方法。MALib 提供了更高层次的 MARL 训练范式抽象,支持高效的代码重用和在不同分布式计算范式上的灵活部署。
- [MARLlib] github.com/Replicable-… MARLlib 是一个基于 RLlib 的综合多代理强化学习算法库。它为 MARL 研究社区提供了一个统一的平台,用于构建、训练和评估 MARL 算法。
- [Mava] github.com/instadeepai… Mava 是一个用于 JAX 中分布式多代理强化学习的框架。
- [Melting Pot] github.com/deepmind/me… Melting Pot 是一套用于多代理强化学习的测试场景。
- [MetaDrive] github.com/metadrivers… MetaDrive 是一个驾驶模拟器,组合了多样化的驾驶场景,用于通用化的 RL 研究。
- [Minigrid] github.com/Farama-Foun… Minigrid 库包含一组离散网格世界环境,用于进行强化学习研究。这些环境遵循 Gymnasium 标准 API,设计轻量、快速且易于定制。
- [MiniHack] github.com/facebookres… MiniHack 是一个沙盒框架,用于轻松设计丰富多样的强化学习环境。
- [MiniWorld] github.com/Farama-Foun… MiniWorld 是一个简约的 3D 室内环境模拟器,用于强化学习和机器人研究。
- [ML-Agents] github.com/Unity-Techn… ML-Agents 是一个开源项目,使游戏和模拟可以作为训练智能代理的环境。
- [MushroomRL] github.com/MushroomRL/… MushroomRL 是一个 Python 强化学习(RL)库,其模块化设计允许轻松使用知名的 Python 库进行张量计算(如 PyTorch、Tensorflow)和 RL 基准测试(如 OpenAI Gym、PyBullet、Deepmind Control Suite)。
- [PARL] github.com/PaddlePaddl… PARL 是一个灵活且高效的强化学习框架。
- [PettingZoo] github.com/Farama-Foun… PettingZoo 是一个用于多代理强化学习研究的 Python 库,类似于 Gymnasium 的多代理版本。
- [RLlib] github.com/ray-project… RLlib 是一个开源的强化学习(RL)库,支持生产级、高度分布式的 RL 工作负载,同时为各种行业应用保持统一和简单的 API。
- [RLMeta] github.com/facebookres… RLMeta 是一个基于 PyTorch 和 moolib 的灵活轻量级分布式强化学习研究框架。
- [Safety-Gymnasium] github.com/PKU-Alignme… Safety-Gymnasium 是一个高度可扩展和可定制的安全强化学习环境库。
- [skrl] github.com/Toni-SM/skr… skrl 是一个用 Python 编写的开源模块化强化学习库(使用 PyTorch),设计重点在于算法实现的可读性、简单性和透明性。
- [Stable Baselines] github.com/DLR-RM/stab… OpenAI Baselines 的一个分支,包含强化学习算法的实现。
- [SuperSuit] github.com/Farama-Foun… SuperSuit 引入了一组小函数,可以包装强化学习环境以进行预处理(“微包装”)。
- [TF-Agents] github.com/tensorflow/… 一个可靠、可扩展且易于使用的 TensorFlow 库,用于上下文 bandits 和强化学习。
- [TRL] github.com/huggingface… 使用强化学习训练变压器语言模型。
工业级可视化工具
- [Altair] github.com/altair-viz/… - Altair 是一个用于 Python 的声明性统计可视化库。
- [Apache ECharts] github.com/apache/echa… - Apache ECharts 是一个强大、交互式的浏览器图表和数据可视化库。
- [Bokeh] github.com/bokeh/bokeh Bokeh 是一个用于 Python 的交互式可视化库,可以在现代网页浏览器中实现美观且有意义的数据展示。
- [Geoplotlib] github.com/andrea-cutt… geoplotlib 是一个用于可视化地理数据和制作地图的 Python 工具箱。
- [ggplot2] github.com/tidyverse/g… R 语言中图形语法的实现。
- [gradio] github.com/gradio-app/… 只需编写 Python 代码即可快速创建和分享模型演示。在浏览器中交互式调试模型,从协作者处获取反馈,并生成公共链接而无需部署任何东西。
- [Kangas] github.com/comet-ml/ka… Kangas 是一个用于探索、分析和可视化大规模多媒体数据的工具。它提供了一个简单的 Python API 用于记录大型数据表,并提供了一个直观的可视化界面用于对数据集进行复杂查询。
- [matplotlib] github.com/matplotlib/… 一个 Python 2D 绘图库,可以在各种硬拷贝格式和跨平台的交互环境中生成出版质量的图形。
- [Missingno] github.com/ResidentMar… missingno 提供了一组灵活且易于使用的缺失数据可视化工具和实用程序,使您能够快速获得数据集完整性(或缺失)的视觉摘要。
- [PDPBox] github.com/SauceCat/PD… 该仓库受 ICEbox 启发,目标是可视化某些特征对任何监督学习算法模型预测的影响。
- [Perspective] github.com/finos/persp… 通过 WebAssembly 实现流式数据透视表可视化。
- [Pixiedust] github.com/pixiedust/p… PixieDust 是一个用于 Python 或 Scala 笔记本的生产力工具,使开发人员能够将业务逻辑封装成易于客户使用的形式。
- [Plotly] github.com/plotly/plot… 一个交互式、开源且基于浏览器的 Python 图形库。
- [PyCEbox] github.com/AustinRochf… Python 个体条件期望图工具箱。
- [pygal] github.com/Kozea/pygal pygal 是一个用 Python 编写的动态 SVG 图表库。
- [Redash] github.com/getredash/r… Redash 是一个开源可视化框架,旨在轻松访问利用多个后端的大数据集。
- [seaborn] github.com/mwaskom/sea… Seaborn 是一个基于 matplotlib 的 Python 可视化库。它提供了一个高级接口,用于绘制吸引人的统计图形。
- [Spotlight] github.com/Renumics/sp… Spotlight 帮助您识别关键数据段和模型故障模式。它使您能够通过策划高质量的数据集来构建和维护可靠的机器学习模型。
- [Streamlit] github.com/streamlit/s… Streamlit 允许您使用极其简单的 Python 脚本为您的机器学习项目创建应用程序。它支持热重载,因此当您编辑并保存文件时,应用程序会实时更新。
- [Superset] github.com/apache/supe… 一个现代的、企业级的商业智能 Web 应用程序。
- [tensorboardX] github.com/lanpa/tenso… 通过简单的函数调用写入 TensorBoard 事件。
- [TensorBoard] github.com/tensorflow/… 一个用于机器学习实验的可视化工具包,使得托管、跟踪和共享 ML 实验变得容易。
- [yellowbrick] github.com/DistrictDat… yellowbrick 是一个基于 matplotlib 的模型评估图表库,适用于 scikit-learn 和其他机器学习库。
工业级推荐系统
- [EasyRec] github.com/alibaba/Eas… EasyRec 是一个大规模推荐算法框架。
- [Gorse] github.com/gorse-io/go… Gorse 旨在成为一个通用的开源推荐系统,可以快速引入到各种在线服务中。
- [Implicit] github.com/benfred/imp… Implicit 提供了几种流行的隐式反馈数据集推荐算法的快速 Python 实现。
- [LightFM] github.com/lyst/lightf… LightFM 是一个 Python 实现的推荐算法库,适用于隐式和显式反馈。
- [NVTabular] github.com/NVIDIA-Merl… NVTabular 是一个特征工程和预处理库,专为轻松操作 TB 级数据集和训练基于深度学习的推荐系统而设计。
- [Merlin] github.com/NVIDIA-Merl… NVIDIA Merlin 是一个开源库,提供端到端的 GPU 加速推荐系统,从特征工程和预处理到训练深度学习模型和在生产环境中运行推理。
- [Surprise] github.com/nicolashug/… Surprise 是一个用于构建和分析处理显式评分数据的推荐系统的 Python scikit。
工业级基准测试和评估
- [AgentBench] github.com/THUDM/Agent… 一个全面的基准测试,用于评估大型语言模型(LLM)作为代理的表现。
- [AlpacaEval] github.com/tatsu-lab/a… 一个用于指令跟随语言模型的自动评估器。
- [Auto-evaluator] github.com/rlancemarti… 用于评估LLM问答链的工具。
- [BigCode] github.com/bigcode-pro… 一个用于评估自回归代码生成语言模型的框架。
- [BIG-bench] github.com/google/BIG-… 超越模仿游戏基准(BIG-bench)是一个协作基准,旨在探测大型语言模型并推测其未来能力。
- [D4RL] github.com/Farama-Foun… D4RL是一个开源的离线强化学习基准。
- [DeepEval] github.com/confident-a… DeepEval是一个易于使用的开源评估框架,用于LLM应用。
- [EvadeML] github.com/mzweilin/Ev… 一个用于对抗性机器学习的基准测试和可视化工具。
- [EvalAI] github.com/Cloud-CV/Ev… EvalAI是一个开源平台,用于大规模评估和比较AI算法。
- [Evals] github.com/openai/eval… Evals是一个用于评估OpenAI模型的框架,并且是一个开源的基准注册表。
- [Evaluate] github.com/huggingface… Evaluate是一个库,使评估和比较模型以及报告其性能变得更容易和标准化。
- [Helm] github.com/stanford-cr… 语言模型的整体评估(HELM)是一个基准框架,旨在提高语言模型的透明度。
- [LightEval] github.com/huggingface… 语言模型的整体评估(HELM)是一个基准框架,旨在提高语言模型的透明度。
- [LM-Eval] github.com/EleutherAI/… LightEval是一个轻量级的LLM评估套件。
- [Lucid] github.com/tensorflow/… Lucid是一个用于神经网络可解释性研究的基础设施和工具集合。
- [Meta-World] github.com/Farama-Foun… Meta-World是一个开源的模拟基准,用于元强化学习和多任务学习,包括许多不同的机器人操作任务。
- [Multi-Modality Arena] github.com/OpenGVLab/M… Multi-Modality Arena是一个用于评估大型多模态模型的平台。
- [MTEB] github.com/embeddings-… 大规模文本嵌入基准(MTEB)是一个全面的文本嵌入基准。
- [OmniSafe] github.com/PKU-MARL/om… OmniSafe是一个全面且可靠的安全强化学习基准,涵盖了多种SafeRL领域,并提供了一套新的测试环境。
- [OpenCompass] github.com/open-compas… OpenCompass是一个LLM评估平台,支持多种模型(LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude等)在50多个数据集上的评估。
- [OpenCV Zoo and Benchmark] github.com/opencv/open… 一个针对OpenCV DNN优化的模型库,并在不同平台上提供基准测试。
- [Optimum Benchmark] github.com/huggingface… 一个统一的多后端工具,用于基准测试Transformers和Diffusers,并支持Optimum的硬件优化/量化方案。
- [Overcooked-AI] github.com/HumanCompat… Overcooked-AI是一个基于热门视频游戏Overcooked的完全合作人机任务性能的基准环境。
- [PandaLM] github.com/WeOpenML/Pa… PandaLM旨在提供不同大型语言模型之间的可重复和自动化比较。
- [PhaseLLM] github.com/wgryc/phase… 来自Phase AI的大型语言模型评估和工作流框架。
- [Ragas] github.com/explodinggr… Ragas是一个帮助评估检索增强生成(RAG)管道的框架。
- [Recommenders] github.com/Microsoft/R… Recommenders包含构建推荐系统的基准和最佳实践,以Jupyter笔记本的形式提供。
- [RLeXplore] github.com/yuanmingqi/… RLeXplore提供了强化学习中探索方法的稳定基准。
- [SafePO-Baselines] github.com/PKU-MARL/Sa… SafePO-Baselines是一个安全强化学习算法的基准库。
- [UpTrain] github.com/uptrain-ai/… UpTrain是一个开源工具,用于评估LLM应用。
商业平台
- [Amazon Web Services] aws.amazon.com/ - AWS(亚马逊网络服务)是由亚马逊提供的一个全面且不断发展的云计算平台,包含基础设施即服务(IaaS)、平台即服务(PaaS)和打包软件即服务(SaaS)等多种服务。
- [Anthropic] www.anthropic.com/ - Anthropic是一家致力于构建可靠、可解释和可控的AI系统的AI安全和研究公司。
- [Anyscale] www.anyscale.com/ - Anyscale是一个统一的计算平台,使得使用Ray开发、部署和管理可扩展的AI和Python应用变得容易。
- [Apheris] www.apheris.com/ - 一个联邦和隐私保护的数据科学平台,让你可以在不共享任何数据的情况下与合作伙伴安全地进行AI协作。
- [Aporia] aporia.com/ - 机器学习可观测性平台,帮助数据科学和机器学习团队在有效扩展其生产系统的同时保持卓越的模型性能。Aporia提供多种工具,支持任何机器学习用例,允许用户自定义模型跟踪、仪表板可视化、报告和指标,以满足机器学习专业人员的独特需求。Aporia平台允许机器学习从业者在不复制生产数据的情况下监控整个数据集,有效识别漂移、偏差、模型退化以及性能和数据完整性问题。
- [Arize] arize.com/ - 机器学习可观测性和自动化模型监控,帮助机器学习从业者了解其模型在生产中的表现,排除问题并提高模型性能。机器学习团队可以将离线(训练或验证)基线上传到评估/推理存储中,与在线生产数据一起进行模型验证、漂移检测、数据质量检查和模型性能管理。
- [Arthur] arthur.ai/ - Arthur是一个平台,用于测量、监控和改进机器学习模型,以提供更好的结果。
- [Azure Machine Learning] azure.microsoft.com/en-us/produ… - Azure Machine Learning使数据科学家和开发人员能够更快、更自信地构建、部署和管理高质量的模型。
- [BigML] bigml.com/ - 一个可消费、可编程和可扩展的机器学习平台,使解决和自动化分类、回归、时间序列等变得容易。
- [Censius] censius.ai - Censius是一个AI可观测性平台,帮助企业持续监控、分析和解释其生产模型。它将监控、问责和可解释性结合到一个可观测性平台中。
- [Cerebras] www.cerebras.net - Cerebras为复杂的人工智能深度学习应用构建计算机系统。
- [Cnvrg.io] cnvrg.io - 一个端到端的平台,用于管理、构建和自动化机器学习。
- [Comet] comet.ml - 机器学习实验管理,对开源和学生免费 - (视频)。
- [D2iQ Kaptain] d2iq.com/products/ka… - 一个端到端的机器学习平台,专为安全性、规模和速度而构建,允许企业开发和部署运行在云端、本地(包括隔离环境)、混合环境或边缘的机器学习模型;基于Kubeflow和开源[Kubernetes Universal Declarative Operators] kudo.dev/)(KUDO)。
- [DAGsHub] dagshub.com/ - 开源机器学习的社区平台 – 轻松管理实验、数据和模型,并创建协作的机器学习项目。
- [Databricks] www.databricks.com/ - 一个集成的端到端机器学习环境,包含实验跟踪、模型训练、特征开发和管理以及特征和模型服务的托管服务。
- [Dataiku] www.dataiku.com/ - 协作数据科学平台,支持自助分析和生产中机器学习模型的操作化。
- [DataRobot] www.datarobot.com/ - 自动化机器学习平台,使用户能够构建和部署机器学习模型。
- [Datatron] datatron.com/ - 机器学习模型治理平台,适用于大型企业生产中的所有AI模型。
- [Deep Cognition Deep Learning Studio] deepcognition.ai/ - 端到端的深度学习平台。
- [deepsense.ai] deepsense.ai/ - deepsense.ai通过提供定制的AI解决方案,帮助公司获得竞争优势,主要专注于AI软件、团队增强和AI咨询。
- [Diffgram] diffgram.com/ - 训练数据优先平台,用于监督AI的数据库和训练数据管道。与GCP、AWS、Azure和顶级标注监督UI集成(或使用内置的Diffgram UI,或构建自己的)。此外,还有不断增长的集成服务提供商列表!适用于计算机视觉、自然语言处理和监督深度学习/机器学习。
- [Domino] www.dominodatalab.com/ - 企业级MLOps平台,支持数据科学家使用其首选工具、语言和基础设施进行协作,同时提供IT中央资源管理、治理和安全性,无需供应商锁定。
- [Fennel] fennel.ai/ - 实时特征工程平台,适用于快速发展的机器学习团队。Python/Pandas原生,基于Rust构建。易于安装/使用/运行,基于减少数据/特征质量问题的最佳实践,并保持云支出低。完全托管,无需运维。
- [Fiddler] www.fiddler.ai/ - Fiddler是一个模型性能管理平台,提供模型监控、可观测性、可解释性和公平性。
- [Gemesys] gemesys.tech/ - GEMESYS旨在设计一种模拟人脑的芯片,克服计算瓶颈,为每个人塑造更美好的未来。
- [Google Cloud Machine Learning Engine] cloud.google.com/ml-engine/ - 托管服务,使开发人员和数据科学家能够构建和将机器学习模型投入生产。
- [Gradient] gradient.ai/ - Gradient提供LLM的微调训练和推理作为云基础设施。
- [Graphsignal] graphsignal.com/ - 机器学习分析器,帮助加快模型训练和推理的速度和效率。
- [H2O Driverless AI] www.h2o.ai/products/h2… - 自动化关键的机器学习任务,提供自动特征工程、模型验证、模型调优、模型选择和部署、机器学习可解释性、自定义配方、时间序列和自动管道生成用于模型评分 - (视频)。
- [Hugging Face] huggingface.co/ - Hugging Face是一个允许用户共享机器学习模型和数据集的平台。
- [IBM Watson Studio] www.ibm.com/cloud/watso… - 在任何云上构建和扩展可信的AI。自动化AI生命周期以实现ModelOps。
- [InnerEye] innereye.ai/ - InnerEye结合了人类智能和人工智能。通过利用人类神经处理和深度人工神经网络的融合,InnerEye允许快速准确的视觉检查、实时AI训练和验证,并为连接的用户应用建立了独特的人机界面。
- [Iguazio Data Science Platform] www.iguazio.com/ - 通过自动化MLOps,将数据科学转化为现实,支持企业级实时性能,实现AI项目的实际业务成果。
- [Iterative Studio] studio.iterative.ai/ - 无缝的数据和模型管理、实验跟踪、可视化和自动化,以Git为单一真实来源。
- [Lambda Labs] lambdalabs.com - Lambda Labs是一家提供深度学习应用硬件和软件解决方案的公司。
- [Kaggle] www.kaggle.com - Kaggle提供机器学习和数据科学竞赛,并提供一个公共数据和基于云的业务平台,用于数据科学和AI教育。
- [Katonic.ai] katonic.ai/ - 使用Katonic MLOps平台自动化你的智能周期。
- [Kern AI] www.kern.ai/ - Kern AI构建了用于NLP训练数据的自助开发环境,数据科学家可以快速构建高质量、大规模的标注数据集。
- [Labelbox] labelbox.com/ - 图像标注服务,支持语义分割(刷子和超像素)、边界框和嵌套分类。
- [ModelOp] www.modelop.com/ - 企业级MLOps平台,自动化治理、管理和监控跨平台和团队部署的AI、ML模型,确保可靠、合规和可扩展的AI项目。
- [Modelplace] modelplace.ai - Modelplace提供来自全球的经过测试和基准测试的AI模型目录,由OpenCV策划。
- [MLJAR] mljar.com/ - 快速原型设计、开发和部署机器学习模型的平台。
- [Neptune.ai] github.com/neptune-ai/… Neptune是一个轻量级解决方案,设计用于:1)实验跟踪;2)模型注册表;3)机器学习运行的实时监控。
- [Nimblebox] nimblebox.ai - 一个全栈MLOps平台,旨在帮助全球的数据科学家和机器学习从业者从其网页浏览器中发现、创建和启动多云应用。
- [OctoML] octoml.ai/ - OctoML通过高效的模型执行和自动化来扩展服务并减少工程负担,使AI更加可持续。
- [OpenAI] openai.com/ - OpenAI旨在促进和发展对人类有益的友好AI。
- [Pinecone] www.pinecone.io/ - Pinecone向量数据库使构建高性能向量搜索应用变得容易。
- [Prodigy] prodi.gy/ - Prodigy是一个可编写脚本的标注工具,效率高到数据科学家可以自己进行标注,从而实现快速迭代。
- [RapidMiner] rapidminer.com/ - RapidMiner是一个企业级数据科学平台,放大你的团队、专业知识和数据的集体影响力,以获得突破性的竞争优势。
- [Replicate] replicate.com - Replicate让你可以通过云API运行机器学习模型,无需理解机器学习的复杂性或管理自己的基础设施。
- [Robust Intelligence] www.robustintelligence.com/ - Robust Intelligence是一个端到端的机器学习完整性解决方案,在模型生命周期的每个阶段主动消除故障。从部署前的漏洞检测和验证到部署后的监控和保护,Robust Intelligence为团队提供了在各种用例和模式下扩展生产模型的信心。
- [SambaNova] sambanova.ai/ - SambaNova Systems是一家专注于生成性AI的公司。他们提供一个全栈平台,允许用户构建强大的AI模型,使用他们的数据进行定制,并由他们拥有。
- [Scale] scale.com - Scale AI通过结合机器学习驱动的预标注和主动工具以及不同级别和类型的人类审查,将原始数据转化为高质量的训练数据。
- [Scribble Enrich] www.scribbledata.io/product - 可定制、可审计、注重隐私的特征存储。旨在帮助中型数据团队对用于训练和分析的数据建立信任,并支持漂移计算和偏差评估等新兴需求。
- [SigOpt] sigopt.com/ - SigOpt是一个模型开发平台,使得跟踪运行、可视化训练和扩展超参数优化变得容易,适用于使用任何库在任何基础设施上构建的任何类型的模型。
- [Skymind] skymind.global/ - 软件分发,旨在帮助企业IT团队管理、部署和重新训练大规模的机器学习模型。
- [Skytree] skytree.net - 端到端的机器学习平台 - (视频)。
- [SuperAnnotate] www.superannotate.com/ - 提供完整的图像和视频标注解决方案,以及集成工具、按需的各领域狭窄专业知识和定制神经网络、自动化和由AI驱动的训练模型的标注服务。
- [Superb AI] superb-ai.com - 机器学习数据操作平台,提供各种工具来构建、标注、管理和迭代训练数据。
- [Syndicai] syndicai.co - 易于使用的云无关平台,可以在几分钟内部署、管理和扩展任何训练好的AI模型,无需配置和基础设施设置。
- [Talend Studio] www.talend.com/ - 数据集成平台,提供各种数据集成、数据管理、企业应用集成、数据质量、云存储和大数据的软件和服务。
- [Tecton] www.tecton.ai/ - Tecton是一个一体化系统,用于构建、自动化和集中化生产机器学习的特征工作流。
- [Valohai] valohai.com/ - 深度学习的机器编排、版本控制和管道管理。
- [Vectara] vectara.com/ - Vectara是一个专注于对话体验的平台。它提供强大的检索、摘要和生成功能,以及易于使用的开发者界面。
- [Vertex AI] cloud.google.com/vertex-ai - Vertex AI Workbench是数据科学家完成所有机器学习工作的单一环境,从实验到部署,再到管理和监控模型。它是一个基于Jupyter的完全托管、可扩展、企业级计算基础设施,具有安全控制和用户管理功能。
- [Ultralytics] ultralytics.com/ - Ultralytics简化了数据获取、标注、模型训练和部署服务,提供人工智能。
- [Wallaroo.AI] wallaroo.ai/ - 生产AI平台,用于在任何环境中大规模部署、管理和观察任何模型,从云到边缘,可以在几分钟内从Python笔记本到推理。社区版可用。
- [Weights & Biases] github.com/wandb/wandb 机器学习实验跟踪、数据集版本控制、超参数搜索、可视化和协作。
- [WhyLabs] whylabs.ai/ - 启用可观测性,以更快地检测数据和机器学习问题,提供持续改进,并避免代价高昂的事故。
- [Zilliz] zilliz.com/ - Zilliz构建向量数据库,以加速下一代数据结构的发展。