HuggingFace

开发者社区 | HuggingFace

The AI community building the future.

赞

319

|

搜索文章

让 LLM 来评判 | 选择 LLM 评估模型

基础概念什么是评估模型？评估模型 (Judge models) 是一种用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广，从小型的特定分类器 (例如

1年前
315
2
评论

让 LLM 来评判 | 选择 LLM 评估模型

让 LLM 来评判 | 基础概念

基础概念什么是评估模型？评估模型 (Judge models) 是一种用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广，从小型的特定分类器 (例如

1年前
358
3
评论

让 LLM 来评判 | 基础概念

自动评估基准 | 一些评估测试集

一些评估测试集如果你感兴趣的任务已经得到充分研究，很可能评估数据集已经存在了。下面列出了一些近年来开发构建的评估数据集。需要注意的是：大部分数据集有些 “过时”，因为它们是在 LLM 出现之前构

1年前
359
2
评论

自动评估基准 | 一些评估测试集

基于开放模型的推理时计算缩放

过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预训练更大模型所需的资源变得异常昂贵，数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴

1年前
229
1
评论

自动评估基准 | 技巧与提示

过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预训练更大模型所需的资源变得异常昂贵，数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴

1年前
235
6
评论

自动评估基准 | 设计你的自动评估任务

设计你的自动评估任务选择数据集做评估时，你可以选择现有的数据集 (参考一些评估数据集页面) 作为测试集，也可以设计自己的数据集。有一点非常重要，请注意：评估的结果与评估的数据集质量高度相关。

1年前
221
1
评论

自动评估基准 | 设计你的自动评估任务

自动评估基准 | 基础概念

基础概念注：本文内容与我写的通用评估博客存在部分重叠什么是自动评估基准？自动化基准测试通常按照以下方式工作：你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明确定义的具体任务，

1年前
163
2
评论

人工评估 | 技巧与提示

技巧与提示建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。任务设计简单至上：标注任务避免不必要的复杂。将标注

1年前
216
2
评论

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2，这是 PaliGemma 的一个新版本。与其前代产品一样，PaliGemma 2 使用强大的 SigLIP 进行视觉处理，但在

1年前
270
2
评论

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

Hugging Face 机器人技术新突破

这次我们的 LeRobot 团队联合 @therobotstudio 和 @NepYope 打造了全新腱驱动（Tendon-driven）技术，以快、更准、更灵活的超凡表现，让机器人手部控制进入全新时

1年前
312
3
评论

Hugging Face 机器人技术新突破

个人成就

优秀创作者

文章被点赞 1,226

文章被阅读 329,557

掘力值 13,715

加入于

2023-01-04