首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AGI评测
EmbodiedTech
创建于2025-01-14
订阅专栏
大语言模型评测 多模态评测 具身评测
暂无订阅
共7篇文章
创建于2025-01-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大型语言模型评估:全面综述-天津大学
Evaluating Large Language Models: A Comprehensive Survey 大型语言模型评估:全面综述 github: https://github.com/tj
代码大模型-Bench文章
Large Language Model-Based Agents for Software Engineering: A Survey Evaluating Large Language Model
2025年01月模型榜单前10
2025年01月评测榜单前10 的模型 大语言模型-精调 排名 模型 类型 1 OpenAI/o1-preview 闭源 2 OpenAI/GPT-4o-20241120 闭源 3 Anthropic
大模型评测数据集:FLORES-101
发布方: Facebook AI Research 发布时间: 2021-01-01 简介: FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成,涵盖各种不同的主题和领域。这些句
大模型评测数据集:MGSM
LANGUAGE MODELS ARE MULTILINGUAL CHAIN-OF-THOUGHT REASONERS Hugging Face:https://huggingface.co/data
大模型评测数据集:tau-Bench
τ -bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains gitHub:https://github.co
大模型评测数据集:OminiBench
OmniBench: Towards The Future of Universal Omni-Language Models 2024-09-23|M-A-P, U Manchester, QMUL