AGI评测

AGI评测

AGI评测

大语言模型评测多模态评测具身评测

暂无订阅共7篇文章创建于2025-01-14

大型语言模型评估：全面综述-天津大学

Evaluating Large Language Models: A Comprehensive Survey 大型语言模型评估：全面综述 github: https://github.com/tj

1年前
356
点赞
评论

大型语言模型评估：全面综述-天津大学

代码大模型-Bench文章

Large Language Model-Based Agents for Software Engineering: A Survey Evaluating Large Language Model

1年前
198
点赞
评论

2025年01月模型榜单前10

2025年01月评测榜单前10 的模型大语言模型-精调排名模型类型 1 OpenAI/o1-preview 闭源 2 OpenAI/GPT-4o-20241120 闭源 3 Anthropic

1年前
767
点赞
评论

大模型评测数据集：FLORES-101

发布方： Facebook AI Research 发布时间： 2021-01-01 简介： FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成，涵盖各种不同的主题和领域。这些句

1年前
564
点赞
评论

大模型评测数据集：MGSM

LANGUAGE MODELS ARE MULTILINGUAL CHAIN-OF-THOUGHT REASONERS Hugging Face：https://huggingface.co/data

1年前
810
点赞
评论

大模型评测数据集：tau-Bench

τ -bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains gitHub：https://github.co

1年前
2.0k
点赞
评论

大模型评测数据集：OminiBench

OmniBench: Towards The Future of Universal Omni-Language Models 2024-09-23｜M-A-P, U Manchester, QMUL

1年前
933
点赞
评论