General Evaluation

General Evaluation

General Evaluation

聚焦AI领域常用的Benchmark

暂无订阅共9篇文章创建于2025-05-04

【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

论文名称：CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interac

10月前
199
点赞
评论

【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

【复杂指令遵循 Benchmark】论文分享：CodeIF

论文名称：CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code G

10月前
230
点赞
评论

【复杂指令遵循 Benchmark】论文分享：CodeIF

【Code Agent Benchmark】论文分享：Web Bench

论文名称：Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks；机构：字节跳动

11月前
202
点赞
评论

【Code Agent Benchmark】论文分享：Web Bench

【Code Agent Benchmark】论文分享：TAU-Bench

论文名称：τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains；机构：Sierra

11月前
615
点赞
评论

【Code Agent Benchmark】论文分享：TAU-Bench

【General Agent Benchmark】论文分享：WorfBench

论文名称：Benchmarking Agentic Workflow Generation；机构：浙大 + 通义

11月前
218
点赞
评论

【General Agent Benchmark】论文分享：WorfBench

【Code Agent Benchmark】论文分享：SWE-bench

论文名称：SWE-bench: Can Language Models Resolve Real-World GitHub Issues?；机构：普林斯顿大学 + OpenAI

11月前
858
点赞
评论

【Code Agent Benchmark】论文分享：SWE-bench

【General Agent Benchmark】论文分享：LLF-Bench

论文名称：LLF-Bench: Benchmark for Interactive Learning from Language Feedback

11月前
170
点赞
评论

【General Agent Benchmark】论文分享：LLF-Bench

【General Agent Benchmark】论文分享：AgentBench

论文名称：AgentBench: Evaluating LLMs as Agents；机构：清华 ChatGLM 团队

11月前
1.0k
点赞
评论

【General Agent Benchmark】论文分享：AgentBench

【General Agent Benchmark】论文分享：GAIA

论文名称：GAIA: a benchmark for General AI Assistants；机构：Meta + Huggingface + AutoGPT

11月前
752
点赞
评论

【General Agent Benchmark】论文分享：GAIA