首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
General Evaluation
依然易冷
创建于2025-05-04
订阅专栏
聚焦AI领域常用的Benchmark
暂无订阅
共9篇文章
创建于2025-05-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【复杂指令遵循 Benchmark】论文分享:CodeIF-Bench
论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interac
【复杂指令遵循 Benchmark】论文分享:CodeIF
论文名称:CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code G
【Code Agent Benchmark】论文分享:Web Bench
论文名称:Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks;机构:字节跳动
【Code Agent Benchmark】论文分享:TAU-Bench
论文名称:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains;机构:Sierra
【General Agent Benchmark】论文分享:WorfBench
论文名称:Benchmarking Agentic Workflow Generation;机构:浙大 + 通义
【Code Agent Benchmark】论文分享:SWE-bench
论文名称:SWE-bench: Can Language Models Resolve Real-World GitHub Issues?;机构:普林斯顿大学 + OpenAI
【General Agent Benchmark】论文分享:LLF-Bench
论文名称:LLF-Bench: Benchmark for Interactive Learning from Language Feedback
【General Agent Benchmark】论文分享:AgentBench
论文名称:AgentBench: Evaluating LLMs as Agents;机构:清华 ChatGLM 团队
【General Agent Benchmark】论文分享:GAIA
论文名称:GAIA: a benchmark for General AI Assistants;机构:Meta + Huggingface + AutoGPT