Hugging Face blog: Benchmarking open models on your own tooling for agentic capabilities

How-ToAI ModelsDevelopers

18 hours ago

Hugging Face blog: Benchmarking open models on your own tooling for agentic capabilities

Hugging Face publishes a guide on benchmarking open models for agentic capabilities using custom tooling. It focuses on evaluating how well open models perform with agentic tasks and provides practical steps for setting up benchmarks.

Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition10 days agoYuyang Zhang, Xinyuan Han, Xudong Jiang, Run Wang

Agent Skill Evaluation and Evolution: Frameworks and Benchmarks7 days agoKexin Ding, Yang Zhou, Can Jin, Feng Tong, Mu Zhou, Dimitris N. Metaxas

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation17 days agoTianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu

SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale15 days agoTong Bai, Zhenglin Wan, Pengfei Zhou, Xingrui Yu, Wangbo Zhao, Yang You, Ivor W. Tsang

AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition3 days agoJixuan Chen, Jianzhi Shen, Haoqiang Kang, Zhi Hong, Qingyi Jiang, Soham Bose, Yiming Zhang, Leon Leng, Amit Vyas, Lingjun Mao, Siru Ouyang, Kun Zhou, Lianhui Qin

SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing3 days agoHaowen Gao, Haoran Chen, Can Wang, Shasha Guo, Liang Pang, Zhaoyang Liu, Huawei Shen, Xueqi Cheng

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning16 days agoChishui Chen, Jiaye Lin, Te Sun, Junxi Wang, Yi Yang, Cong Qin, Yangen Hu, Lu Pan, Ke Zeng

Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents26 days agoXing Zhang, Yanwei Cui, Guanghui Wang, Ziyuan Li, Wei Qiu, Bing Zhu, Peiyang He

Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents29 days agoXi Zhang, Meijun Gao, Yuntian Zhao, Xinyu Tan, Yilun Yao, Feiyu Wang, Yanshu Wang, Dingsiyi, Tong Yang

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry3 days agoTingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan

From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI3 days agoYongheng Zhang, Ziang Liu, Jiaxuan Zhu, Shuai Wang, Xiangqi Chen, Haojing Huang, Jiayi Kuang, Siyu Chen, Ao Shen, Hao Wu, Qiufeng Wang, Qian-Wen Zhang, Junnan Dong, Wenhao Jiang, Ying Shen, Hai-Tao Zheng, Yinghui Li, Di Yin, Xing Sun, Philip S. Yu

Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents30 days agoJingxing Wang, Chenyu Zhou, Zhihui Fu, Jun Wang, Weiwen Liu, Weinan Zhang, Jianghao Lin

18 hours ago