NeurIPS 2024

Oral

Wed 16:10

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Ma Chang · Junlei Zhang · Zhihao Zhu · Cheng Yang · Yujiu Yang · Yaohui Jin · Zhenzhong Lan · Lingpeng Kong · Junxian He

Workshop

Critical human-AI use scenarios and interaction modes for societal impact evaluations
Lujain Ibrahim · Saffron Huang · Lama Ahmad · Markus Anderljung

Workshop

THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models
Mengfei Liang · Archish Arun · Zekun Wu · CRISTIAN VILLALOBOS · Jonathan Lutch · Emre Kazim · Adriano Koshiyama · Philip Treleaven

Main Navigation

39 Results