NeurIPS 2024

Workshop

Sun 9:00

Towards Safe & Trustworthy Agents
Alexander Pan · Kimin Lee · Bo Li · Karthik Narasimhan · Dawn Song · Isabelle Barrass

Workshop

MISR: Measuring Instrumental Self-Reasoning in Frontier Models
Kai Fronsdal · David Lindner

Workshop

Dissecting Adversarial Robustness of Multimodal LM Agents
Chen Wu · Rishi Shah · Jing Yu Koh · Ruslan Salakhutdinov · Daniel Fried · Aditi Raghunathan

Workshop

Dissecting Adversarial Robustness of Multimodal LM Agents
Chen Wu · Rishi Shah · Jing Yu Koh · Ruslan Salakhutdinov · Daniel Fried · Aditi Raghunathan

Workshop

Infecting LLM Agents via Generalizable Adversarial Attack
Weichen Yu · Kai Hu · Tianyu Pang · Chao Du · Min Lin · Matt Fredrikson

Workshop

Sun 16:50

Contributed Talk 6: Infecting LLM Agents via Generalizable Adversarial Attack
Weichen Yu · Kai Hu · Tianyu Pang · Chao Du · Min Lin · Matt Fredrikson

Workshop

Measuring AI Agent Autonomy: Towards a Scalable Approach With Code Inspection
Merlin Stein · Peter Cihon · Gagan Bansal · Sam Manning

Workshop

Auto-Enhance: Towards a Meta-Benchmark to Evaluate AI Agents' Ability to Improve Other Agents
Samuel Brown · Basil Labib · Codruta Lugoj · Sai Sasank Y

Competition

Sun 13:30

CLAS 2024: The Competition for LLM and Agent Safety
Zhen Xiang · Yi Zeng · Mintong Kang · Chejian Xu · Jiawei Zhang · Zhuowen Yuan · Zhaorun Chen · Chulin Xie · Fengqing Jiang · Minzhou Pan · Francesco Pinto · Junyuan Hong · Ruoxi Jia · Radha Poovendran · Bo Li

Workshop

Simulation System Towards Solving Societal-Scale Manipulation
Maximilian Puelma Touzel · Sneheel Sarangi · Austin Welch · Gayatri K · Dan Zhao · Zachary Yang · Hao Yu · Tom Gibbs · Ethan Kosak-Hine · Andreea Musulan · Camille Thibault · Reihaneh Rabbany · Jean-François Godbout · Kellin Pelrine

Main Navigation

10 Results