NeurIPS 2024

Poster

Thu 16:30

AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents
Edoardo Debenedetti · Jie Zhang · Mislav Balunovic · Luca Beurer-Kellner · Marc Fischer · Florian Tramer

Workshop

LLM-PIRATE: A benchmark for indirect prompt injection attacks in Large Language Models
Anil Ramakrishna · Jimit Majmudar · Rahul Gupta · Devamanyu Hazarika

Workshop

Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI
Ambrish Rawat · Stefan Schoepf · Giulio Zizzo · Giandomenico Cornacchia · Muhammad Zaid Hameed · Kieran Fraser · Erik Miehling · Beat Buesser · Elizabeth Daly · Mark Purcell · Prasanna Sattigeri · Pin-Yu Chen · Kush Varshney

Main Navigation

3 Results