NeurIPS 2024

Poster

Fri 11:00

Evaluating language models as risk scores
André F. Cruz · Moritz Hardt · Celestine Mendler-Dünner

Workshop

Sat 15:45

Evaluating language models as risk scores
André F. Cruz · Moritz Hardt · Celestine Mendler-Dünner

Workshop

Retention Score: Quantifying Jailbreak Risks for Vision Language Models
ZAITANG LI · Pin-Yu Chen · Tsung-Yi Ho

Workshop

GRE Score: Generative Risk Evaluation for Large Language Models
ZAITANG LI · Mohamed Mouhajir · Pin-Yu Chen · Tsung-Yi Ho

Main Navigation