NeurIPS 2024

Poster

Fri 16:30

High-dimensional (Group) Adversarial Training in Linear Regression
Yiling Xie · Xiaoming Huo

Workshop

Does Refusal Training in LLMs Generalize to the Past Tense?
Maksym Andriushchenko · Nicolas Flammarion

Poster

Fri 16:30

Stability and Generalization of Adversarial Training for Shallow Neural Networks with Smooth Activation
Kaibo Zhang · Yunjuan Wang · Raman Arora

Poster

Fri 11:00

Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning
Honghao Wei · Xiyue Peng · Arnob Ghosh · Xin Liu

Workshop

An Adversarial Perspective on Machine Unlearning for AI Safety
Jakub Łucki · Boyi Wei · Yangsibo Huang · Peter Henderson · Florian Tramer · Javier Rando

Workshop

An Adversarial Perspective on Machine Unlearning for AI Safety
Jakub Łucki · Boyi Wei · Yangsibo Huang · Peter Henderson · Florian Tramer · Javier Rando

Workshop

Cold Posterior Effect towards Adversarial Robustness
Bruce Rushing · Antonios Alexos · Harrison Espino · Nicholas Cohen · Pierre Baldi

Poster

Thu 11:00

Efficient Adversarial Training in LLMs with Continuous Attacks
Sophie Xhonneux · Alessandro Sordoni · Stephan Günnemann · Gauthier Gidel · Leo Schwinn

Workshop

Workshop

Adversarial Training based Domain Adaptation for Cross-Subject Emotion Recognition
Sungpil Woo · MUHAMMAD ZUBAIR · Sunhwan Lim · Daeyoung Kim

Poster

Wed 11:00

Self-Supervised Adversarial Training via Diverse Augmented Queries and Self-Supervised Double Perturbation
Ruize Zhang · Sheng Tang · Juan Cao

Poster

Fri 11:00

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
Yimeng Zhang · Xin Chen · Jinghan Jia · Yihua Zhang · Chongyu Fan · Jiancheng Liu · Mingyi Hong · Ke Ding · Sijia Liu

Main Navigation