NeurIPS 2024

Poster

Fri 11:00

A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation
Gwanghyun Kim · Alonso Martinez · Yu-Chuan Su · Brendan Jou · Jose Lezama · Agrim Gupta · Lijun Yu · Lu Jiang · Aren Jansen · Jacob Walker · Krishna Somandepalli

Affinity Event

MIMIC: Multimodal Islamophobic Meme Identification and Classification
S M Jishanul Islam · Sahid Hossain Mustakim · Sadia Ahmmed · Md. Faiyaz Abdullah Sayeedi · Swapnil Khandoker · Syed Tasdid Azam Dhrubo · Nahid Hossain

Poster

Thu 11:00

VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation
Shiwei Wu · Joya Chen · Kevin Qinghong Lin · Qimeng Wang · Yan Gao · Qianli Xu · Tong Xu · Yao Hu · Enhong Chen · Mike Zheng Shou

Poster

Thu 16:30

ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation
Shenghai Yuan · Jinfa Huang · Yongqi Xu · YaoYang Liu · Shaofeng Zhang · Yujun Shi · Rui-Jie Zhu · Xinhua Cheng · Jiebo Luo · Li Yuan

Poster

Fri 16:30

Voxel Proposal Network via Multi-Frame Knowledge Distillation for Semantic Scene Completion
Lubo Wang · Di Lin · Kairui Yang · Ruonan Liu · Qing Guo · Wuyuan Xie · Miaohui Wang · Lingyu Liang · Yi Wang · Ping Li

Poster

Fri 16:30

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis
Taihang Hu · Linxuan Li · Joost van de Weijer · Hongcheng Gao · Fahad Shahbaz Khan · Jian Yang · Ming-Ming Cheng · KAI WANG · Yaxing Wang

Poster

Wed 16:30

Advancing Open-Set Domain Generalization Using Evidential Bi-Level Hardest Domain Scheduler
Kunyu Peng · Di Wen · Kailun Yang · Ao Luo · Yufan Chen · Jia Fu · M. Saquib Sarfraz · Alina Roitberg · Rainer Stiefelhagen

Poster

Fri 11:00

MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning
Tieyuan Chen · Huabin Liu · Tianyao He · Yihang Chen · chaofan gan · Xiao Ma · Cheng Zhong · Yang Zhang · Yingxue Wang · Hui Lin · Weiyao Lin

Poster

Wed 11:00

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
Lin Chen · Xilin Wei · Jinsong Li · Xiaoyi Dong · Pan Zhang · Yuhang Zang · Zehui Chen · Haodong Duan · lin bin · Zhenyu Tang · Li Yuan · Yu Qiao · Dahua Lin · Feng Zhao · Jiaqi Wang

Workshop

BigDocs: A Permissively-Licensed Dataset for Training Vision-Language Models on Document and Code Tasks
Juan Rodriguez · Xiangru Jian · Siba Smarak Panigrahi · Tianyu Zhang · Aarash Feizi · Abhay Puri · Akshay Kalkunte Suresh · François Savard · Amirhossein Abaskohi · Ahmed Masry · Shravan Nayak · Mahsa Massoud · Rabiul Awal · Pierre-André Noël · Mats L Richter · Saverio Vadacchino · Shubham Agarwal · Sanket Biswas · Ying Zhang · Sathwik Tejaswi Madhusudhan · Joao Monteiro · Krishnamurthy Dvijotham · Torsten Scholak · Nicolas Chapados · Sean Hughes · M. Tamer Özsu · Aishwarya Agrawal · Marco Pedersoli · Chris Pal · Perouz Taslakian · David Vazquez · Issam Hadj Laradji · Spandana Gella · Sai Rajeswar Mudumba

Poster

Fri 11:00

Accelerating Transformers with Spectrum-Preserving Token Merging
Chau Tran · Duy M. H. Nguyen · Manh-Duy Nguyen · TrungTin Nguyen · Ngan Le · Pengtao Xie · Daniel Sonntag · James Zou · Binh Nguyen · Mathias Niepert

Poster

Unleashing Region Understanding in Intermediate Layers for MLLM-based Referring Expression Generation
Yaoyuan Liang · Zhuojun Cai · Jian Xu · Guanbo Huang · Yiran Wang · Xiao Liang · Jiahao Liu · Ziran Li · Jingang Wang · Shao-Lun Huang

Main Navigation

593 Results