NeurIPS 2024

Poster

Fri 11:00

Octopus: A Multi-modal LLM with Parallel Recognition and Sequential Understanding
Chuyang Zhao · YuXin Song · Junru Chen · KANG RONG · Haocheng Feng · Gang Zhang · Shufan Ji · Jingdong Wang · Errui Ding · Yifan Sun

Poster

Wed 16:30

Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation
Ruihao Xia · Yu Liang · Peng-Tao Jiang · Hao Zhang · Bo Li · Yang Tang · Pan Zhou

Poster

Thu 16:30

Towards Neuron Attributions in Multi-Modal Large Language Models
Junfeng Fang · Zac Bi · Ruipeng Wang · Houcheng Jiang · Yuan Gao · Kun Wang · An Zhang · Jie Shi · Xiang Wang · Tat-Seng Chua

Affinity Event

Thermal Image Object Detection via Cross-Modal Knowledge Distillation from RGB
Michael Desta · Abel Mekonnen · Selameab Demilew

Poster

Wed 16:30

Unified Generative and Discriminative Training for Multi-modal Large Language Models
Wei Chow · Juncheng Li · Qifan Yu · Kaihang Pan · Hao Fei · Zhiqi Ge · Shuaiyang · Siliang Tang · Hanwang Zhang · QIANRU SUN

Poster

Thu 11:00

Sim2Real-Fire: A Multi-modal Simulation Dataset for Forecast and Backtracking of Real-world Forest Fire
Yanzhi Li · Keqiu Li · LI GUOHUI · zumin wang · Chanqing Ji · Lubo Wang · Die Zuo · Qing Guo · Feng Zhang · Manyu Wang · Di Lin

Poster

Wed 11:00

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations
Ruiyuan Lyu · Jingli Lin · Tai WANG · Shuaiyang · Xiaohan Mao · Yilun Chen · Runsen Xu · Haifeng Huang · Chenming Zhu · Dahua Lin · Jiangmiao Pang

Poster

Fri 11:00

DreamCatcher: A Wearer-aware Multi-modal Sleep Event Dataset Based on Earables in Non-restrictive Environments
Zeyu Wang · Xiyuxing Zhang · Ruotong Yu · Yuntao Wang · Kenneth Christofferson · Jingru Zhang · Alex Mariakakis · Yuanchun Shi

Poster

Wed 11:00

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
Hao Shao · Shengju Qian · Han Xiao · Guanglu Song · ZHUOFAN ZONG · Letian Wang · Yu Liu · Hongsheng Li

Poster

Fri 11:00

Multi-modal Situated Reasoning in 3D Scenes
Xiongkun Linghu · Jiangyong Huang · Xuesong Niu · Xiaojian (Shawn) Ma · Baoxiong Jia · Siyuan Huang

Poster

Thu 16:30

WikiDO: A New Benchmark Evaluating Cross-Modal Retrieval for Vision-Language Models
Pavan Kalyan Tankala · Piyush Pasi · Sahil Dharod · Azeem Motiwala · Preethi Jyothi · Aditi Chaudhary · Krishna Srinivasan

Poster

Fri 11:00

Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts
Sukwon Yun · Inyoung Choi · Jie Peng · Yangfan Wu · Jingxuan Bao · Qiyiwen Zhang · Jiayi Xin · Qi Long · Tianlong Chen

Main Navigation

130 Results