NeurIPS 2024

Workshop

Coordinated Robustness Evaluation Framework for Vision Language Models
Ashwin Ramesh Babu · Sajad Mousavi · Desik Rengarajan · Vineet Gundecha · Sahand Ghorbanpour · Avisek Naug · Antonio Guillen-Perez · Ricardo Luna Gutierrez · Soumyendu Sarkar

Poster

Thu 16:30

Calibrated Self-Rewarding Vision Language Models
Yiyang Zhou · Zhiyuan Fan · Dongjie Cheng · Sihan Yang · Zhaorun Chen · Chenhang Cui · Xiyao Wang · Yun Li · Linjun Zhang · Huaxiu Yao

Workshop

Red Teaming Language-Conditioned Robot Models via Vision Language Models
Sathwik Karnik · Zhang-Wei Hong · NISHANT ABHANGI · Yen-Chen Lin · Tsun-Hsuan Johnson Wang · Pulkit Agrawal

Workshop

Sat 10:50

Hippocrates: An Open-Source Framework for Advancing Large Language Models in Healthcare
Emre Can Acikgoz · Osman Batur İnce · Rayene Bech · Arda Boz · Ilker Kesen · Aykut Erdem · Erkut Erdem

Poster

Wed 11:00

PERIA: Perceive, Reason, Imagine, Act via Holistic Language and Vision Planning for Manipulation
Fei Ni · Jianye Hao · Shiguang Wu · Longxin Kou · Yifu Yuan · Zibin Dong · Jinyi Liu · MingZhi Li · Yuzheng Zhuang · YAN ZHENG

Poster

Thu 11:00

Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models
Jiayu Wang · Yifei Ming · Zhenmei Shi · Vibhav Vineet · Xin Wang · Sharon Li · Neel Joshi

Poster

Wed 11:00

One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
Zechen Bai · Tong He · Haiyang Mei · Pichao WANG · Ziteng Gao · Joya Chen · liulei · Zheng Zhang · Mike Zheng Shou

Workshop

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
Peng Xia · Kangyu Zhu · Haoran Li · Tianze Wang · Weijia Shi · Linjun Zhang · James Zou · Huaxiu Yao

Poster

Thu 11:00

Yo'LLaVA: Your Personalized Language and Vision Assistant
Thao Nguyen · Haotian Liu · Yuheng Li · Mu Cai · Utkarsh Ojha · Yong Jae Lee

Affinity Event

MIMIC: Multimodal Islamophobic Meme Identification and Classification
S M Jishanul Islam · Sahid Hossain Mustakim · Sadia Ahmmed · Md. Faiyaz Abdullah Sayeedi · Swapnil Khandoker · Syed Tasdid Azam Dhrubo · Nahid Hossain

Workshop

Decompose, Recompose, and Conquer: Multi-modal LLMs are Vulnerable to Compositional Adversarial Attacks in Multi-Image Queries
Julius Broomfield · George Ingebretsen · Reihaneh Iranmanesh · Sara Pieri · Ethan Kosak-Hine · Tom Gibbs · Reihaneh Rabbany · Kellin Pelrine

Poster

Thu 11:00

VHELM: A Holistic Evaluation of Vision Language Models
Tony Lee · Haoqin Tu · Chi Heem Wong · Wenhao Zheng · Yiyang Zhou · Yifan Mai · Josselin Roberts · Michihiro Yasunaga · Huaxiu Yao · Cihang Xie · Percy Liang

Main Navigation

198 Results