NeurIPS 2024

Poster

Thu 16:30

Q-VLM: Post-training Quantization for Large Vision-Language Models
Changyuan Wang · Ziwei Wang · Xiuwei Xu · Yansong Tang · Jie Zhou · Jiwen Lu

Poster

Thu 11:00

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models
Nitzan Bitton Guetta · Aviv Slobodkin · Aviya Maimon · Eliya Habba · Royi Rassin · Yonatan Bitton · Idan Szpektor · Amir Globerson · Yuval Elovici

Poster

Wed 16:30

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
Haogeng Liu · Quanzeng You · Xiaotian Han · Yongfei Liu · Huaibo Huang · Ran He · Hongxia Yang

Poster

Wed 11:00

RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions
Ziyao Zeng · Yangchao Wu · Hyoungseob Park · Daniel Wang · Fengyu Yang · Stefano Soatto · DONG LAO · Byung-Woo Hong · Alex Wong

Affinity Event

ColFlor: Towards BERT-Size Vision-Language Document Retrieval Models
Ahmed Masry · Enamul Hoque

Workshop

Cascaded to End-to-End: New Safety, Security, and Evaluation Questions for Audio Language Models
Luxi He · Xiangyu Qi · Inyoung Cheong · Prateek Mittal · Danqi Chen · Peter Henderson

Poster

Fri 11:00

TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment
Wei Li · Hehe Fan · Yongkang Wong · Mohan Kankanhalli · Yi Yang

Poster

Wed 11:00

Unified Lexical Representation for Interpretable Visual-Language Alignment
Yifan Li · Yikai Wang · Yanwei Fu · Dongyu Ru · Zheng Zhang · Tong He

Workshop

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
Yushi Hu · Weijia Shi · Xingyu Fu · Dan Roth · Mari Ostendorf · Luke Zettlemoyer · Noah Smith · Ranjay Krishna

Workshop

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA
Qianqi Yan · Xuehai He · Xiang Yue · Xin Eric Wang

Workshop

Pixelated Instructions: Can Multimodal Large Language Models Follow Printed Instructions in Images?
Xiujun Li · Yujie Lu · William Yang Wang · Yejin Choi

Poster

Fri 16:30

Learning Spatially-Aware Language and Audio Embeddings
Bhavika Devnani · Skyler Seto · Zakaria Aldeneh · Alessandro Toso · Elena Menyaylenko · Barry-John Theobald · Jonathan Sheaffer · Miguel Sarabia

Main Navigation

1282 Results