firstbacksecondback
113 Results
Workshop
|
CURIE: Evaluating LLMs on Multitask Scientific Long-Context Understanding and Reasoning Hao Cui · Zahra Shamsi · Xuejian Ma · Gowoon Cheon · Shutong Li · Maria Tikhanovskaya · Nayantara Mudur · Martyna Plomecka · Peter Norgaard · Paul Raccuglia · Victor V. Albert · Yasaman Bahri · Pranesh Srinivasan · Haining Pan · Philippe Faist · Brian Rohr · Michael Statt · Dan Morris · Drew Purves · Elise Kleeman · Ruth Alcantara · Matthew Abraham · Muqthar Mohammad · Ean Phing VanLee · Chenfei Jiang · Elizabeth Dorfman · Eun-Ah Kim · Michael Brenner · Sameera Ponda · Subhashini Venugopalan |
||
Poster
|
Fri 11:00 |
DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents Peter Jansen · Marc-Alexandre Côté · Tushar Khot · Erin Bransom · Bhavana Dalvi Mishra · Bodhisattwa Prasad Majumder · Oyvind Tafjord · Peter Clark |
|
Poster
|
Thu 16:30 |
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI pengcheng chen · Jin Ye · Guoan Wang · Yanjun Li · Zhongying Deng · Wei Li · Tianbin Li · Haodong Duan · Ziyan Huang · Yanzhou Su · Benyou Wang · Shaoting Zhang · Bin Fu · Jianfei Cai · Bohan Zhuang · Eric Seibel · Junjun He · Yu Qiao |
|
Poster
|
Fri 16:30 |
Paloma: A Benchmark for Evaluating Language Model Fit Ian Magnusson · Akshita Bhagia · Valentin Hofmann · Luca Soldaini · Ananya Harsh Jha · Oyvind Tafjord · Dustin Schwenk · Evan Walsh · Yanai Elazar · Kyle Lo · Dirk Groeneveld · Iz Beltagy · Hanna Hajishirzi · Noah Smith · Kyle Richardson · Jesse Dodge |
|
Poster
|
Wed 11:00 |
Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? Pedro R. A. S. Bassi · Wenxuan Li · Yucheng Tang · Fabian Isensee · Zifu Wang · Jieneng Chen · Yu-Cheng Chou · Yannick Kirchhoff · Maximilian R. Rokuss · Ziyan Huang · Jin Ye · Junjun He · Tassilo Wald · Constantin Ulrich · Michael Baumgartner · Saikat Roy · Klaus Maier-Hein · Paul Jaeger · Yiwen Ye · Yutong Xie · Jianpeng Zhang · Ziyang Chen · Yong Xia · Zhaohu Xing · Lei Zhu · Yousef Sadegheih · Afshin Bozorgpour · Pratibha Kumari · Reza Azad · Dorit Merhof · Pengcheng Shi · Ting Ma · Yuxin Du · Fan BAI · Tiejun Huang · Bo Zhao · Haonan Wang · Xiaomeng Li · Hanxue Gu · Haoyu Dong · Jichen Yang · Maciej Mazurowski · Saumya Gupta · Linshan Wu · Jia-Xin Zhuang · Hao CHEN · Holger Roth · Daguang Xu · Matthew Blaschko · Sergio Decherchi · Andrea Cavalli · Alan Yuille · Zongwei Zhou |