NeurIPS 2024

Workshop

Sun 16:30

Measuring the Reliability of Causal Probing Methods: Tradeoffs, Limitations, and the Plight of Nullifying Interventions
Marc Canby · Adam Davies · Chirag Rastogi · Julia C Hockenmaier

Workshop

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
Tong Chen · Akari Asai · Niloofar Mireshghallah · Sewon Min · James Grimmelmann · Yejin Choi · Hannaneh Hajishirzi · Luke Zettlemoyer · Pang Wei Koh

Workshop

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
Tong Chen · Akari Asai · Niloofar Mireshghallah · Sewon Min · James Grimmelmann · Yejin Choi · Hannaneh Hajishirzi · Luke Zettlemoyer · Pang Wei Koh

Workshop

Sat 15:45

A shared standard for valid measurement of generative AI systems' capabilities, risks, and impacts
Alexandra Chouldechova · Chad Atalla · Solon Barocas · A. Feder Cooper · Emily Corvi · Alex Dow · Jean Garcia-Gathright · Nicholas Pangakis · Stefanie Reed · Emily Sheng · Dan Vann · Matthew Vogel · Hannah Washington · Hanna Wallach

Workshop

Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems
Emma Harvey · Emily Sheng · Su Lin Blodgett · Alexandra Chouldechova · Jean Garcia-Gathright · Alexandra Olteanu · Hanna Wallach

Workshop

Sat 15:45

Evaluating Generative AI Systems is a Social Science Measurement Challenge
Hanna Wallach · Meera Desai · Nicholas Pangakis · A. Feder Cooper · Angelina Wang · Solon Barocas · Alexandra Chouldechova · Chad Atalla · Su Lin Blodgett · Emily Corvi · Alex Dow · Jean Garcia-Gathright · Alexandra Olteanu · Stefanie Reed · Emily Sheng · Dan Vann · Jennifer Wortman Vaughan · Matthew Vogel · Hannah Washington · Abigail Jacobs

Workshop

Evaluating Generative AI Systems is a Social Science Measurement Challenge
Hanna Wallach · Meera Desai · Nicholas Pangakis · A. Feder Cooper · Angelina Wang · Solon Barocas · Alexandra Chouldechova · Chad Atalla · Su Lin Blodgett · Emily Corvi · Alex Dow · Jean Garcia-Gathright · Alexandra Olteanu · Stefanie Reed · Emily Sheng · Dan Vann · Jennifer Wortman Vaughan · Matthew Vogel · Hannah Washington · Abigail Jacobs

Workshop

Does Machine Bring in Extra Bias in Learning? Approximating Discrimination Within Models Quickly
Yijun Bian · Yujie Luo · Ping Xu

Workshop

Sat 17:27

Measuring the Impact of Equal Treatment as Blindness via Explanations Disparity
Carlos Mougan · Salvatore Ruggieri · Laura State · Antonio Ferrara · Steffen Staab

Workshop

Sun 16:30

Is network fragmentation a useful complexity measure?
Coenraad Mouton · Randle Rabe · Daniël Haasbroek · Marthinus Theunissen · Hermanus Potgieter · Marelie Davel

Workshop

Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach
Changgeon Ko · Jisu Shin · Hoyun Song · Jeongyeon Seo · Jong Park

Workshop

Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations
Aryan Shrivastava · Max Lamparth · Jessica Hullman

Main Navigation

69 Results