Skip to yearly menu bar Skip to main content

Workshop

Audio Imagination: NeurIPS 2024 Workshop AI-Driven Speech, Music, and Sound Generation

Anurag Kumar ⋅ Zhaoheng Ni ⋅ Shinji Watanabe ⋅ Wenwu Wang ⋅ Yapeng Tian ⋅ Berrak Sisman

[ OpenReview]

Abstract

Generative AI has been at the forefront of AI research in the most recent times. A large number of research works across different modalities (e.g., text, image and audio) have shown remarkable generation capabilities. Audio generation brings its own unique challenges and this workshop is aimed at highlighting these challenges and their solutions. It will bring together researchers working on different audio generation problems and enable a concentrated discussions on the topic. The workshop will include invited talks, high-quality papers presented through oral and poster sessions, and a panel discussion including experts in the area to further enhance the quality of discussion on audio generation research. A crucial part of audio generation research is its perceptual experience by humans. To enable this, \emph{we also propose to have an onsite demo session during the workshop where presenters can showcase their audio generation methods and technologies}, leading to a unique experience for all workshop participants.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

8:15 AM

Welcome and opening remarks

Video

8:30 AM

Alexis Conneau

Alexis CONNEAU

Video

9:00 AM

Joon Soon Chung

Joon Son Chung

Video

9:30 AM

Improving Musical Accompaniment Co-creation via Diffusion Transformers

Javier Nistal ⋅ Marco Pasini ⋅ Stefan Lattner

Video

9:45 AM

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Kai Wang ⋅ Shijian Deng ⋅ Jing Shi ⋅ Dimitrios Hatzinakos ⋅ Yapeng Tian

Video

10:00 AM

AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models

Jisheng Bai ⋅ Haohe Liu ⋅ Mou Wang ⋅ Dongyuan Shi ⋅ Wenwu Wang ⋅ Mark Plumbley ⋅ Woon-Seng Gan ⋅ Jianfeng Chen

Video

10:15 AM

Short Break

10:30 AM

VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment

Bing Han ⋅ Long Zhou ⋅ Shujie LIU ⋅ Sanyuan Chen ⋅ Lingwei Meng ⋅ Yanmin Qian ⋅ Eric Liu ⋅ sheng zhao ⋅ Jinyu Li ⋅ Furu Wei

Video

10:30 AM

Decoding Musical Perception: Music Stimuli Reconstruction from Brain Activity

Matteo Ciferri ⋅ Matteo Ferrante ⋅ Nicola Toschi

Video

10:30 AM

Neural Audio Codec for Latent Music Representations

Luca Lanzendörfer ⋅ Florian Grötschla ⋅ Amir Dellali ⋅ Roger Wattenhofer

Video

10:30 AM

Do music LLMs learn symbolic concepts? A pilot study using probing and intervention

Wenye Ma ⋅ Xinyue Li ⋅ Gus Xia

Video

10:30 AM

Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses

Suhita Ghosh ⋅ Frank Dreyer ⋅ Tim Thiele ⋅ Frederic Lorbeer ⋅ Sebastian Stober

Video

10:30 AM

Contextual Speech Emotion Recognition with Large Language Models and ASR-Based Transcriptions

Enshi Zhang ⋅ Christian Poellabauer

Video

10:30 AM

What do MLLMs hear? Examining the interaction between LLM and audio encoder components in Multimodal Large Language Models

Enis Çoban ⋅ Michael Mandel ⋅ Johanna Devaney

Video

10:30 AM

Articulatory Synthesis of Speech and Diverse Vocal Sounds via Optimization

Luke Mo ⋅ Manuel Cherep ⋅ Nikhil Singh ⋅ Quinn Langford ⋅ Patricia Maes

10:30 AM

Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM

Robin Shing-Hei Yuen ⋅ Timothy Tse ⋅ Jian Zhu

Video

10:30 AM

A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation

Alexander Liu ⋅ Qirui Wang ⋅ Yuan Gong ⋅ Jim Glass

Video

10:30 AM

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

Marco Pasini ⋅ Javier Nistal ⋅ Stefan Lattner ⋅ George Fazekas

Video

10:30 AM

One-shot Text-aligned Virtual Instrument Generation Utilizing Diffusion Transformer

Qihui Yang ⋅ Jiahe Lei ⋅ Qiuqiang Kong

10:30 AM

Three-modal guidance for symbolic music generation: melody, structure, texture

Daniel Lucht ⋅ David Leins ⋅ Dimitri von Rütte ⋅ Alexandra Moringen

10:30 AM

Parrot: Autoregressive Spoken Dialogue Language Modeling with Decoder-only Transformers

Ziqiao Meng ⋅ Qichao Wang ⋅ Wenqian Cui ⋅ Yifei Zhang ⋅ Bingzhe Wu ⋅ Irwin King ⋅ Liang Chen ⋅ Peilin Zhao

Video

10:30 AM

Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation

Junwon Lee ⋅ Modan Tailleur ⋅ Laurie Heller ⋅ Keunwoo Choi ⋅ Mathieu Lagrange ⋅ Brian McFee ⋅ Keisuke Imoto ⋅ Yuki Okamoto

Video

10:30 AM

High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching

Gael Le Lan ⋅ Bowen Shi ⋅ Zhaoheng Ni ⋅ Sidd Srinivasan ⋅ Anurag Kumar ⋅ Brian Ellis ⋅ David Kant ⋅ Varun Nagaraja ⋅ Ernie Chang ⋅ Wei-Ning Hsu ⋅ Yangyang Shi ⋅ Vikas Chandra

Video

10:30 AM

SNAC: Multi-Scale Neural Audio Codec

Hubert Siuzdak ⋅ Florian Grötschla ⋅ Luca Lanzendörfer

Video

10:30 AM

Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation

Chenxu Xiong ⋅ Ruibo Fu ⋅ Shuchen Shi ⋅ Zhengqi Wen ⋅ Tao Wang ⋅ Chenxing Li ⋅ Chunyu Qiang ⋅ Yuankun Xie ⋅ XinQi ⋅ Guanjun Li ⋅ Zizheng Yang

Video

10:30 AM

Latent Diffusion Model for Audio: Generation, Quality Enhancement, and Neural Audio Codec

Haohe Liu ⋅ Wenwu Wang ⋅ Mark Plumbley

Video

10:30 AM

3D Audio-Visual Segmentation

Artem Sokolov ⋅ Swapnil Bhosale ⋅ Xiatian Zhu

Video

10:30 AM

Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis

Kazuki Yamauchi ⋅ Wataru Nakata ⋅ Yuki Saito ⋅ Hiroshi Saruwatari

Video

10:30 AM

Efficient Generative Multimodal Integration (EGMI): Enabling Audio Generation from Text-Image Pairs through Alignment with Large Language Models

Taemin Kim ⋅ Wooyeol Baek ⋅ Heeseok Oh

Video

10:30 AM

MusicScore: A Dataset for Music Score Modeling and Generation

Yuheng Lin ⋅ Zheqi DAI ⋅ Qiuqiang Kong

10:30 AM

Improving Musical Accompaniment Co-creation via Diffusion Transformers

12:00 PM

Lunch Break

1:30 PM

LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking

Mayank Kumar Singh ⋅ Naoya Takahashi ⋅ Wei-Hsiang Liao ⋅ Yuki Mitsufuji

Video

1:45 PM

BLAP: Bootstrapping Language-Audio Pre-training for Music Captioning

Luca Lanzendörfer ⋅ Constantin Pinkl ⋅ Nathanael Perraudin ⋅ Roger Wattenhofer

Video

2:00 PM

Improving Source Extraction with Diffusion and Consistency Models

Tornike Karchkhadze ⋅ Mohammad Rasool Izadi ⋅ Shuo Zhang

Video

2:15 PM

Yao Xie

Yao Xie

Video

2:45 PM

Vikas Chandra

Vikas Chandra

Video

3:15 PM

Short Break

3:30 PM

Panel Discussion

Video

4:00 PM

Closing Remarks

Video

4:15 PM

Text-to-Audio Generation via Bridging Audio Language Model and Latent Diffusion

ZHENYU WANG ⋅ Chenxing Li ⋅ YONG XU ⋅ Chunlei Zhang ⋅ John H. L. Hansen ⋅ Dong Yu

Video

4:15 PM

Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization

Julius Richter ⋅ Timo Gerkmann

Video

4:15 PM

Contrastive Lyrics Alignment with a Timestamp-Informed Loss

Timon Kick ⋅ Florian Grötschla ⋅ Luca Lanzendörfer ⋅ Roger Wattenhofer

Video

4:15 PM

Generating Vocals from Lyrics and Musical Accompaniment

Georg Streich ⋅ Luca Lanzendörfer ⋅ Florian Grötschla ⋅ Roger Wattenhofer

Video

4:15 PM

Sound-VECaps: Improving Audio Generation With Visual Enhanced Captions

Yi Yuan ⋅ Dongya Jia ⋅ Xiaobin Zhuang ⋅ Yuanzhe Chen ⋅ Zhengxi Liu ⋅ Zhuo Chen ⋅ Wang Yuping ⋅ Yuxuan Wang ⋅ Xubo Liu ⋅ Xiyuan Kang ⋅ Mark Plumbley ⋅ Wenwu Wang

Video

4:15 PM

DGFM: Full Body Dance Generation Driven by Music Foundation Models

Xinran Liu ⋅ Zhenhua Feng ⋅ Diptesh Kanojia ⋅ Wenwu Wang

Video

4:15 PM

MLADDC: Multi-Lingual Audio Deepfake Detection Corpus

ARTH SHAH ⋅ Ravindrakumar M. Purohit ⋅ Dharmendra Vaghera ⋅ Hemant Patil

Video

4:15 PM

Multi-Source Music Generation with Latent Diffusion

Zhongweiyang Xu ⋅ Debottam Dutta ⋅ Yu-Lin Wei ⋅ Romit Roy Choudhury

Video

4:15 PM

Disentangling Multi-instrument Music Audio for Source-level Pitch and Timbre Manipulation

Yin-Jyun Luo ⋅ Kin Wai Cheuk ⋅ Woosung Choi ⋅ Wei-Hsiang Liao ⋅ Keisuke Toyama ⋅ Toshimitsu Uesaka ⋅ Koichi Saito ⋅ Chieh-Hsin Lai ⋅ Yuhta Takida ⋅ Simon Dixon ⋅ Yuki Mitsufuji

Video

4:15 PM

Spatially-Aware Losses for Enhanced Neural Acoustic Fields

Christopher Ick ⋅ Gordon Wichern ⋅ Yoshiki Masuyama ⋅ François Germain ⋅ Jonathan Le Roux

Video

4:15 PM

DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech

Jan Melechovsky ⋅ Ambuj Mehrish ⋅ Berrak Sisman ⋅ Dorien Herremans

Video

4:15 PM

Style Mixture of Experts for Expressive Text-To-Speech Synthesis

Ahad Jawaid ⋅ Shreeram Suresh Chandra ⋅ Junchen Lu ⋅ Berrak Sisman

Video

4:15 PM

Vision Language Models Are Few-Shot Audio Spectrogram Classifiers

Satvik Dixit ⋅ Laurie Heller ⋅ Chris Donahue

Video

4:15 PM

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Koichi Saito ⋅ Dongjun Kim ⋅ Takashi Shibuya ⋅ Chieh-Hsin Lai ⋅ Zhi Zhong ⋅ Yuhta Takida ⋅ Yuki Mitsufuji

Video

4:15 PM

FSD: Acoustic Echo Cancellation with Fewer Step Diffusion

Yang Liu ⋅ Li Wan ⋅ Yiteng Huang ⋅ Ming Sun ⋅ Changsheng Zhao ⋅ Zhaoheng Ni ⋅ Xinhao Mei ⋅ Yangyang Shi ⋅ Florian Metze

4:15 PM

Towards Temporally Synchronized Visually Indicated Sounds Through Scale-Adapted Positional Embeddings

Xinhao Mei ⋅ Gael Le Lan ⋅ Haohe Liu ⋅ Zhaoheng Ni ⋅ Varun Nagaraja ⋅ Anurag Kumar ⋅ Yangyang Shi ⋅ Vikas Chandra

4:15 PM

LoVA: Long-form Video-to-Audio Generation

Xin Cheng ⋅ Xihua Wang ⋅ Yihan Wu ⋅ Yuyue Wang ⋅ Ruihua Song

Video

4:15 PM

Coarse-to-Fine Text-to-Music Latent Diffusion

Luca Lanzendörfer ⋅ Tongyu Lu ⋅ Nathanael Perraudin ⋅ Dorien Herremans ⋅ Roger Wattenhofer

Video

4:15 PM

Benchmarking Music Generation Models and Metrics via Human Preference Studies

Ahmet Solak ⋅ Florian Grötschla ⋅ Luca Lanzendörfer ⋅ Roger Wattenhofer

Video

4:15 PM

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

4:15 PM

AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models

4:15 PM

LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking

4:15 PM

BLAP: Bootstrapping Language-Audio Pre-training for Music Captioning

4:15 PM

Improving Source Extraction with Diffusion and Consistency Models