default search action

combined dblp search
author search
venue search
publication search

ask others

Jason Li 0007

> Home > Persons

Person information

affiliation: NVIDIA, Santa Clara, CA, USA

Other persons with the same name

see FAQ

Refine list

refinements active!

zoomed in on ?? of ?? records

view refined list in

export refined list as

showing all ?? records

2020 – today

see FAQ

What is the meaning of the colors in the publication lists?

2025
[c13]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/emnlp/HussainNYCGFDVL25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/emnlp/HussainNYCGFDVL25
Shehzeen Samarah Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Roy Fejgin, Mikyas T. Desta, Rafael Valle, Jason Li:
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance. EMNLP 2025: 21219-21234
[c12]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/BataevGLL25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/BataevGLL25
Vladimir Bataev, Subhankar Ghosh, Vitaly Lavrukhin, Jason Li:
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer. ICASSP 2025: 1-5
[c11]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/CasanovaLNHLGJL25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/CasanovaLNHLGJL25
Edresson Casanova, Ryan Langman, Paarth Neekhara, Shehzeen Hussain, Jason Li, Subhankar Ghosh, Ante Jukic, Sang-gil Lee:
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference. ICASSP 2025: 1-5
[c10]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/interspeech/CasanovaNLHGYJL25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/interspeech/CasanovaNLHGYJL25
Edresson Casanova, Paarth Neekhara, Ryan Langman, Shehzeen Hussain, Subhankar Ghosh, Xuesong Yang, Ante Jukic, Jason Li, Boris Ginsburg:
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference. INTERSPEECH 2025
[c9]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/interspeech/HuHCCGZCLBG25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/interspeech/HuHCCGZCLBG25
Ke Hu, Ehsan Hosseini-Asl, Chen Chen, Edresson Casanova, Subhankar Ghosh, Piotr Zelasko, Zhehuai Chen, Jason Li, Jagadeesh Balam, Boris Ginsburg:
Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model. INTERSPEECH 2025
[c8]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/interspeech/LangmanYNHCBL25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/interspeech/LangmanYNHCBL25
Ryan Langman, Xuesong Yang, Paarth Neekhara, Shehzeen Hussain, Edresson Casanova, Evelina Bakhturina, Jason Li:
HiFiTTS-2: A Large-Scale High Bandwidth Speech Dataset. INTERSPEECH 2025
[i16]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2501-06320
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2501-06320
Vladimir Bataev, Subhankar Ghosh, Vitaly Lavrukhin, Jason Li:
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer. CoRR abs/2501.06320 (2025)
[i15]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2502-05236
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2502-05236
Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li:
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance. CoRR abs/2502.05236 (2025)
[i14]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2505-15670
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2505-15670
Ke Hu, Ehsan Hosseini-Asl, Chen Chen, Edresson Casanova, Subhankar Ghosh, Piotr Zelasko, Zhehuai Chen, Jason Li, Jagadeesh Balam, Boris Ginsburg:
Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model. CoRR abs/2505.15670 (2025)
[i13]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2508-05835
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2508-05835
Edresson Casanova, Paarth Neekhara, Ryan Langman, Shehzeen Hussain, Subhankar Ghosh, Xuesong Yang, Ante Jukic, Jason Li, Boris Ginsburg:
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference. CoRR abs/2508.05835 (2025)
[i12]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2509-19592
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2509-19592
Roy Fejgin, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Ryan Langman Jaehyeon Kim, Subhankar Ghosh, Shehzeen Hussain, Jason Li:
Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation. CoRR abs/2509.19592 (2025)
[i11]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2509-21718
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2509-21718
Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Roy Fejgin, Ryan Langman, Mikyas T. Desta, Leili Tavabi, Jason Li:
Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization. CoRR abs/2509.21718 (2025)
2024
[c7]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/ChenHAHPLGBG24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/ChenHAHPLGBG24
Zhehuai Chen, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, Boris Ginsburg:
SALM: Speech-Augmented Language Model with in-Context Learning for Speech Recognition and Translation. ICASSP 2024: 13521-13525
[c6]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/interspeech/NeekharaHGLG24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/interspeech/NeekharaHGLG24
Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Boris Ginsburg:
Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment. INTERSPEECH 2024
[i10]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2406-17957
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2406-17957
Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Rafael Valle, Rohan Badlani, Boris Ginsburg:
Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment. CoRR abs/2406.17957 (2024)
[i9]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2409-12117
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2409-12117
Edresson Casanova, Ryan Langman, Paarth Neekhara, Shehzeen Hussain, Jason Li, Subhankar Ghosh, Ante Jukic, Sang-gil Lee:
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference. CoRR abs/2409.12117 (2024)
2023
[c5]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/HussainNHLG23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/HussainNHLG23
Shehzeen Hussain, Paarth Neekhara, Jocelyn Huang, Jason Li, Boris Ginsburg:
ACE-VC: Adaptive and Controllable Voice Conversion Using Explicitly Disentangled Self-Supervised Speech Representations. ICASSP 2023: 1-5
[i8]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2302-08137
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2302-08137
Shehzeen Hussain, Paarth Neekhara, Jocelyn Huang, Jason Li, Boris Ginsburg:
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations. CoRR abs/2302.08137 (2023)
[i7]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-09424
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-09424
Zhehuai Chen, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, Boris Ginsburg:
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation. CoRR abs/2310.09424 (2023)
2021
[c4]
- view
  authority control:
- export record
  dblp key:
  - conf/icmcs/LuoWCX0KOBDFGHK21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icmcs/LuoWCX0KOBDFGHK21
Jian Luo, Jianzong Wang, Ning Cheng, Edward Xiao, Jing Xiao, Georg Kucsko, Patrick K. O'Neill, Jagadeesh Balam, Slyne Deng, Adriana Flores, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Jason Li:
Cross-Language Transfer Learning and Domain Adaptation for End-to-End Automatic Speech Recognition. ICME 2021: 1-6
[i6]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2110-05798
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2110-05798
Paarth Neekhara, Jason Li, Boris Ginsburg:
Adapting TTS models For New Speakers using Transfer Learning. CoRR abs/2110.05798 (2021)
2020
[c3]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/KrimanBGHKLLLZ20
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/KrimanBGHKLLLZ20
Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang:
Quartznet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions. ICASSP 2020: 6124-6128
[c2]
- view
  authority control:
- export record
  dblp key:
  - conf/icassp/ValleLPC20
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icassp/ValleLPC20
Rafael Valle, Jason Li, Ryan Prenger, Bryan Catanzaro:
Mellotron: Multispeaker Expressive Voice Synthesis by Conditioning on Rhythm, Pitch and Global Style Tokens. ICASSP 2020: 6189-6193

2010 – 2019

see FAQ

What is the meaning of the colors in the publication lists?

2019
[c1]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/interspeech/LiLGLKCNG19
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/interspeech/LiLGLKCNG19
Jason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev, Jonathan M. Cohen, Huyen Nguyen, Ravi Teja Gadde:
Jasper: An End-to-End Convolutional Neural Acoustic Model. INTERSPEECH 2019: 71-75
[i5]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1904-03288
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1904-03288
Jason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev, Jonathan M. Cohen, Huyen Nguyen, Ravi Teja Gadde:
Jasper: An End-to-End Convolutional Neural Acoustic Model. CoRR abs/1904.03288 (2019)
[i4]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1905-11286
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1905-11286
Boris Ginsburg, Patrice Castonguay, Oleksii Hrinchuk, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Huyen Nguyen, Jonathan M. Cohen:
Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks. CoRR abs/1905.11286 (2019)
[i3]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1909-09577
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1909-09577
Oleksii Kuchaiev, Jason Li, Huyen Nguyen, Oleksii Hrinchuk, Ryan Leary, Boris Ginsburg, Samuel Kriman, Stanislav Beliaev, Vitaly Lavrukhin, Jack Cook, Patrice Castonguay, Mariya Popova, Jocelyn Huang, Jonathan M. Cohen:
NeMo: a toolkit for building AI applications using Neural Modules. CoRR abs/1909.09577 (2019)
[i2]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1910-11997
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1910-11997
Rafael Valle, Jason Li, Ryan Prenger, Bryan Catanzaro:
Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens. CoRR abs/1910.11997 (2019)
2018
[i1]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1811-00707
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1811-00707
Jason Li, Ravi Gadde, Boris Ginsburg, Vitaly Lavrukhin:
Training Neural Speech Recognition Systems with Synthetic Speech Augmentation. CoRR abs/1811.00707 (2018)

Coauthor Index

see FAQ

manage site settings

To protect your privacy, all features that rely on external API calls from your browser are turned off by default. You need to opt-in for them to become active. All settings here will be stored as cookies with your web browser. For more information see our F.A.Q.