Min Zhao's Homepage

Min Zhao（赵敏）

Assistant Professor

School of Artificial Intelligence, Nanjing University

Email: gracezhao1997@gmail.com

[Google Scholar] [Github] [Xiaohongshu]

MIN-Lab — Multimodal Intelligence Lab

I am an Assistant Professor at the School of Artificial Intelligence, Nanjing University. Previously, I was a postdoctoral researcher at the TSAIL Group, Department of Computer Science and Technology, Tsinghua University, working under the supervision of Prof. Jun Zhu. I received my Ph.D. degree from the Institute of Automation, Chinese Academy of Sciences in 2024. From 2022 to 2024, I was a visiting student at the TSAIL Group, Tsinghua University, where I worked closely with Prof. Jun Zhu, Prof. Chongxuan Li, and Dr. Fan Bao.

My current research interests focus on video world models — real-time, interactive, and physics-aware generative video systems. Along this line, I developed the Causal Forcing series (Causal Forcing, Causal Forcing++), which enables autoregressive diffusion distillation to be performed properly, and led minWM, the first full-stack open-source framework for real-time interactive video world models. I also curate Awesome Video World Models with AR Diffusion, a community repository that systematizes recent advances and emerging paradigms in this direction. I am actively recruiting prospective PhD students, master's students, and research interns who are passionate about generative models and video world models. I am also open to academic and industrial collaborations on real-time, physics-aware video world models. Please feel free to reach out.

Selected Publications Full Publications

Video World Models

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

Min Zhao*, Hongzhou Zhu*, Bokai Yan*, Zihan Zhou*, Yimin Chen*, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu

Technical Report, 2026

the first full-stack open-source video world model framework
[Paper] [Code]
Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Hongzhou Zhu*, Min Zhao*, Guande He, Chongxuan Li, Jun Zhu

International Conference on Machine Learning (ICML), 2026
[Paper] [Code] [Website]
Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

Min Zhao*, Hongzhou Zhu*, Kaiwen Zheng, Zihan Zhou, Bokai Yan, Xinyuan Li, Xiao Yang, Chongxuan Li, Jun Zhu

Technical Report, 2026
[Paper] [Code]
Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models

Fan Bao, Chendong Xiang*, Gang Yue*, Guande He*, Hongzhou Zhu*, Kaiwen Zheng*, Min Zhao*, Shilong Liu*, Jun Zhu

Technical Report, 2024

the first large-scale text-to-video foundation models comparable to Sora
[Tech Report] [Try Vidu]

Long Video and High-Resolution Image Generation

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

International Conference on Machine Learning (ICML), 2025
[Paper] [Code] [Website]
UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

International Conference on Learning Representations (ICLR), 2026
[Paper] [Code] [Website]
UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

Min Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu

Preprint, 2026
[Paper] [Code] [Website]

Controllable generation

EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations

Min Zhao, Fan Bao, Chongxuan Li, Jun Zhu

Advances in Neural Information Processing Systems (NeurIPS), 2022
[Paper] [Code] [Talk]
Identifying and Solving Conditional Image Leakage in Image-to-Video Generation

Min Zhao, Hongzhou Zhu, Chendong Xiang, Kaiwen Zheng, Chongxuan Li, Jun Zhu

Advances in Neural Information Processing Systems (NeurIPS), 2024
[Paper] [Code] [Website]
Controlvideo: Adding conditional control for one shot text-to-video editing

Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu

Science China Information Sciences, 2024
[Paper] [Code] [Website] [Zhihu]

Preprint

Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models

Fan Bao, Chendong Xiang*, Gang Yue*, Guande He*, Hongzhou Zhu*, Kaiwen Zheng*, Min Zhao*, Shilong Liu*, Yaole Wang*, Jun Zhu

Technical Report, 2024

the first large-scale text-to-video foundation models comparable to Sora
[Tech Report] [Try Vidu]
Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Hongzhou Zhu*, Min Zhao*, Guande He, Chongxuan Li, Jun Zhu

International Conference on Machine Learning (ICML), 2026
[Paper] [Code] [Website]
UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

Min Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu

Preprint, 2025
[Paper] [Website] [Code]

2025

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

International Conference on Learning Representations (ICLR), 2026
[Paper] [Website] [Code]
SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse–Linear Attention

Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen

International Conference on Learning Representations (ICLR), 2026
[Paper] [Code]
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

International Conference on Machine Learning (ICML), 2025
[Paper] [Website] [Code]
FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis

Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li

Annual Conference on Neural Information Processing Systems (NeurIPS), 2025
[Paper] [Website] [Code]

2024

Identifying and Solving Conditional Image Leakage in Image-to-Video Generation

Min Zhao, Hongzhou Zhu, Chendong Xiang, Kaiwen Zheng, Chongxuan Li, Jun Zhu

Annual Conference on Neural Information Processing Systems (NeurIPS), 2024
[Paper] [Website] [Code]
PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Poses

Yong Zhong*, Min Zhao*, Zebin You, Xiaofeng Yu, Changwang Zhang, Chongxuan Li

European Conference on Computer Vision (ECCV), 2024
[Paper] [Website]
Controlvideo: Adding conditional control for one shot text-to-video editing

Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu

Science China Information Sciences (SCIS), 2024
[Paper] [Code] [Website] [Zhihu]
A Cross-Feature Mutual Learning Framework to Integrate Functional Connectivity and Activity for Brain Disorder Classification

Min Zhao, Rongtao Xu, Dongmei Zhi, Shan Yu, Vince D. Calhoun, Jing Sui

IEEE Engineering in Medicine and Biology Society (EMBC), 2024

Oral
[Paper]

2023

Equivariant Energy-Guided SDE for Inverse Molecular Design

Fan Bao*, Min Zhao*, Zhongkai Hao, Peiyao Li, Chongxuan Li, Jun Zhu

International Conference on Learning Representations (ICLR), 2023
[Paper] [Code]

2022

EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations

Min Zhao, Fan Bao, Chongxuan Li, Jun Zhu

Annual Conference on Neural Information Processing Systems (NeurIPS), 2022
[Paper] [Code] [Talk]
An attention-based hybrid deep learning framework integrating brain connectivity and activity of resting-state functional MRI data

Min Zhao, Weizheng Yan, Na Luo, Dongmei Zhi, Zening Fu, Yuhui Du, Shan Yu, Tianzi Jiang, Vince D. Calhoun, Jing Sui

Medical Image Analysis (MIA), 2022
[Paper]

2021

Mapping relationships among schizophrenia, bipolar and schizoaffective disorders: A deep classification and clustering framework using fMRI time series

Weizheng Yan*, Min Zhao*, Godfrey D. Pearlson, Jing Sui, Vince D. Calhoun

Schizophrenia Research, 2021
[Paper]
An attention-based hybrid deep learning framework integrating temporal coherence and dynamics for discriminating schizophrenia

Min Zhao, Weizheng Yan, Rongtao Xu, Dongmei Zhi, Rongtao Jiang, Tianzi Jiang, Vince D. Calhoun, Jing Sui

IEEE International Symposium on Biomedical Imaging (ISBI), 2021

Best Student Paper Nomination
[Paper]

Min Zhao（赵敏）

Selected Publications Full Publications

Mentored Students

Selected Awards