Publications

2026

arXiv 2026

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Chi-Pin Huang, Yunze Man, Zhiding Yu , Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, and Fu-En Yang

arXiv preprint arXiv:2601.09708, 2026

[arXiv] [Website]
WACV 2026

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, and Yu-Chiang Frank Wang

In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2026

[arXiv] [Website]
WACV 2026

TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors

Wei-Yuan Cheng, Kai-Po Chang, Chi-Pin Huang, Fu-En Yang, and Yu-Chiang Frank Wang

In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2026

[arXiv]

2025

NeurIPS 2025

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Chi-Pin Huang , Yueh-Hua Wu , Min-Hung Chen, Yu-Chiang Frank Wang, and Fu-En Yang

Advances in Neural Information Processing systems (NeurIPS), 2025

[arXiv] [PDF] [Website]
ICCV 2025

Continual Personalization for Diffusion Models

Yu-Chien Liao, Jr-Jen Chen, Chi-Pin Huang, Ci-Siang Lin , Meng-Lin Wu, and Yu-Chiang Frank Wang

In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2025

[arXiv]
ICCVW 2025

MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching

Yen-Siang Wu, Chi-Pin Huang, Fu-En Yang, and Yu-Chiang Frank Wang

ICCV 2025 Workshop on P13N: Personalization in Generative AI, 2025

[arXiv] [Code] [Website]
CVPR 2025

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Chi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung, Kai-Po Chang, Fu-En Yang, and Yu-Chiang Frank Wang

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025

[arXiv] [PDF] [Website]

2024

ECCV 2024

Receler: Reliable concept erasing of text-to-image diffusion models via lightweight erasers

Chi-Pin Huang, Kai-Po Chang, Chung-Ting Tsai, Yung-Hsuan Lai, Fu-En Yang, and Yu-Chiang Frank Wang

In European Conference on Computer Vision (ECCV), 2024

[arXiv] [PDF] [Code] [Website]
ECCV 2024

Select and distill: Selective dual-teacher knowledge transfer for continual learning on vision-language models

Yu-Chu Yu, Chi-Pin Huang, Jr-Jen Chen, Kai-Po Chang, Yung-Hsuan Lai, Fu-En Yang, and Yu-Chiang Frank Wang

In European Conference on Computer Vision (ECCV), 2024

[arXiv] [PDF] [Code] [Website]
ICLR 2024

Rapper: Reinforced rationale-prompted paradigm for natural language explanation in visual question answering

Kai-Po Chang, Chi-Pin Huang, Wei-Yuan Cheng, Fu-En Yang , Chien-Yi Wang, Yung-Hsuan Lai, and Yu-Chiang Frank Wang

In The Twelfth International Conference on Learning Representations (ICLR), 2024

[PDF]