Я хотел бы подвести итог решения:
ffmpeg -i IMG_%3d.jpg -vf zoompan=d=(A+B)/B:s=WxH:fps=1/B,framerate=25:interp_start=0:interp_end=255:scene=100 -c:v mpeg4 -maxrate 5M -q:v 2 out.mp4
где A - это длительность в секундах, показывающая, как долго показывается каждое изображение (без длительности перехода), B - продолжительность перехода в секундах, а WxH - размер выходного видео.