Вы можете использовать фильтр concat :
ffmpeg -i 01.jpg -i 01.wav -i 02.jpg -i 02.wav -i 03.jpg -i 03.wav -filter_complex "[0][1][2][3][4][5]concat=n=3:v=1:a=1[vv][a];[vv]format=yuv420p[v]" -map "[v]" -map "[a]" output.mp4
Это предполагает, что все входы имеют одинаковую ширину, высоту, частоту дискретизации звука, количество аудиоканалов и т. Д. Если нет, вы можете добавить больше цепочек фильтров перед использованием concat.