Я думаю, что у меня есть или, по крайней мере, довольно близко. Мне все еще нужно выяснить, как управлять длительностью, но флаг -shortest кодирует ее с наименьшей продолжительностью, что на самом деле и нужно в этом случае.
ffmpeg -i video.mov -i audio1.wav -i audio2.wav -filter_complex "[1:a][2:a]amerge=inputs=2,pan=stereo|c0<c0+c1|c1<c2+c3[aout]" -map 0:v -map "[aout]" -shortest output.mp3