Не все мои входные файлы были 256 КБ, некоторые были 705 КБ, поэтому демультиплексор concat использовал первый файл, который был 705 КБ.
Я исправил это, исправив мои входные файлы, созданные:
ffmpeg -f lavfi -i aevalsrc=0:duration=2:sample_rate=16000 silence.wav
Ключом было добавление sample_rate в файл aevalsrc - эта часть была добавлена после помощи Mulvya.