По умолчанию pdftotext
выводит данные Unicode (UTF-8). Если ваш терминал или текстовый редактор не поддерживает UTF-8, то, как вы заметили, лигатуры, такие как «fi» и «fl» (которые могут быть представлены в Unicode как один символ), будут выглядеть странно.
Простое решение заключается в том, чтобы указать pdftotext
вывод ASCII вместо юникода:
pdftotext -enc ASCII7 input.pdf output.txt
Это должно привести к чистому выводу ASCII, избавляя вас от необходимости впоследствии очищать его вручную.