Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте lynx -dump http://superuser.com/
, например.
Вы также можете использовать wget
для рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy .