Сохранение элементов блога в формате PDF

847
Rook

Я знаю о FireShot, расширении Firefox, для сохранения целых страниц изображений. И я люблю это. Отличная идея и очень хорошая реализация.

Но, к сожалению, часто на таких сайтах у вас есть ссылки, которые теряются таким образом. Поэтому мне интересно, есть ли способ сохранить таким же образом целые посты в блоге, вики-посты, посты StackOverflow :), как PDF-файлы, чтобы ссылки также сохранялись?

1
я думаю, что это будет крепкий орешек :) +1 14 лет назад 0
@ Молли - ну, это не averageuser.com, не так ли? :-) Rook 14 лет назад 2
Расширение FireShot доступно только для Windows. Однако есть Screengrab, который работает и в других системах. Denilson Sá Maia 14 лет назад 0
(черт, нет ссылок на комментарии ...) Расширение FireShot доступно только для Windows. Тем не менее, есть расширение Screengrab, которое работает и в других системах. Denilson Sá Maia 14 лет назад 0
@Denilson Sa - это также сохраняет ссылки? Rook 14 лет назад 0

14 ответов на вопрос

3
caliban

Если цель состоит в том, чтобы сохранить весь контент и ссылки при минимальном влиянии на форматирование ... Я рекомендую Evernote .

Я знаю, что это не решение PDF ... но после 2 лет архивирования веб-страниц в PDF-файлах и изображениях и разочаровавшись в этом, я решил преобразовать свой инструмент для захвата веб-страниц в Evernote.

Дайте ему шанс, вам это может понравиться.

1
nik

Существует расширение Firefox, называемое PDF Download, которое сохранит страницу в PDF (или отправит ее вам по почте).

  • Он сохранил ссылки на эту страницу, когда я попробовал.
  • Но вы должны помнить, что страница будет сохранена как общедоступная выборка,
    которую инструмент делает онлайн (а не как вы вошли в систему).
  • Существует платная версия инструмента PDF Nitro (из того же места)
    , которая сохранит его прямо с вашего стола, и вы также должны получить эти недостающие части.
    Не пробовал, хотя.
  • Другой недостаток заключается в том,
    что бесплатное дополнение Firefox (по крайней мере) не обрабатывает границы страницы PDF должным образом,
    вы можете потерять строку текста там ...
  • У инструмента Nitro есть 14-дневная бесплатная пробная версия, если вы хотите попробовать это
1
AffineMesh

HTML-to-PDF - это бесплатный инструмент Windows для пакетного преобразования веб-страниц в PDF-документ. Он поддерживает интерактивные ссылки, страницы, содержащие JavaScript, живые формы и встраивание шрифтов.

Смотрите: http://sourceforge.net/projects/html-to-pdf/

0
William Hilsum

Я знаю, что вы, вероятно, ищете смарт-все в одном решении, и в этом случае кто-то другой может иметь лучший ответ.

Лично я считаю, что использование Bullzip PDF Printer работает довольно хорошо. Он в основном обладает способностью выступать в качестве принтера, и все, что может пойти на бумагу, вместо этого.

Многие страницы имеют альтернативный CSS для печати и выглядят довольно неплохо. Для остальных я делаю скриншот, использую краску и печать (не элегантно, но работает!)

Но все равно не сохранит ссылки. Andrew Moore 14 лет назад 1
... "что он сказал" :) Rook 14 лет назад 0
Это научит меня читать скины :( извините ... Официальный Acrobat имеет возможность конвертировать веб-страницы, он сохраняет ссылки, но реальный отображаемый PDF не так уж и хорош. William Hilsum 14 лет назад 1
0

Я думал о печати PDF сам, но это не совсем работает, ссылки потеряны.

в этом случае я копирую / вставляю весь сайт в текстовый процессор и сохраняю документ, который хорошо работает для ссылок, но не для оригинального макета страницы.

да уж. Обычно я сохраняю страницу как изображение, а затем извлекаю ссылки из интересующего меня текста, но проблема этого подхода в том, что 1. это большая работа, и я обычно не люблю ее делать. 2. Я всегда пропускаю одну или две ссылки и обнаруживаю это слишком поздно. Rook 14 лет назад 0
0
greyDrifter

Ответить на ваш вопрос касательно. В то время как PDF может обрабатывать ссылки, сохранение страницы в виде HTML ближе к оригиналу и меньше ухудшает качество. В большинстве браузеров есть базовый тег, который удобен для цитирования источников (и обязательно, если они использовали неполные URL).

<base href="..." /> 

Поскольку я уже отклонился от PDF ... Если вы используете браузер Opera, вы можете просмотреть исходный код, удалить префикс мусора и суффикс нужного содержимого. И применить изменения локально для предварительного просмотра перед сохранением. Без мусора я получаю меньше ложных срабатываний при поиске. (В Firefox должно быть что-то похожее.)

Они говорят, что то, что происходит в Интернете, существует всегда ... Попробуйте посетить сайт десятилетия назад ...

Это правда, но только для «нормальных» страниц. Например, для википедии сохранение страницы в виде html бесполезно в плане компоновки. То же самое касается многих блогов. Вы получаете контент, но в таком макете, что вам больше не хочется его читать :) Что касается последнего комментария, www.archive.org может быть веселым :) Rook 14 лет назад 0
0
dlamblin

Вы пробовали дополнение LOOP ? Предполагается конвертировать URL (и документы) в PDF.

та же проблема, ссылки не сохранились. это в основном онлайн-принтер и издатель PDF. 14 лет назад 0
0
Chintan

посмотрите на зинепал . это больше подходит для подписок RSS, но может принимать любой контент из Интернета.

0
RBerteig

Возможно, вы захотите взглянуть на wkhtmltopdf . Это конвертер HTML в PDF, основанный на движке HTML webkit, который лежит в основе Safari и большинства других приложений OS X, отображающих HTML, а также браузер Google Chrome среди других приложений. Он создан для использования в командной строке и должен быть достаточно легким для настройки и перекомпиляции, учитывая возможность создания приложений на основе инфраструктуры Qt.

Я не помню, что именно он делает со ссылками на странице, но он неплохо справляется с преобразованием текста, включая форматирование CSS, в довольно красивый PDF.

И это бесплатно ...

Изменить: Кроме того, полная копия Acrobat имеет эту способность, по крайней мере, с Acrobat 3 или 4 (т.е. долгое время). Тем не менее, вы должны купить полный Acrobat, потому что Reader не имеет этой функции. Поддерживаются два режима конвертации: автоматический и специальный. Автоматический режим просматривает предоставленный URL-адрес и извлекает из него все, что он может получить. Поскольку это может легко включать извлечение всей сети, у нее есть контроль над количеством прыжков, которые можно удалить с исходной страницы. В режиме ad-hoc вы можете переходить от страницы к странице, и, нажимая на ссылки, она получает страницу, добавляет ее в растущий документ PDF и перезаписывает ссылки, чтобы ссылаться на файл PDF вместо Интернета.

Создание Acrobat в формате PDF, как правило, является лучшим показом, за исключением этого случая. Это действительно не обрабатывает достаточно спецификации CSS, чтобы заставить вещи работать правильно. Я часто добивался лучших результатов, устанавливая макет страницы в альбомной ориентации, но даже тогда он был неуклюжим.

Редактировать 2: я удалил Opera из списка пользователей webkit и добавил ссылку на страницу проекта webkit. Спасибо Дэну Уокеру за исправление.

К вашему сведению, Opera использует собственный движок рендеринга. Dan Walker 14 лет назад 0
0
acripps

Website2pdf выглядит так, как будто это делает это (по крайней мере, для меня), но не бесплатно, но тогда это не было указано в вопросе :)