LJSave.com состоит из трех частей:
Нужен, чтобы скачать блог с livejournal.com вместе с раскрытыми комментариями.
Лежит в папке /scraper/
.
Представляет собой ruby-скрипты, которые запускают браузер Chrome при помощи Selenium и скачивают посты с livejournal.com.
Во время парсинга из страниц вырезаются лишние скрипты, формы логина и т.д.
После этого при помощи wget скачиваются все нужные для отображения файлы - картинки, стили и т.д.
Затем мы строим файл json, в котором перечислены скачанные нами посты и информация о них - название, дата, кол-во комментариев.
Теперь локальная копия блога ЖЖ готова. Чтобы ее отобразить, используется вторая часть:
Сайт берет локальные копии ЖЖ-постов из /public/lj
и показывает посетителям.
Для удобства мы:
- Добавляем нужные нам скрипты, стили и мета-теги
- Добавляем navigation bar вверху страницы
- Заменяем некоторые ссылки на локальные
Данные из /public/lj/
мы храним в отдельном репозитории https://github.com/mgz/ljsave.com-data
Их нужно положить в папку /public/lj/
USE_CACHE=1 DEBUG_LOG=0 brake scraper:download username=USER