uzskynet / gcache

Google Cache Dumper open source.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Google Cache Dumper v 3.0

Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.

Возможности:
 - Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
 - Задание интервала между запросами (в секундах)
 - Адресация запросов разным датацентрам
 - Поддержка работы через проки и чередование запросов между произвольным количеством прокси.

Требования:
 - Веб-сервер
 - PHP5 с поддержкой curl и allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
   ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!

Файлы:
index.php - сам дампер.
dc.txt - список датацентров google.
proxy.txt - список прокси.
   ЗАМЕЧАНИЕ: файл index.php можно переименовывать, но dc.txt и proxy.txt переименовывать нельзя, и они должны находиться в той же папке, что и index.php.
testproxy.php - простой скрипт для проверки работоспособности прокси, указанныйх в proxy.txt. 100% гарантии, конечно, не дает, но в большинстве случаев срабатывает исправно.

Прочая информация:
Результат парсинга во многом зависит от качества списка прокси, с которым вы работаете. Если в нем есть нерабочие прокси, то часть страниц может оказаться не скачанными или скачанными неправильно. Поэтому перед использованием список надлежит профильтровать от мусора. Кроме того, если прокси будут медленные, то и парсинг будет долгим, имейте это ввиду. Так же учтите, что тот список прокси, что идет вместе с программой тоже не вечен и вам скорее всего придется искать свой.

ВАЖНО!
Как список датацентров, так и список прокси-серверов могут со временем устаревать. Поэтому если у вас что-то не работает, в первую очередь проверяйте валидность этих списков, иначе вы рискуете ничего не спарсить.

Автор скрипта - Alek$, все вопросы и пожелания направляются на email aleks@aradmin.org.ru
http://nevkontakte.org.ru

About

Google Cache Dumper open source.

License:Do What The F*ck You Want To Public License