Бан и борьба с ним

Обсуждаем сервисы Google Maps и Google Earth™

Модераторы: Tolik, zed

Re: Бан и борьба с ним

Сообщение Tolik » 23 мар 2011, 11:10

fishman писал(а):Ну вот! Яндекс, оказывается, тоже банит!
Раньше я этого не замечал. Пауза стоит 0, не считал количество скачанных тайлов, но не очень много.
Через час после бана позволяет качать дальше, потом опять "стоп"...

Говорят, помогает смена IP после бана.
Tolik
Гуру
 
Сообщения: 1624
Зарегистрирован: 28 янв 2011, 10:38
Благодарил (а): 68 раз.
Поблагодарили: 242 раз.

Re: Бан и борьба с ним

Сообщение fishman » 23 мар 2011, 17:48

Tolik писал(а):Говорят, помогает смена IP после бана.


У меня статический...
fishman
Новичок
 
Сообщения: 8
Зарегистрирован: 15 мар 2010, 17:32
Благодарил (а): 1 раз.
Поблагодарили: 0 раз.

Re: Бан и борьба с ним

Сообщение DJ VK » 25 мар 2011, 22:12

Чтобы сменить IP нужно прописать прокси в программе. То есть качать не напрямую а через подставной сайт.

Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)


Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику. На примере телепорта я делю так. Вмето адресов тайлов я создаю htm с соответственным количеством ссылок a href , из списка url его можно получить простой заменой и дописыванием шапки в текстовом редакторе, если уж совсем некогда. (когда есть время генрю программой).
Код: Выделить всё
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> htmllistgen </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<BODY>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100101&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100102&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100103&Bx=on">Link</a>
...
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20110316&Bx=on">Link</a>
</BODY>
</HTML>


Далее заливаю на хостинг. некстмейл очень хорошо подходит. В телепорте указываю глубину ссылок общую 1, но не более 0 от ссылок на чужие домены. В результате скачивается залитый на хостинг файл и все прописанные в нем url. Осталось скриптом их переместить.
при количестве тайлов более 60к лучше взять телепорт ВэЭлИкс или разбить список на части.
Аватара пользователя
DJ VK
Специалист
 
Сообщения: 821
Зарегистрирован: 16 апр 2009, 13:57
Благодарил (а): 51 раз.
Поблагодарили: 80 раз.

Re: Бан и борьба с ним

Сообщение Parasite » 25 мар 2011, 22:23

DJ VK писал(а):
Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)

Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику.

И все бы хорошо, но опять же с тем же гуглом это не пройдет (ибо там добывать куку надо несколько извращенным способом, не через стандартные SET_COOKIE кои теоретически может поддерживать качалка).
Другими словами, гугль вскоре забанит телепорта ровно с тем же успехом если тот куку не отдаст - а он ее не отдаст, потому что не знает. Механизмов же обучения телепорта какой-то дополнительной логике (скрипты, плагины итд) - в нем нет, увы.

PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.
The only difference between me and a mad man is that I am not mad. /Salvador Dali/
Аватара пользователя
Parasite
Администратор
 
Сообщения: 4532
ICQ: 15819243
Зарегистрирован: 23 окт 2008, 17:38
Благодарил (а): 57 раз.
Поблагодарили: 214 раз.

Re: Бан и борьба с ним

Сообщение DJ VK » 26 мар 2011, 21:08

Parasite писал(а):PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.

Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.
расскажи подробнее насчет куксей от гугля. в личку. попробую в своих экспериментах с качалкой если реализуемо на с++\дельфи.
Аватара пользователя
DJ VK
Специалист
 
Сообщения: 821
Зарегистрирован: 16 апр 2009, 13:57
Благодарил (а): 51 раз.
Поблагодарили: 80 раз.

Re: Бан и борьба с ним

Сообщение Parasite » 26 мар 2011, 21:35

DJ VK писал(а):Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.

Это как раз много проще, чем генерить самостоятельно все возможные варианты ссылок на все возможные серверы. Проксик получается один на все возможные карты (включая еще невыпущенные).
Сас умеет генерить урлы на основании ЗМП? Ну так и пусть генерит, и нечего дублировать этот функционал - наша задача лишь взять готовые результаты вот буквально парой строчек доп.кодинга.
Принцип KISS, коллега. Или ты предлагаешь написать хотелку и нудно ждать года так до 2015го? Так работа-то не ждет...:roll:
The only difference between me and a mad man is that I am not mad. /Salvador Dali/
Аватара пользователя
Parasite
Администратор
 
Сообщения: 4532
ICQ: 15819243
Зарегистрирован: 23 окт 2008, 17:38
Благодарил (а): 57 раз.
Поблагодарили: 214 раз.

Re: Бан и борьба с ним

Сообщение AlexKan » 01 июл 2011, 21:13

Нельзя ли сделать для начала просто и надёжно?
Добавить в параметрах количество запрашиваемых файлов за один период и время паузы между периодами.
Установил 2000 запрашиваемых файлов, время паузы 1 минута и можно ложиться спать.
Сейчас приходится это делать вручную, чтобы не забанили.
AlexKan
Новичок
 
Сообщения: 2
Зарегистрирован: 01 июл 2011, 20:04
Благодарил (а): 0 раз.
Поблагодарили: 0 раз.

Пред.

Вернуться в Google Maps + Google Earth™

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9

cron