SASGIS

Веб-картография и навигация

Бан и борьба с ним

Обсуждаем сервисы Google Maps и Google Earth™

Модератор: Tolik

Re: Бан и борьба с ним

Сообщение Tolik » 23 мар 2011, 11:10

fishman писал(а):Ну вот! Яндекс, оказывается, тоже банит!
Раньше я этого не замечал. Пауза стоит 0, не считал количество скачанных тайлов, но не очень много.
Через час после бана позволяет качать дальше, потом опять "стоп"...

Говорят, помогает смена IP после бана.
Tolik
Гуру
 
Сообщения: 2603
Зарегистрирован: 28 янв 2011, 10:38
Благодарил (а): 278 раз.
Поблагодарили: 515 раз.

Re: Бан и борьба с ним

Сообщение fishman » 23 мар 2011, 17:48

Tolik писал(а):Говорят, помогает смена IP после бана.


У меня статический...
fishman
Новичок
 
Сообщения: 8
Зарегистрирован: 15 мар 2010, 17:32
Благодарил (а): 1 раз.
Поблагодарили: 0 раз.

Re: Бан и борьба с ним

Сообщение DJ VK » 25 мар 2011, 22:12

Чтобы сменить IP нужно прописать прокси в программе. То есть качать не напрямую а через подставной сайт.

Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)


Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику. На примере телепорта я делю так. Вмето адресов тайлов я создаю htm с соответственным количеством ссылок a href , из списка url его можно получить простой заменой и дописыванием шапки в текстовом редакторе, если уж совсем некогда. (когда есть время генрю программой).
Код: Выделить всё
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> htmllistgen </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<BODY>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100101&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100102&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100103&Bx=on">Link</a>
...
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20110316&Bx=on">Link</a>
</BODY>
</HTML>


Далее заливаю на хостинг. некстмейл очень хорошо подходит. В телепорте указываю глубину ссылок общую 1, но не более 0 от ссылок на чужие домены. В результате скачивается залитый на хостинг файл и все прописанные в нем url. Осталось скриптом их переместить.
при количестве тайлов более 60к лучше взять телепорт ВэЭлИкс или разбить список на части.
Аватара пользователя
DJ VK
Гуру
 
Сообщения: 1468
Зарегистрирован: 16 апр 2009, 13:57
Откуда: 8 км. от МКАД
Благодарил (а): 82 раз.
Поблагодарили: 300 раз.

Re: Бан и борьба с ним

Сообщение Parasite » 25 мар 2011, 22:23

DJ VK писал(а):
Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)

Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику.

И все бы хорошо, но опять же с тем же гуглом это не пройдет (ибо там добывать куку надо несколько извращенным способом, не через стандартные SET_COOKIE кои теоретически может поддерживать качалка).
Другими словами, гугль вскоре забанит телепорта ровно с тем же успехом если тот куку не отдаст - а он ее не отдаст, потому что не знает. Механизмов же обучения телепорта какой-то дополнительной логике (скрипты, плагины итд) - в нем нет, увы.

PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.
The only difference between me and a mad man is that I am not mad. /Salvador Dali/
Изображение
Аватара пользователя
Parasite
Администратор
 
Сообщения: 5646
Зарегистрирован: 23 окт 2008, 17:38
Благодарил (а): 124 раз.
Поблагодарили: 460 раз.

Re: Бан и борьба с ним

Сообщение DJ VK » 26 мар 2011, 21:08

Parasite писал(а):PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.

Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.
расскажи подробнее насчет куксей от гугля. в личку. попробую в своих экспериментах с качалкой если реализуемо на с++\дельфи.
Аватара пользователя
DJ VK
Гуру
 
Сообщения: 1468
Зарегистрирован: 16 апр 2009, 13:57
Откуда: 8 км. от МКАД
Благодарил (а): 82 раз.
Поблагодарили: 300 раз.

Re: Бан и борьба с ним

Сообщение Parasite » 26 мар 2011, 21:35

DJ VK писал(а):Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.

Это как раз много проще, чем генерить самостоятельно все возможные варианты ссылок на все возможные серверы. Проксик получается один на все возможные карты (включая еще невыпущенные).
Сас умеет генерить урлы на основании ЗМП? Ну так и пусть генерит, и нечего дублировать этот функционал - наша задача лишь взять готовые результаты вот буквально парой строчек доп.кодинга.
Принцип KISS, коллега. Или ты предлагаешь написать хотелку и нудно ждать года так до 2015го? Так работа-то не ждет...:roll:
The only difference between me and a mad man is that I am not mad. /Salvador Dali/
Изображение
Аватара пользователя
Parasite
Администратор
 
Сообщения: 5646
Зарегистрирован: 23 окт 2008, 17:38
Благодарил (а): 124 раз.
Поблагодарили: 460 раз.

Re: Бан и борьба с ним

Сообщение AlexKan » 01 июл 2011, 21:13

Нельзя ли сделать для начала просто и надёжно?
Добавить в параметрах количество запрашиваемых файлов за один период и время паузы между периодами.
Установил 2000 запрашиваемых файлов, время паузы 1 минута и можно ложиться спать.
Сейчас приходится это делать вручную, чтобы не забанили.
AlexKan
Новичок
 
Сообщения: 2
Зарегистрирован: 01 июл 2011, 20:04
Благодарил (а): 0 раз.
Поблагодарили: 0 раз.

Re: Бан и борьба с ним

Сообщение sergeifromrussia » 18 июн 2014, 00:01

AlexKan писал(а):Нельзя ли сделать для начала просто и надёжно?
Добавить в параметрах количество запрашиваемых файлов за один период и время паузы между периодами.
Установил 2000 запрашиваемых файлов, время паузы 1 минута и можно ложиться спать.
Сейчас приходится это делать вручную, чтобы не забанили.


Тоже думал об этом же, но недавно вот на что обратил внимание. У меня бан обычно начинается после очень примерно 50 000 тайлов. Я скачивал 40 000 тайлов, ставил программу на паузу. Через полчаса или даже час снимал с паузы, и в тот же момент, не скачав ни одного тайла, нарывался на бан. Вначале я думал, что это совпадение, но такое происходило несколько раз. Получается вообще странно: качаешь-качаешь с высокой скоростью - и ничего (бан всё равно приходит, но позже), а как только начинаешь качать медленнее, делая паузы, то тут же тебя банят. Может, дело не только в скорости скачивания, но и во времени?
sergeifromrussia
Новичок
 
Сообщения: 4
Зарегистрирован: 07 сен 2013, 02:55
Благодарил (а): 1 раз.
Поблагодарили: 0 раз.

Re: Бан и борьба с ним

Сообщение Ivan30 » 18 июн 2014, 06:24

Вчера скачал 137 000 тайлов на z16. Бан пришёл в конце выделенной области от большого количества ответов сервера с ошибкой 404
Изображение
Ivan30
Советчик
 
Сообщения: 429
Зарегистрирован: 14 мар 2011, 19:14
Откуда: дельта Волги
Благодарил (а): 60 раз.
Поблагодарили: 120 раз.

Re: Бан и борьба с ним

Сообщение DJ VK » 18 июн 2014, 08:31

А я вот уже вторую неделю сижу на прокси. Если не изменяет память немецком.
За рабочий день (часов 9 примерно) сливаю по 3-4гб тайлов.
Банить никто не пытается.

Беру прокси в последнее время тут,
скрытый текст: показать
http://hideme.ru/proxy-list/


Русские прокси банят первыми, как я понимаю, это касается и скачки без онных ;)

Лучше минимальное время отклика прокси и более или менее стандартные порты (80, 8080, 3128). ФАЙЛЫ потом желательно 1) попробовать перекачать, бывают пропуски, 2)проверить на битость, бывают недокачанные.
Ну или сформировать из скачаного масштаба нечто поменьше и глазами ездить искать, нет ли где квадратных дырок, битые тайлы при сформировании пропускаются, появляются видимые пропуски (там перекачать).

За это сообщение автора DJ VK поблагодарил:
sergeifromrussia (18 июн 2014, 22:53)
Рейтинг: 5.26%
 
Аватара пользователя
DJ VK
Гуру
 
Сообщения: 1468
Зарегистрирован: 16 апр 2009, 13:57
Откуда: 8 км. от МКАД
Благодарил (а): 82 раз.
Поблагодарили: 300 раз.

Пред.След.

Вернуться в Google Maps + Google Earth™

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3

cron