ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Shoorick · Сообщение **Shoorick** » 02 апр 2013, 12:24

vasketsov писал(а):Так вот случай 2 с точки зрения операций над кэшем фактически раносилен актуальному кластерному индексу над случаем 1.

Копирование данных происходит лишний раз. Индексирование может быть быстрее.

Если уж можно выбрать нужные данные, следует их сразу и обрабатывать, вместо того, чтобы лишний раз перекладывать и потом обрабатывать.
А индекс полезен на предыдущем этапе, чтобы выбрать их быстро из всего массива данных.

Если в кэше будет сохранться TNE - попадание в индекс будет 100%-ным, ибо NULL или TNE в качестве тела тайла - это тоже данные.

Понятно. Тогда приведу случай, когда области выкачивания и выгрузки не совпадают. Выкачиваем острова поштучно, а карту формируем всего архипелага за раз.
Абсолютно бессмысленно заниматься попытками выкачивания моря между островов, так как там будет TNE (либо уже может быть рельеф морского дна?). Данные разреженные, либо в первоисточнике, либо по смыслу задачи.

1. Если TNE сохраняется, и тайла нет, то в хранилище есть об этом запись.
2. Если TNE не сохраняется, и тайла нет, то в хранилище нет об этом записи.

По-моему, хранилище тайлов (либо других выкачиваемых геообъектов) - и есть разреженная матрица.
Общий ее размер соответствует планете Земля, а небольшое количество ненулевых значений - и есть те кусочки планеты, которые интересуют данного конкретного пользователя.

Оптимизация разреженного хранилища и разреженный индекс вполне подходят под эту задачу.
Согласитесь, индекс не совсем обычный. В обычном индексируются значения, разбросанные по всему диапазону, например, индекс фамилий это "Иванов", "Петров", "Сидоров". Индекс имеющихся тайлов - это координаты 101, 102, 103, 104 ... 199, потом 801, 802, 803, 804 ... 849, и т.д. Такие данные как раз для разреженного индекса, который хранит не каждое значение, а минимальное в каждом блоке и длину блока.

В этом случае имеет смысл хранить записи с NULL и не с NULL по-разному, чтобы не ходить лишний раз по индексу и тратить меньше места на хранение пустого поля. В этом и заключается оптимизация sparsed storage.

По-моему, это уже не разреженное хранилище в чистом виде, а его специфический случай, для SAS.Планеты, ориентированный аж на два вида нулевых значений: традиционный NULL (данных нет) и TNE (данных нет, и еще проверено, что их нет и в первоисточнике выкачивания).

Эти TNE можно дополнительно оптимизировать как для хранения, так и в индексе. Забивать индекс TNE, как Вы верно заметили, чревато лишним хождением по индексу и хранением пустого поля. Как вариант, здесь мог бы использоваться отдельный разреженный битовый массив. "1" стоит - TNE. "0" - всё остальное. Длинные последовательности нулей не хранятся.

В результате, в идеале весь кэш представляет собой набор тайлов, плюс разреженный пространственный индекс по тайлам, плюс разреженный битовый массив для слежения за несуществующими на оригинальном сервере тайлами (TNE).

Tolik писал(а):Ну вы и забрались в дебри, "абсолютные новички".

:) Никто не мешает отпилить тему "Экспорт всего мира в Android :)" (или как там она называлась?) обратно.

Tolik · Сообщение **Tolik** » 02 апр 2013, 14:07

Shoorick писал(а): Никто не мешает отпилить тему "Экспорт всего мира в Android " (или как там она называлась?) обратно.

Форум так достал своими тормозами и "503", что не то что отпиливать, даже читать уже не хочется!

Сообщение **Parasite** » 02 апр 2013, 14:38

Tolik писал(а):
Shoorick писал(а): Никто не мешает отпилить тему "Экспорт всего мира в Android " (или как там она называлась?) обратно.
Форум так достал своими тормозами и "503", что не то что отпиливать, даже читать уже не хочется!

Фей месяц назад обещался переехать. Что характерно - хостинг давно куплен и файлы давно перенесены - но это же фей, и владелец домена (с правами на перенос) именно он.

А 503 - это да, это уже просто какой-то ужас.

Papazol · Сообщение **Papazol** » 02 апр 2013, 21:33

Несмотря ни на что, рассуждения "вширь и вглубь" не должны быть в данной теме, думаю, это все понимают.

Shoorick · Сообщение **Shoorick** » 03 апр 2013, 20:47

Покрытие google street view, яндекс панорам можно ли вытащить отдельно от самих сервисов?
Не сами панорамы, а места, где они имеются.
Это же возможно с координатами снимков panoramio.

p.s. Согласен и с ужасами 503, и с переносом предыдущей темы обсуждения.

Tolik · Сообщение **Tolik** » 03 апр 2013, 21:13

Даже не представляю, как их можно вытащить. Но на Гугле когда-то видел страничку с описанием street view, и на ней были перечислены все города, где она есть.

rass · Сообщение **rass** » 03 апр 2013, 22:51

Shoorick писал(а):Покрытие google street view, яндекс панорам можно ли вытащить отдельно от самих сервисов?

Кстати хороший вопрос. И есть ли у них версии, а если есть, то можно ли просмотреть предыдущие панорамы?

Тут на дня был случай, где-то дней 10 назад. С одним заказчиком зашел спор по поводу высоты одного здания. Нашел это здание в google street view,
хороший был вид, как раз видны были все спорные моменты. Уже хотел нажать кнопку ПринтСкрин, но отвлекся минут на 40.
А когда вернуся, стал смотреть снова панорамы гугла, и не мог понять, машины, окружение изменились, а вид здания теперь накрывает ветка дерева!
Я бегал по виртуальной улице взад и вперед и не мог поверить, что за мое 40-минутное отсутсивие Гугл обновил панорамы этой части города.....

d00m · Сообщение **d00m** » 04 апр 2013, 11:47

всем привет.
так как я абсолютный новичок, то, полагаю, должен задать свои вопросы тут.
они вытекают из моей ситуации - мне нужно подготовиться к экспедиции и скачать спутниковую карту определенной области на Камчатке, чтобы потом использовать ее в программе Locus на смарте.
Я скачал ночную версию SAS Планета и просмотрел разные варианты спутниковых карт. На мой взгляд гугловские спутниковые карты самые нормальные для этого района.
Итак - я качаю версию карт Спутник (Google) и сталкиваюсь с "проблемой 10000 тайлов" - после этого кол-ва скачанных тайлов гугл банит мой IP.
я научился обходить эту проблему - у меня есть много ip адресов которые я могу применять на виртуалку откуда скачиваю карту.
хоть и вручную, но все же процесс движется.
но тут возникает ситуация в связи которой у меня первый вопрос. мне придется объяснить всю предысторию прежде чем его сформулировать:
- когда программа скачивает очередной тайл, она стучится на гугл и качает файл с определенным именем, допустим это - y45010.
если все ok - она выкачивает выкачивает его и пытается выкачать файл с другими именем, в котором номер уже _отличается_ на некий шаг, я так понимаю там просто порядковая нумерация, поэтому она будет искать файл y45011.
так вот - если после скачивания y45010 гугл решил забанить мой ip, то y45011 я уже не смогу скачать - мне будет выводиться сообщение о 5-ти секундном таймауте или чтото вроде того. НО ! после этого программа попытается скачать _следующий файл_ - y45012, потом y45013 и так далее ! и каждый раз будет получать отлуп.
и так как я меняю IP адреса вручную, получается что какое-то количество файлов останется невыкачанным !
что мне делать в этом случае ? запускать скачивание на этом масштабе опять ? по идее если выставить галки "Заменять старые файлы" и "только при их различии" то сами файлы не выкачиваются, а просто сверяется их размер - на сервере и в локальном кеше, и только если они не совпадают, тогда файл выкачивается, увеличивая при этом этот "банный" гугло-счетчик. я правильно все понимаю ?
мне кажется даже если все именно так - то наверное лучше сделать возможность останавливать попытки скачивания _следующих_ тайлов если не выкачан предыдущий..
таким образом не нужно будет перекачивать и терять на этом время..

и второй мой вопрос - может уже есть где скачанный такой кеш интересующей меня области в торентах ?
тогда я мог бы выкачать его с торента, применить свою маску области и "вырезать" нужный участок..
мне потом нужно экспортить это дело в SQL формат чтобы Locus это понял..

спасибо за внимание. надеюсь на ответы и советы..

Tolik · Сообщение **Tolik** » 04 апр 2013, 11:51

что мне делать в этом случае ?

Включить "карту заполнения" и посмотреть, что не скачалось. И докачать.

если выставить галки "Заменять старые файлы" и "только при их различии" то сами файлы не выкачиваются, а просто сверяется их размер

Чтобы сверить размер, сами тайлы сначала скачиваются

Наоборот, надо выключить галочку "заменять старые тайлы", чтобы они не качались 2-й раз.

d00m · Сообщение **d00m** » 04 апр 2013, 12:03

Чтобы сверить размер, сами тайлы сначала скачиваются

я тоже так подумал вначале, но результат показал другое - я запустил повторное скачивание на 16 масштабе и мой ip не забанили ни разу - это видимо говорит о том что повторное скачивание выкачало меньше чем 10000.
или все таки я не прав ? по логике - да, нужно выкачать чтобы сверить, но мне кажется чтобы узнать размер наверное можно прочесть некие мета-данные на сервере, не выкачивая сам файл.

а вот про карту заполнения не знал. сейчас поищу где она находится.. спасибо

Форум SAS.Планета

ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ

Re: ВОПРОСЫ АБСОЛЮТНЫХ НОВИЧКОВ