|
|
Строка в планировщике CRON /usr/bin/fetch -o - http://ya.ru/step_parser.php
Программа абсолютно бесплатная(!) и постоянно развивается, появляются новые возможности, повышается качество работы.
Операционная система: семейства Windows
Разрешение экрана: от 1024x768
Дисковое пространство: от 25 мегабайт
Оперативная память: от 256 мегабайт
Программное обеспечение: Internet Explorer выше версии 5.5
Программа требует Java Runtime Environment не ниже версии 1.6.0. Скачать можно на сайте java
Краткая инструкция в семи пунктах
Основным предназначением программы SESpider является определение позиций сайта.
Внешний вид главного окна на вкладке модуля «проверка позиций» приведен на рисунке ниже.
Сайты и ключевые фразы группируются по проектам.
Колонки «ключевые слова» и «Сайты» содержат фразы и сайты, которые сформированы в рамках выбранного проекта.
Колонка «Поисковики» для всех проектов остается неизменной.
Имеется возможность устанавливать глубину поиска. Число указывается в позициях (не страницах!!!)
Настройка количества одновременных потоков может быть полезна всем пользователям. Во-первых, для пользователей с низкоскоростным интернетом имеет смысл вести анализ в 1–2 потока. Во-вторых, для пользователей с нормальным интернетом количество потоков можно настроить по числу планируемых анализируемых поисков.
Более того, с помощью количества потоков можно настроить число одновременно сканируемых фраз в поисовиках. Если взять за N число поисковиков в анализе и K — число одновременно сканируемых ключевых фраз, формула будет следующая: N*K (4 поисковика, 3 одновременно сканируемых фразы в поисковике = 12).
"Плоский поиск"/"волновой поиск"
Плоский поиск — элементарный и в то же время наиболее надежный поиск с первой страницы к последней.
Волновой поиск — поиск с учетом позиции предыдущего анализа. Если сайт был найден на странице N, то поиск будет обходить страницы в следующем порядке: N N-1 N+1 N-2 N+2 N-k N+k. Таким образом будет найдена самая близкая к предыдущей позиция. Поиск полезен в случае, если в поисковике не было серьезных подвижек в выдаче (не было апа), но необходимо подтвердить актуальность позиций, собранных во время прошлого анализа.
Флажок "игнорировать недостачу" влияет на поведение сканера в случае, если на странице выдачи было собрано позиций меньше, чем ожидалось для поисковика. Если флажок снят, то при первой недостаче (поисковик выдает по 10 позиций, а программа смогла собрать только 8–9) поисковик прекращает анализировать фразу и переходит к следующей фразе. Это полезно для полной уверенности, что все позиции были собраны правильно, а также оперативно сообщить разработчику об обнаруженной ошибке.
Для того, чтобы приступить непосредственно к сбору позиций из списка ключевых слов нужно выбрать те, которые должны участвовать в проверке. Аналогично выбираем сайты и поисковики. Для всех списков работает горячая клавиша Ctrl+A, а также выделение регионов с помощью клавиши Shift. Нажимаем кнопку «Пуск».
Появляется окно Анализа позиций.
Каждая ячейка фраза/поисковик имеет свой индикатор прогресса. Вы видите на какой странице поисковика идет анализ.
Разбираем частные случаи:
Существует еще несколько индикаторов в ячейках, которые не были представлены на рисунке:
Последний пункт в программе выглядит, как показано на рисунке ниже
Видно, что по фразе «MP3-плееры» уже на первой странице поисковика обнаружена проблема сканирования. Остальные ячейки с закрашенным фоном тоже являются примером ошибочной работы программы.
Пользователей, получивших подобную картину, прошу сообщать на специально отведенную для этого страницу
В программе имеется две возможности пакетного добавления ключевых фраз: с помощью текстового поля и с помощью загрузки из файла.
В текстовое поле можно вносить несколько ключевых фраз по одной на строку, как это показано на рисунке ниже
Файл для добавления фраз формируется по тому же принципу — по одной фразе на строку.
Сайты так же можно добавлять двумя способами: диалогового окна и пакетное добавление сайтов с помощью загрузки из файла.
Диалоговое окно добавления сайта изображено на рисунке ниже
Имя сайта — это текстовая информация, которая используется для взаимодействия с пользователем: отображается в списке сайтов, в списке анализа позиций, в excel отчетах и т.д.
Адрес — это адрес сайта в сети Интернет. Он может заноситься как с префиксом «http://», так и с префиксом «www». Также, если вы хотите проанализировать позиции по сайту, включая его поддомены вам необходимо в начало строки сайта поставить точку, например «.site.ru»
Проверить доступность — проверяется доступность сайта, отвечает ли сервер на запросы. Это возможность проверить правильно ли введён адрес сайта.
Загрузить favicon — при установленном флажке будет скачана иконка сайта, которая отображается рядом с адресной строкой во всех современных браузерах. При установленном флажке «Загрузить favicon» автоматически идёт проверка доступности сайта.
Пакетное добавление сайта.
Файл должен иметь по одному сайту на строку. Пример:
sespider.ru
liveinternet.ru
mozilla.org
В программе имеется возможность гибко настраивать поисковик для снятия позиций в производственных масштабах.
Здесь стоит дать пару определений:
Id поисковика — внутрипрограммный текстовый идентификатор поисковика, используется для возможности устанавливать дополнительные конфигурируемые поисковики с другими идентификаторами.
Название — имя поисковика, которое пользователь видит в окнах программы и в отчетах Excel.
Паузы между запросами — для того, чтобы поисковик не испугался натиска с вашего IP между запросами необходимо делать паузы. В этом поле имеется возможность задать массив значений пауз, значения которых по очереди будут использоваться для задержек.
Запросов в серии и Пауза между сериями — поисковики начинают выдавать даже если между запросами ставится небольшая задержка. Если задержка будет большая, то для солидного количества поисковиков и нескольких проектов, полученные данные могут стать просто неактуальными. Искусственно создаётся большая пауза (1–3 минуты) для того, чтобы «остудить память» поисковика. С помощью двух параметров можно задать число запросов в серии, после которых будет задержка, указанная во параметре «Пауза между сериями».
Позиций на страницу — поисковики предоставляют возможность настраивать число позиций, которые пользователь видит в выдаче. Увеличив число позиций в программе, можно сэкономить время и сетевой трафик. А также это позволяет уменьшить число обращений к поисковику.
** Но, к сожалению, при настройках 50 позиций на страницу Яндекс начинает выдавать CAPTCHA крайне скоро. Настройка для Google 100 позиций на страницу заметно ускоряет анализ позиций.
Дополнительные параметры — поле для ввода параметров, которые могут участвовать в адресной строке запроса к поисковику (пример yandex.ru/search?q=sespider&p=0&rstr=-187)
А также в дополнительных параметрах участвуют служебные переменные SESpider (пример geo, xml в Yandex), они не передаются поисковику при запросе.
Помимо добавленного в список поисковиков Yandex.XML, у сканера Yandex.ru появилась возможность указывать в дополнительных параметрах настройку использовать Yandex.XML (xml=1). Для чего это нужно подробней описано в другой записи
Часто мастерам нужно искать в поисковиках, не включенных в список поисковиков в программе. Конфигурируемые сканеры как раз решают эту проблему.
Для того, чтобы внести новый сканер поисковика необходимо выполнить следующие инструкции:
Файл инсталяции подкладываем в корень программы.
install.xml
<seinstall><item><name>TUT.by</name><id-name>tut.by</id-name><class-name>ru.vingrad.platon.sespider.ConfigurableSpider2</class-name><requests-per-period>1</requests-per-period><period>4000</period></item></seinstall>
Файл настройки поисковика conf_spiders2/tut.by.cfg
conf_spiders2 — это папка!!!
query=http://search.tut.by/?status=1&encoding=1&page={POSITION}&how=rlv&query={QUERY}regexp=<li>\\s*<h3>\\s*<a href="{SITE}">.*?</a>\\s*<a href=".+?" target="_blank">{TITLE}</a>.*?</h3>{DESCRIPTION}<br>items-per-page=15query.encoding=windows-1251query.units=PAGEcontent.encoding=windows-1251
По порядку:
query — строка запроса, как она написана в браузере. В ней есть 2 настраиваемых переменных:
{POSITION} — позиция (страница или абсолютная позиция) с которой начинается выдача
{QUERY} — фраза-запрос поисковику
regexp — регулярное выражение, которое подходит одной позиции выдачи.
Переменные:
{SITE} — ссылка на страницу сайта.
{TITLE} — заголовок страницы сайта.
{DESCRIPTION} — наиболее релевантная часть страницы сайта.
items-per-page — количество позиций на странице (по умолчанию 10)
query.encoding — кодировка, в которой отправляется запрос. (для русскоязычных чаще всего windows-1251)
query.units — Единицы, в которых измеряется переменная {POSITION} в строке запроса query. Bvttn 2 значения: PAGE и ABSOLUTE.
Пример:
google.ru просит работать в терминах аболютных значений (ABSOLUTE), т.е. первая страница — 0, вторая — 10, третья — 20 и т.д...
rambler.ru просит работать в терминах страничных (PAGE). т.е. первая страница = 0, вторая = 1, третья 2 и т.д...
content.encoding — кодировка текста страницы. Поле крайне необязательное, если сервер шлет в заголовках кодировку сайта, что чаще всего бывает. но вот tut.by предлагает работать с meta тегами, эти случаи надо вбивать эту переменную.
Обратите внимание на регэксп!!! Символы экранирования также экранируются!!! Специфика Java Properties файлов.