Персональный сайт - AПопулярные поисковые фразы, продолжение (часть 2)

Описание программы:

На данный момент программа работает с 9-ю поисковыми системами. В их числе: Google.ru, Yandex.ru, Rambler.ru, Mail.ru, Google.com, Google.com.ua,Google.lv, Yahoo.com, Live.com.
2 алгоритма поиска позиций.
4 языка (английский, русский, латышский, украинский)
Есть возможность использовать proxy (может быть полезно для людей со статическим IP)
Обход капчи.
Возможность импорта проектов из semonitor и Site-Auditor.
Определение самых релевантных и количества страниц на сайте по заданым ключевым словам (фразам).
Проверка данных по сайту Google Pr, Yandex тИЦ, Число страниц в индексе Google, Число страниц в индекске Yandex, В каталоге Yandex.

Программа абсолютно бесплатная(!) и постоянно развивается, появляются новые возможности, повышается качество работы.

Системные требования

Операционная система: семейства Windows
Разрешение экрана: от 1024x768
Дисковое пространство: от 25 мегабайт
Оперативная память: от 256 мегабайт
Программное обеспечение: Internet Explorer выше версии 5.5
Программа требует Java Runtime Environment не ниже версии 1.6.0. Скачать можно на сайте java

Краткая инструкция в семи пунктах

Руководство пользователя

Основным предназначением программы SESpider является определение позиций сайта.
Внешний вид главного окна на вкладке модуля «проверка позиций» приведен на рисунке ниже.

Сайты и ключевые фразы группируются по проектам.

Колонки «ключевые слова» и «Сайты» содержат фразы и сайты, которые сформированы в рамках выбранного проекта.
Колонка «Поисковики» для всех проектов остается неизменной.
Имеется возможность устанавливать глубину поиска. Число указывается в позициях (не страницах!!!)

Настройка количества одновременных потоков может быть полезна всем пользователям. Во-первых, для пользователей с низкоскоростным интернетом имеет смысл вести анализ в 1–2 потока. Во-вторых, для пользователей с нормальным интернетом количество потоков можно настроить по числу планируемых анализируемых поисков.

Более того, с помощью количества потоков можно настроить число одновременно сканируемых фраз в поисовиках. Если взять за N число поисковиков в анализе и K — число одновременно сканируемых ключевых фраз, формула будет следующая: N*K (4 поисковика, 3 одновременно сканируемых фразы в поисковике = 12).

"Плоский поиск"/"волновой поиск"
Плоский поиск — элементарный и в то же время наиболее надежный поиск с первой страницы к последней.
Волновой поиск — поиск с учетом позиции предыдущего анализа. Если сайт был найден на странице N, то поиск будет обходить страницы в следующем порядке: N N-1 N+1 N-2 N+2 N-k N+k. Таким образом будет найдена самая близкая к предыдущей позиция. Поиск полезен в случае, если в поисковике не было серьезных подвижек в выдаче (не было апа), но необходимо подтвердить актуальность позиций, собранных во время прошлого анализа.

Флажок "игнорировать недостачу" влияет на поведение сканера в случае, если на странице выдачи было собрано позиций меньше, чем ожидалось для поисковика. Если флажок снят, то при первой недостаче (поисковик выдает по 10 позиций, а программа смогла собрать только 8–9) поисковик прекращает анализировать фразу и переходит к следующей фразе. Это полезно для полной уверенности, что все позиции были собраны правильно, а также оперативно сообщить разработчику об обнаруженной ошибке.

Для того, чтобы приступить непосредственно к сбору позиций из списка ключевых слов нужно выбрать те, которые должны участвовать в проверке. Аналогично выбираем сайты и поисковики. Для всех списков работает горячая клавиша Ctrl+A, а также выделение регионов с помощью клавиши Shift. Нажимаем кнопку «Пуск».

Появляется окно Анализа позиций.

Каждая ячейка фраза/поисковик имеет свой индикатор прогресса. Вы видите на какой странице поисковика идет анализ.
Разбираем частные случаи:

Ячейка «программа определения позиций/yandex.ru» хранит текст «14+1 (14)». Первое число [14] — это позиция, полученная в текущем сеансе;второе число, отмеченное курсивом, [+1] — изменение позиции по сравнению с позицией прошлого сеанса анализа, третье число в скобках [(14)] — это лучшая позиция за всю историю анализа этой фразы по конкретному поисковику (в данном случае, по Яндексу). Цвет текста ячейки красный из-за того, что текущая позиция является самой высокой за всю историю анализа.
Ячейка «SESpider/yandex.ru» хранит текст «1 (1)», смысл тот же, за исключением того, что позиция не изменилась по сравнению с позицией предыдущегосеанса и поэтому в ячейке отсутствует число, отмеченное курсивом.
Ячейка «программа для определения позиций сайта/yandex.ru», несмотря на повышение позиции, имеет серый цвет из-за того, что текущая позиция не являетсясамой высокой за всю историю анализа.
Ячейка «программа по определению позиций/google.ru» хранит текст «0/6» и полностью белый фон. Первая цифра — это число страниц, которые ужепроанализированы. Вторая цифра — сколько страниц в поисковике планируется просканировать. Полностью белый фон говорит о том, что эта пара (фраза/поисковик) еще не начала процесс сканирования.
Ячейка «программа по определению позиций/yandex.ru» хранит текст «3/6» и частично закрашенный фон. Сканер поисковика обрабатывает фразу и проработал уже3 страницы.
Ячейка «определение позиций/yandex.ru» хранит текст «6/6» и полностью закрашенный фон. Это говорит о том, что сканер поисковика завершил проверку этойпозиции и в пределах 6 страниц искомый сайт не был найден.

Существует еще несколько индикаторов в ячейках, которые не были представлены на рисунке:

Индикатор «Сбой соединения» появляется в случаях, когда поисковик является недоступен или в случае постоянного сброса соединения
Индикатор «Возможно captcha» появляется в случаях, когда сканер собрал со страницы поисковика 0 позиций
Ячейка с текстом «3/6» с полностью закрашенным фоном говорит о том, что со страницы поисковика было снято меньше позиций, чем ожидалось или быллостигнут конец поисковой выдачи (что крайне редко)

Последний пункт в программе выглядит, как показано на рисунке ниже

Видно, что по фразе «MP3-плееры» уже на первой странице поисковика обнаружена проблема сканирования. Остальные ячейки с закрашенным фоном тоже являются примером ошибочной работы программы.

Пользователей, получивших подобную картину, прошу сообщать на специально отведенную для этого страницу

Процесс добавления ключевых фраз

В программе имеется две возможности пакетного добавления ключевых фраз: с помощью текстового поля и с помощью загрузки из файла.
В текстовое поле можно вносить несколько ключевых фраз по одной на строку, как это показано на рисунке ниже
Диалоговое окно добавления ключевых фраз
Файл для добавления фраз формируется по тому же принципу — по одной фразе на строку.

Процесс добавления сайтов

Сайты так же можно добавлять двумя способами: диалогового окна и пакетное добавление сайтов с помощью загрузки из файла.
Диалоговое окно добавления сайта изображено на рисунке ниже

Имя сайта — это текстовая информация, которая используется для взаимодействия с пользователем: отображается в списке сайтов, в списке анализа позиций, в excel отчетах и т.д.
Адрес — это адрес сайта в сети Интернет. Он может заноситься как с префиксом «http://», так и с префиксом «www». Также, если вы хотите проанализировать позиции по сайту, включая его поддомены вам необходимо в начало строки сайта поставить точку, например «.site.ru»
Проверить доступность — проверяется доступность сайта, отвечает ли сервер на запросы. Это возможность проверить правильно ли введён адрес сайта.
Загрузить favicon — при установленном флажке будет скачана иконка сайта, которая отображается рядом с адресной строкой во всех современных браузерах. При установленном флажке «Загрузить favicon» автоматически идёт проверка доступности сайта.

Пакетное добавление сайта.
Файл должен иметь по одному сайту на строку. Пример:

sespider.ru
liveinternet.ru
mozilla.org

Настройки поисковика

В программе имеется возможность гибко настраивать поисковик для снятия позиций в производственных масштабах.
Диалоговое окно настройки поисковика
Здесь стоит дать пару определений:

Запрос — обращение к странице выдачи поисковика
Серия запросов — определённое количество подряд идущих запросов

Id поисковика — внутрипрограммный текстовый идентификатор поисковика, используется для возможности устанавливать дополнительные конфигурируемые поисковики с другими идентификаторами.
Название — имя поисковика, которое пользователь видит в окнах программы и в отчетах Excel.
Паузы между запросами — для того, чтобы поисковик не испугался натиска с вашего IP между запросами необходимо делать паузы. В этом поле имеется возможность задать массив значений пауз, значения которых по очереди будут использоваться для задержек.
Запросов в серии и Пауза между сериями — поисковики начинают выдавать даже если между запросами ставится небольшая задержка. Если задержка будет большая, то для солидного количества поисковиков и нескольких проектов, полученные данные могут стать просто неактуальными. Искусственно создаётся большая пауза (1–3 минуты) для того, чтобы «остудить память» поисковика. С помощью двух параметров можно задать число запросов в серии, после которых будет задержка, указанная во параметре «Пауза между сериями».
Позиций на страницу — поисковики предоставляют возможность настраивать число позиций, которые пользователь видит в выдаче. Увеличив число позиций в программе, можно сэкономить время и сетевой трафик. А также это позволяет уменьшить число обращений к поисковику.
** Но, к сожалению, при настройках 50 позиций на страницу Яндекс начинает выдавать CAPTCHA крайне скоро. Настройка для Google 100 позиций на страницу заметно ускоряет анализ позиций.
Дополнительные параметры — поле для ввода параметров, которые могут участвовать в адресной строке запроса к поисковику (пример yandex.ru/search?q=sespider&p=0&rstr=-187)
А также в дополнительных параметрах участвуют служебные переменные SESpider (пример geo, xml в Yandex), они не передаются поисковику при запросе.

Работа с Yandex.XML

Помимо добавленного в список поисковиков Yandex.XML, у сканера Yandex.ru появилась возможность указывать в дополнительных параметрах настройку использовать Yandex.XML (xml=1). Для чего это нужно подробней описано в другой записи

Работа с отсутствующими поисковиками

Часто мастерам нужно искать в поисковиках, не включенных в список поисковиков в программе. Конфигурируемые сканеры как раз решают эту проблему.
Для того, чтобы внести новый сканер поисковика необходимо выполнить следующие инструкции:
Файл инсталяции подкладываем в корень программы.
install.xml

<seinstall><item><name>TUT.by</name><id-name>tut.by</id-name><class-name>ru.vingrad.platon.sespider.ConfigurableSpider2</class-name><requests-per-period>1</requests-per-period><period>4000</period></item></seinstall>

Файл настройки поисковика conf_spiders2/tut.by.cfg
conf_spiders2 — это папка!!!

query=http://search.tut.by/?status=1&encoding=1&page={POSITION}&how=rlv&query={QUERY}regexp=<li>\\s*<h3>\\s*<a href="{SITE}">.*?</a>\\s*<a href=".+?" target="_blank">{TITLE}</a>.*?</h3>{DESCRIPTION}<br>items-per-page=15query.encoding=windows-1251query.units=PAGEcontent.encoding=windows-1251

По порядку:
query — строка запроса, как она написана в браузере. В ней есть 2 настраиваемых переменных:
{POSITION} — позиция (страница или абсолютная позиция) с которой начинается выдача
{QUERY} — фраза-запрос поисковику

regexp — регулярное выражение, которое подходит одной позиции выдачи.
Переменные:
{SITE} — ссылка на страницу сайта.
{TITLE} — заголовок страницы сайта.
{DESCRIPTION} — наиболее релевантная часть страницы сайта.

items-per-page — количество позиций на странице (по умолчанию 10)

query.encoding — кодировка, в которой отправляется запрос. (для русскоязычных чаще всего windows-1251)

query.units — Единицы, в которых измеряется переменная {POSITION} в строке запроса query. Bvttn 2 значения: PAGE и ABSOLUTE.
Пример:
google.ru просит работать в терминах аболютных значений (ABSOLUTE), т.е. первая страница — 0, вторая — 10, третья — 20 и т.д...
rambler.ru просит работать в терминах страничных (PAGE). т.е. первая страница = 0, вторая = 1, третья 2 и т.д...

content.encoding — кодировка текста страницы. Поле крайне необязательное, если сервер шлет в заголовках кодировку сайта, что чаще всего бывает. но вот tut.by предлагает работать с meta тегами, эти случаи надо вбивать эту переменную.

Обратите внимание на регэксп!!! Символы экранирования также экранируются!!! Специфика Java Properties файлов.