Butterfly - парсер выдачи поискових систем и не только
Butterfly - популярный парсер выдачи поисковых систем (поисковиков).
Скачать | Download Butterfly 3.2 (Windows)
Скачать | Download Butterfly 3.2 (Linux)
Общее описание Butterfly 3
Butterfly 3 - это мощный и универсальный десктоповый парсер ссылок с любых сайтов и поисковых систем. Парсер имеет простой и интуитивно понятный интерфейс, с которым разберется любой новичок, впервые запустивший программу.
Все найденные программой ссылки могут отсеиваться по фильтру, настроенному под Ваши личные потребности. Программа имеет много готовых настроенных и отлаженных профилей фильтрации и профилей поиска. Имеется возможность сохранять как целые найденные ссылки, так только домены, или ссылки, построенные по маске.
В версии 3 полностью переписан весь код программы с нуля.
В программе реализована многопоточность проверки сайтов (до 32 потоков), мультиязычный интерфейс (на данный момент англиский и русский; пользователь сам может переводить языковые файлы и создавать интерфейсы на любом языке), обработка капчи, автоматическое возобновление поиска в случае аварийной паузы и многое другое.
Вы сами можете настроить программу так, чтоб она искала на том поисковике, на котором Вам нужно, создав соответствующий профиль поиска и заполнив необходимые настройки.
Так же Вы имеете возможность создавать профили фильтрации, которые помогут Вам найти не только DLE сайты, но и сайты на любом другом движке, и вообще с любой, нужной Вам информацией!
Вы можете изменять существующие профили поиска и отбора по Вашему усмотрению. Можетесоздавать базы профилей и свободно распространять их или продавать.
В стандартной поставке Butterfly 3.2 включает 22 профиля поиска:
- Поиск в Ask
- Поиск в Bing
- Поиск в каталоге DMOZ
- Поиск в Google
- Поиск в Google (сайты на русском)
- Поиск в Google (сайты на англиском)
- Поиск в Google (сайты из USA)
- Поиск в Mail.ru
- Поиск в Meta.ua
- Поиск в новостях сайта NoNaMe
- Поиск в Rambler
- Поиск в Rambler TOP 100
- Поиск в Yandex
- Поиск в Yandex Каталог
- Поиск в Nigma
- Поиск в Yahoo
- Поиск в Clusty
- Поиск в Aol
- Поиск в Gigablast
- Поиск в Lycos
- Поиск в Teoma
- Поиск в Refer.ru
а так же 16 профилей фильтрации:
- Отбор сайтов на Bitrix
- Отбор каталогов CNCat
- Отбор сайтов на DLE
- Отбор сайтов на DLE (отбор реализованый в Butterfly 2)
- Отбор сайтов на DLE (без Adult)
- Отбор сайтов на Drupal
- Отбор сайтов на Joomla
- Отбор сайтов на MaxSite
- Отбор сайтов на phpBB
- Отбор сайтов на phpBB 3
- Отбор сайтов на UCOZ
- Отбор сайтов на WordPress
- Отбор сайтов на vBulletin
- Отбор сайтов на IPB
- Отбор бесплатных и открытых торент трекеров
- Без отбора (сохранение всех найденных сайтов)
Прошу оценить новый парсер поисковой выдачи, написанный мной, и оставить сдесь комментарии. Парсит любой поисковик. Прошу строго не судить
Предыдущие версии программы работали только с Google и отбирали только DLE сайты. Версия же 3.0 более универсальна, потому решил поделится с сообществом веб-мастеров, дабы узнать мнение потребителя и учесть его в будущем.
Вообщем Butterfly 3.0 - Десктопная программа, прячущаяся в трей.
Для парсинга нужно выбрать из списка профиль нужного поисковика. Ввести ключевые слова (или указать файл с ключевыми словами), при необходимости выбрать профиль фильтрации ссылок и нажать кнопку "Искать".
Программа начнет парсинг, и если включена фильтрация, будет заходить на найденный сайт, проверять условия фильтрации и возвращать результат: проходит ли ссылка отбор или нет.
Все найденные и отобранные ссылки программа будет тут же сохранять в указанный заранее файл.
Имеется возможность не парсить поисковик, а брать базу сайтов из файла и поддавать фильтрации по указанному условию.
Кроме того пользователь сам может изменять или добавлять новые профили парсинга поисковиков и отбора.
Скачать можно с офф. сайта.
Последний раз редактировалось vbi; 10.01.2012 в 19:53. Причина: Разделил текст для удобочитаемости
- 13
- 10.01.2012 19:27
- 0
- 10.01.2012 19:59
Можно чуть подробней о фильтрах?
- 0
- 10.01.2012 20:21
В стандартную поставку включаются 11 готовых профилей фильтрации:
- Отбор сайтов на Bitrix
- Отбор сайтов на DLE
- Отбор сайтов на DLE (отбор реализованый в Butterfly 2)
- Отбор сайтов на Drupal
- Отбор сайтов на Joomla
- Отбор сайтов на MaxSite
- Отбор сайтов на phpBB
- Отбор сайтов на UCOZ
- Отбор сайтов на WordPress
- Отбор бесплатных и открытых торент трекеров
- Без отбора (сохранение всех найденных сайтов)
Каждый профиль отбора можно настроить следующим образом:
1. Указать фрагменты текста, которые обязательно должны быть в тексте страницы (например: "фрагмент1 И фрагмент2 ИЛИ фрагмент3 И фрагмент2 И фрагмент4")
2. Указать фрагменты текста, которые обязательно не должны быть в тексте страницы.
То есть мы имеем белый и черный список условий (конечно же один из них можно не заполнять).
И если страничка удовлетворяет черному и белому списку - сайт будет отобран.
Каждый "Вариант" - это список условий. Для успешного отбора должен выполнятся как минимум один вариант условий (и все условия данного варианта).
То есть мы имеем "Вариант1 ИЛИ Вариант2 ИЛИ ...".
Каждое условие - это текст, который должен быть (или не должен быть, если это черный список) в коде страницы.
Если выполняются все условия варианта, то выполняется и вариант - а значит и фильтр не отбросит сайт. То есть для условий мы имеем "Условие1 ИЛИ Условие2 ИЛИ ..."
Фильтры можна настраивать как угодно. Каждый фильтр - это отдельный INI-файл, который можно скопировать и принести (например) на работу.
- 2
Спасибо сказали:
Arc-Slogger(15.11.2012), TbIKBA(10.01.2012), - 11.01.2012 00:32
... условий мы имеем "Условие1 ИЛИ Условие2 ИЛИ ..."
Извеняюсь, тут ошибся. Праыильно будет так:
...мы имеем "Условие1 И Условие2 И ..."
- 0
- 11.01.2012 01:11
по каким критериям отбираются ЦМСы?
По описанию прога могет быть полезна. Ставлю +
- 0
- 11.01.2012 01:12
Последний вопрос перед скачиванием (клятвенно обещаю, с оставлением отхыва), фильтр на наличие в ЯК и количеству ТИЦ там есть?
Последний раз редактировалось TbIKBA; 11.01.2012 в 01:15.
- 0
- 11.01.2012 02:28
Каждый критерий прописывается в настройках профиля фильтра, в "белом списке", как описано выше. Вы сами можете отредактировать критерии.
Например как видно из картинки, счтиается что сайт на движке "WordPress", если в коде страницы сайта встречается фраза "wp-content/themes/" и "wp-content/plugins/" одновременно (Вариант 2), либо встречается фраза "content=”WordPress”" (Вариант 1, на скриншоте не видно).
Для этого и других профилей можно отредактировать и добавить таких вариантов и условий сколько угодно.
---------- Сообщение добавлено 22:48 ---------- Предыдущее 22:45 ----------
На счет Яндекс каталога - есть отдельный профиль поиска, который парсит не выдачу поисковика, а Яндекс каталог, DMOZ и Rambler TOP 100.
Фильтра по количеству ТИЦ - нету, но в планах сделать пожже в платной версии
---------- Сообщение добавлено 23:28 ---------- Предыдущее 22:48 ----------
Кстате, я знаю разработчика WebParser. Он написал свою программу вдохновившись Butterfly 1. Тогда (где-то год назад) обе наши программы искали только DLE движки.
Далее он сделал программу платной и постепенно наращивал ее функционалом.
Я же решил переписать все с 0 и воплотить идею универсальности с профилями, оставив программу до сих пор бесплатной.
- 0
- 11.01.2012 14:03
А в чем вообще смысл подобных софтин? Ну получили мы на выходе некий txt-файл... Дальше что?
P.S. Прошу прощения если вопрос "чайниковский". В SEO я - чайник, и даже не скрываю этого.
- 0
- 11.01.2012 15:01
Потом данный список можно использовать в других софтинах (XRumer, AddNews, ...). Для очень даже разных целей.