Скачать программу можно вот отсюда: mchecker

Что это такое. mChecker — небольшая утилита, позволяющая проверять списки URL на ПР, ТИЦ, наличие в каталогах гугля (DMOZ) и яндекса (YACA). Основные преимущества — регулируемое «на лету» количество потоков, возможность выставить время задержки для избежания санкций от поисковиков, сохранение в Excel и txt, сортировка по параметрам и другие приятные мелочи.

Текущая версия v.1.13

Выглядит вот так:

Вообще эта программа — тщательно переработанный вариант старого mChecker-а, на который я получил довольно много отзывов и комментариев. Программа, по сравнению с предыдущими версиями, обладает следующими отличиями:
1. Сделано регулирование потоков «на лету», можно менять прямо во время работы (раньше надо было перезагружаться)
2. Сделано сохранение в полноценный xls, с форматированием и так далее (раньше было просто csv)
3. Написано на новых классах и компонентах, стабильность работы очень высока (mChecker и в прошлых версиях работал достаточно стабильно, но все-таки. Я лично тестил программу с максимальной нагрузкой канала 24 часа, ни сбоев, ни утечек памяти — все работает как часы).
4. Изменился интерфейс программы, стал более Win7. На совместимости со старыми версиями это не отразилось, на WinXP проверяли — все работает.
5. Появились маленькие удобные мелочи. Теперь по двойному щелчку на заголовке столбика можно отсортировать по любому параметру, учитывая буквы и цифры (сравниваются не просто строки, а понимает что 15 например меньше чем 110). Добавилась возможность перепроверить только часть результатов, и другие мелочи.

Внимание. Ко мне многие стучат с просьбами что-то исправить / доделать. Давайте я сразу расскажу что я могу и что нет, чтобы вам не стучаться зря.

Я могу и с удовольствием займусь:

  • исправить любые найденные баги в данной программе, улучшить что-нибудь по мелочам. Бесплатно.
  • доделать столбик-проверку почти на все что угодно — алекса, whois, доступность, title документа, индексированность в ПС и так далее. Стоимость приблизительно $30 -$40 за столбик.
  • прикрутить любые прокси, соксы, с авторизацией, стягиванием списков с вашего сайта и так далее. Стоимость $50 — $80.
  • написать такой же скрипт или программу для промышленной проверки параметров. Хоть скрипт на выделенном сервере, хоть программу с расчетом на миллионы строк. Стоимость более $150.

Я НЕ могу (точнее не хочу):  добавлять в данную бесплатную программу коммерческие функции, которые перечислены выше

Скачать программу можно вот отсюда: mchecker

Удачной работы!



07.02.2010

Сегодня вообще отвлеченный от основной тематики блога пост.

Преамбула: недавно нашел телефон как я хотел, чтобы одновременно пыле-влаго защищенный, но и читать книги с него можно было. Но столкнулся с проблемой: там где я книги качаю, лиибо в fb2 качается, либо глючит-тормозит и так далее. А телефон тока в txt умеет, так как read maniak установлен. Плюс на известной библиотеке lib.rus.ec ввели какое-то глупое ограничение — читать книги можно все, а скачать не все.

Пришлось «исправлять» их упущение, написать несложный скрипт, который тянет книги оттуда и сохраняет в текстовые файлики. Вот собственно этим скриптом и хочу поделиться.

Вот файлик:  librusec

Последнее обновление: 11/01/2011

Заливаем на хостинг,  на папку куда залили выставляем права 777. Заходим по этому адресу браузером, и вводим адреса книг на чтение*, по одному на строку. Получаем в той же папочке все указанные книги, отформатированные в чистый txt для readmaniak.

Выглядит это вот так:

librusec

*Заметьте, что ссылки надо вводить именно на  чтение, то есть те что заканчиваются на  /read, иначе не поймет.

** Если качаешь серию, очень удобно открыть страничку всей серии, потом на каждой книге нажать правую клавишу мыши и скопировать ссылку (ту что «читать»), и вставить в закачивалку.

На здоровье.

*обновлено 03/12/2010



Скачать все утилиты в одном архиве: redoublers

Сегодня выложу несколько утилит, не так чтобы сильно оригинальных, но мне лично сэкономивших массу времени и нервов. Все они связаны с работой со списками, с задачами типа «отобрать строки из файла 1, которых нет в файле 2″, «убрать дубли доменов» и подобными.

Что это такое. Собственно, я не претендую на оригинальность или какое-то «ноу-хау» в этих тривиальных задачах. Мало того, есть программа Text Pipe Pro, которая умеет делать все что мои утилиты и еще много-много чего. Мало того, таких утилит полно. НО — мне было влом как-то искать соответствующие програмки, писать их недолго… Ну и конечно, за 10 лет профессионального программирования я научился составлять нормальные алгоритмы, так что скорость работы у утилит, мне кажется, на высоте.

В общем первая утилита — обычный раздубливатель. Из «фишек»:

  • Можно сравнение проводить не на основании всей строки, а на основании доменов. То есть если строки — это www-адреса, ftp или email, то утилитка вычленит домены, и будет сравнивать их, ну а в результат конечно будут записаны не домены, а сами строки полностью.
  • Штатными средствами можно выбрать несколько файлов, утилита прочтет их все и сделает уникальный список на основании всех файлов. Удобно, когда есть старая база и надо добавить одну или несколько новых, прочекивая на дубли. Кстати, вернемся к режиму сравнения по доменам. Если выбрать сначала старую базу, а потом новые, то СНАЧАЛА в результат добавятся значения старой базы, а новые URL с таким же доменом не добавятся. Ну и наоборот, то есть какой файл первый выбираешь — имеет значение.
  • Естественно, программа рассчитана на многомиллонные списки. Скажем 15 миллионов (файл около 400 Mb) я ей раздубливал.

Вот скрин:

redoubler

Утилита бесплатная, текущая версия 1.00, думаю что и последняя ;)

Скачать можно здесь: ReDoubler

Ну и еще парочку утилит, которые делают следующее. Первая утилита отбирает в результат из файла №1 только те строки, которые есть в файле  №2. Вторая — удаляет из файла №1 строки, которые есть в файле №2. Типичные задачи — чекинг по блэк-листу, или выборка общих значений из двух баз.

Выглядят вот так, как близницы :)

file1file2file1file2-2

Обе программы бесплатные.

Качать отсюда: Первая и вторая.

Все утилиты в одном архиве: redoublers



Скачать можно здесь: HttpAnswer

Ну, собственно как и обещал, раз блог сделал, стало быть надо его вести. На сегодняшнюю запись решил долго не придумывать ничего нового, а так — полез на винт и посмотрел что из программ ранее не выкладывалось, и что можно без жалости отдать в паблик. Кстати программ, скриптов и других проектов на винте оказалось почти 400. Эт я типа горжусь :) . Итак:

Что это такое: Еще одна десктопная утилита. Получает ответы от сервера апача и раскладывает список URL в соответствующие файлики. Часто бывает что-нить напарсил, и перед передачей результатов в какую-нибудь сложную программу обработки (спамилку например) удобно быстренько пробежаться по списку, и те что не отвечают — сразу выкинуть.

Что умеет:

  • Задаем имя файла с исходными URL. Оптимизировано под большие размеры файлов, хоть 100 гигов.
  • Нажимаем кнопку старт/пауза. Проверяет страницы из файла-списка, и раскладывает по файликам-типам ответов. Работает на голых сокетах,  устойчивая и шустрая. Я проверял около 10 лямов URL без проблем.
  • Количество потоков выставляется в файлике settings.ini

Если вдруг кто не знает что какие ответы значат:

  • 2xx — все ОК, сервер отдает страничку (xx — любые цифры)
  • 3xx — страница перемещена, сервер отдает новый адрес
  • 4xx — страница недоступна — не существует, нет прав на просмотр, т.п.
  • 5xx — различные ошибки сервера

Внимание! По умолчанию операционная система Windows XP не позволяет держать большое количество одновременных соединений. Если у Вас XP и Вы не пропатчили систему, то производительность программы будет низкая, и при большом количестве потоков будут ноормальные странички отправляться в «Нет ответа». Как пропатчить — расскажу в следующем посте (завтра, седня влом).

>>> UPD. Вот, как и обещал: http://solutionfix.org/other/connection-limit-fix/

Скриншот. Да, вот, пожалуйста.

httpanswer

Бесплатная. Текущая версия 1.01 (она же единственная).

Скачать можно здесь: HttpAnswer



Скачать можно вот отсюда: WordCatch

Что это такое. Простая утилита, написана для моего товарища lift с nulled.ws, вытаскивает из текстового файла все слова и складывает их в другой текстовый файл, по одному на строчку. Может работать с файлами большого объема, быстрая.

Так что оно собственно делает? Поясню на примере. Есть у меня положим дамп БД на 70 гигабайт. Там библиотека, десятки тысяч книг. Беру я этой утилитой его обрабатываю, и получаю файл с выписанными в столбик словами, которые потом использую в словаре для генератора текста, ну или где-то еще. Вот. Зачем утилита? А вот специально чтобы файлы по много гигов обрабатывать быстро.

Скачать можно вот отсюда: WordCatch



Скачать можно вот отсюда: ShowForms

Что это такое. Часто бывает, что нужно «окинуть взглядом» формы на странице, с названиями и типами полей, или посмотреть где и какие прописываются куки, или какой пост-запрос будет сформирован. Для этого и предназначена эта полуслужебная утилита на базе движка Internet Explorer.

Что оно умеет:

При загрузке web-страницы: показывает запросы, которые посылает браузер.

На загруженной странице: показывает структуру форм, с указанием имен, типов полей. Также для удобства поля форм (прямо на web-странице в браузере) заполняет их именами. Такая «расшифровка» страницы делается по кнопке Dipatch.

При отправке POST-запроса: Пишет, что и куда браузер пытался запостить. Тем кто настраивает свои всякоразные сабмитеры должно очень пригодиться — так сказать, поучиться у браузера как он собирался отсылать ;)

А также: Тем, у кого есть спамилка SpamIt! — умеет отправлять прямо на сервак со спамилкой названия и типы полей, для формирования базы.

Скриншот. Вот, пожалуйста:

showforms

Как пользоваться. Да как и браузером: в поле вверху вбиваем адрес, нажимаем Enter или кнопку Load — загружается страница. Нажимаем кнопку Dispatch — в поле слева появляется структура форм загруженной страницы с точки зрения ядра Internet Explorer. При загрузке страниц или отправке (POST) запросаов в нижнем поле также пишется, что там шлет и/или получает браузер. Вот и все.

Бесплатная. Текущая версия 1.02.

Скачать можно вот отсюда: ShowForms



10.10.2007

Выпущена другая, новая версия mChecker. Переходим вот сюда: MChecker 1.10

Эта версия старая, можете конечно скачать и ее: mСhecker

Что это такое. Еще одна дескотопная программа — чекер URL. Проверяет четыре параметра: PR, ТИЦ, DMOZ (наличие сайта в каталоге DMOZ) и YAK (наличие сайта в яндекс-каталоге). Управляемое количество потоков, возможность сохранения в excel.

Скриншот. Собственно вот:

mchecker

Как пользоваться. Обычная программа для ОС Windows, не требует инсталляций, .NET и другой фигни. Скачал, запустил, работает.  Некоторые параметры выставляются из интерфейса, некоторые (настроечные) — путем редактирования файла settings.ini.

Бесплатная. Текущая версия 1.07.

Выпущена другая, новая версия mChecker. Переходим вот сюда: MChecker 1.10



Чекер ПР PrChecker

Author: SolutionFix
02.09.2007

Скачать можно вот отсюда:  PR Checker

Что это такое. Самый обычный ПР-чекер. Под ОС Windows. Многопоточный (количество потоков задается в ini-файле). Достаточно шустрый — на 256k скорость чекинга порядка 1000 url/мин.

Скриншот. Собственно вот:

prChecker

Как пользоваться. Обычная десктопная программа, скачиваем, запускаем. Инсталляции и тому подобного не надо. Можно задать количество потоков, например 20, а можно, наоборот, один поток и еще и паузы между запросами (чтобы на ночь оставить 50k чекаться и не забанило).

Бесплатная. Текущая версия 1.10 от 14.11.2011

Скачать можно вот отсюда:  PR Checker



17.01.2007

Программа не работает, в виду того что помер сам yahoo сервис «overture».

Парсер овертюры. На данный момент программа представляет исключительно историко-культурную ценность, а также является мне поводом для ностальгии об отличных дорвейных временах.

Главные «фишки» этого парсера — неограниченная глубина и неубиваемость. Поясню на примере, что я имею в виду.

Положим надо найти синонимы от слова insurance, причем запросы нас интересуют скажем от 1000 в месяц. Ставим в настройках (Меню-Работа-Настройки) парсить слова с количеством запросов более 1000, вводим (или загружаем из txt файла) слова, в даном случае одно слово — insurance, нажимаем старт. Программа опросит сервис Overture на предмет синонимов, отберет словосочетания с частотой запроса, больше указанной, и опросит Overture ПО ВСЕМ отобранным словам, из результатов отберет снова слова с частотой запроса больше указанной, и опросит Overture по этим результатам, и так пока не найдет ВСЕ словосочетания.

При этом глюки овертюры, сбои связи, временный бан от овертюры — все по..^w все равно. Как всегда многопоточность с регулируемым количеством потоков, сохранение в excel или txt. Удачного мучания овертюры Вам, дорогие товарищи!

Вот так оно выглядело:

poverture

Бесплатная. Последняя версия 1.04.

Скачать можно вот отсюда: Poverture



Скачать можно вот отсюда: Numres

Что это такое. Написанная давным-давно бесплатная утилита для несложного анализа слов: показывает количество документов, найденных по этому слову в Google, Yahoo, MSN (ныне Bing), и бид PPC Umax. Как и все утилиты подобного рода — многопоточная, регулируемое количество потоков. Из «фишек» — выход через прокси (для проверки под буржуйскими IP), регулируемый таймаут чтобы не банили поисковики, сохранение в формат для excel, возможность опрашивать Umax для своего ID, сортировка по любому полю.

Скриншот. Вот так выглядит:

numres

Как пользоваться. Как всегда, никаких инстлляций, дополнтельных модулей типа .NET и всего подобного. Скачали — запустили под ОС Windows — работаем. Практически все настройки прямо из интерфейса, с помощью редактирования settings.ini выставляется только количество потоков.

Бесплатная. Текущая версия 1.05 (поменяли Live на Bing, изменение формата google от 05.2010).

Скачать можно вот отсюда: Numres