Скачать все утилиты в одном архиве: redoublers

Сегодня выложу несколько утилит, не так чтобы сильно оригинальных, но мне лично сэкономивших массу времени и нервов. Все они связаны с работой со списками, с задачами типа «отобрать строки из файла 1, которых нет в файле 2″, «убрать дубли доменов» и подобными.

Что это такое. Собственно, я не претендую на оригинальность или какое-то «ноу-хау» в этих тривиальных задачах. Мало того, есть программа Text Pipe Pro, которая умеет делать все что мои утилиты и еще много-много чего. Мало того, таких утилит полно. НО — мне было влом как-то искать соответствующие програмки, писать их недолго… Ну и конечно, за 10 лет профессионального программирования я научился составлять нормальные алгоритмы, так что скорость работы у утилит, мне кажется, на высоте.

В общем первая утилита — обычный раздубливатель. Из «фишек»:

  • Можно сравнение проводить не на основании всей строки, а на основании доменов. То есть если строки — это www-адреса, ftp или email, то утилитка вычленит домены, и будет сравнивать их, ну а в результат конечно будут записаны не домены, а сами строки полностью.
  • Штатными средствами можно выбрать несколько файлов, утилита прочтет их все и сделает уникальный список на основании всех файлов. Удобно, когда есть старая база и надо добавить одну или несколько новых, прочекивая на дубли. Кстати, вернемся к режиму сравнения по доменам. Если выбрать сначала старую базу, а потом новые, то СНАЧАЛА в результат добавятся значения старой базы, а новые URL с таким же доменом не добавятся. Ну и наоборот, то есть какой файл первый выбираешь — имеет значение.
  • Естественно, программа рассчитана на многомиллонные списки. Скажем 15 миллионов (файл около 400 Mb) я ей раздубливал.

Вот скрин:

redoubler

Утилита бесплатная, текущая версия 1.00, думаю что и последняя ;)

Скачать можно здесь: ReDoubler

Ну и еще парочку утилит, которые делают следующее. Первая утилита отбирает в результат из файла №1 только те строки, которые есть в файле  №2. Вторая — удаляет из файла №1 строки, которые есть в файле №2. Типичные задачи — чекинг по блэк-листу, или выборка общих значений из двух баз.

Выглядят вот так, как близницы :)

file1file2file1file2-2

Обе программы бесплатные.

Качать отсюда: Первая и вторая.

Все утилиты в одном архиве: redoublers



  • Nataly комментирует:

    спасибо, скачала програмку для раздубливания, очень помогла ;)

  • SolutionFix комментирует:

    На здоровье, заходите еще :)

  • xrummmmm комментирует:

    Хорошие. Только всё это есть (даже намного более) в хрумере. А так, у кого его нет пока — пригодится очень.

  • maxswells комментирует:

    спасибо, програмa очень помогла. так держать. и кстати хрумера фильтр плохо работает.

  • ewolwer комментирует:

    xrummmmm, в хруме много интересного есть, и ПОДОБНЫХ тулзеней. А если говорить по существу, попробуй тем же хрумеровским чекером от дублей отсеч дубликаты из апостеровской базы актив линкс, или поработать с этой же актив линкс удалить строки которые есть в другой базе или которых нету…тут у тулзеней спектр чутка пошире чем у подобных в хрумере ;)

  • tempor комментирует:

    А можно перетянуть ваш пост к себе в блог ? На правах копи-паста. Активную гиперссылку на solutionfix.org конечно поставлю..

  • SolutionFix комментирует:

    Конечно можно!

  • perfo комментирует:

    Не получается запихнуть rss читалке Abilon. Точнее получается, но прочесть не могу — прога кажись не может ничего получить. Добавляю вот этот адрес ленты — http://solutionfix.org/feed/. Помогите придурку — кто чем читает solutionfix.org?

  • petrov комментирует:

    Скачал. Есть правда и хрум, и раптор, и текст пайп, но ничё, пригодиццо, тем более что с большими файлами умеют работать. Твои проги уважаю ещё со времён бид-чекеров и прочих полезных мелочей

  • last комментирует:

    Спасибо за утилиты!

  • Adrath комментирует:

    Я запихнул 13 гигов файлов с кеями, сколько раздубливатся будет? Проц core2duo2400 мгц , 2г озу.

  • SolutionFix комментирует:

    К старости раздублит. Нереально такой объем.

  • Dark-Person комментирует:

    Уважаемый Тут Каспер интересное предупреждение
    выдал обнаружен Trojan-Banker.Win32.Banbra.uun
    и сылочку сописаним :
    http://www.securelist.com/ru/search?VN=Trojan-Banker.Win32.Banbra.uun&sha1=e706169241c5a4b13de29f21aed6662bd81cae37

  • Dark-Person комментирует:

    Уважаемый ! видимо вы действительно хороший
    програмер ! так что насчет предупреждения Касперским ?
    Врет поди собака?

  • SolutionFix комментирует:

    Та врет конечно…
    Но никак избавиться от этого не могу, перекомпиляции хватает на 2-3 дня.

  • Иван комментирует:

    Супер программа раздубливатель. очень помогла. а с Text Pipe Pro даже не понял как такое можно сделать. автору — мое уважение.

  • Иван комментирует:

    единственное, что долго разбирался — надо, чтобы адрес был с http.

  • Газификация комментирует:

    В «парочке утилит» очень не хватает чекбокса как в первой программе — «Сравнивать не строки, а домены».

Оставить комментарий: