Скачать все утилиты в одном архиве: redoublers
Сегодня выложу несколько утилит, не так чтобы сильно оригинальных, но мне лично сэкономивших массу времени и нервов. Все они связаны с работой со списками, с задачами типа «отобрать строки из файла 1, которых нет в файле 2″, «убрать дубли доменов» и подобными.
Что это такое. Собственно, я не претендую на оригинальность или какое-то «ноу-хау» в этих тривиальных задачах. Мало того, есть программа Text Pipe Pro, которая умеет делать все что мои утилиты и еще много-много чего. Мало того, таких утилит полно. НО — мне было влом как-то искать соответствующие програмки, писать их недолго… Ну и конечно, за 10 лет профессионального программирования я научился составлять нормальные алгоритмы, так что скорость работы у утилит, мне кажется, на высоте.
В общем первая утилита — обычный раздубливатель. Из «фишек»:
- Можно сравнение проводить не на основании всей строки, а на основании доменов. То есть если строки — это www-адреса, ftp или email, то утилитка вычленит домены, и будет сравнивать их, ну а в результат конечно будут записаны не домены, а сами строки полностью.
- Штатными средствами можно выбрать несколько файлов, утилита прочтет их все и сделает уникальный список на основании всех файлов. Удобно, когда есть старая база и надо добавить одну или несколько новых, прочекивая на дубли. Кстати, вернемся к режиму сравнения по доменам. Если выбрать сначала старую базу, а потом новые, то СНАЧАЛА в результат добавятся значения старой базы, а новые URL с таким же доменом не добавятся. Ну и наоборот, то есть какой файл первый выбираешь — имеет значение.
- Естественно, программа рассчитана на многомиллонные списки. Скажем 15 миллионов (файл около 400 Mb) я ей раздубливал.
Вот скрин:
Утилита бесплатная, текущая версия 1.00, думаю что и последняя
Скачать можно здесь: ReDoubler
Ну и еще парочку утилит, которые делают следующее. Первая утилита отбирает в результат из файла №1 только те строки, которые есть в файле №2. Вторая — удаляет из файла №1 строки, которые есть в файле №2. Типичные задачи — чекинг по блэк-листу, или выборка общих значений из двух баз.
Выглядят вот так, как близницы
Обе программы бесплатные.
Качать отсюда: Первая и вторая.
Все утилиты в одном архиве: redoublers




Сентябрь 16th, 2009 at 13:10
спасибо, скачала програмку для раздубливания, очень помогла
Сентябрь 16th, 2009 at 14:15
На здоровье, заходите еще
Октябрь 6th, 2009 at 22:23
Хорошие. Только всё это есть (даже намного более) в хрумере. А так, у кого его нет пока — пригодится очень.
Ноябрь 5th, 2009 at 01:52
спасибо, програмa очень помогла. так держать. и кстати хрумера фильтр плохо работает.
Ноябрь 17th, 2009 at 01:34
xrummmmm, в хруме много интересного есть, и ПОДОБНЫХ тулзеней. А если говорить по существу, попробуй тем же хрумеровским чекером от дублей отсеч дубликаты из апостеровской базы актив линкс, или поработать с этой же актив линкс удалить строки которые есть в другой базе или которых нету…тут у тулзеней спектр чутка пошире чем у подобных в хрумере
Январь 19th, 2010 at 13:32
А можно перетянуть ваш пост к себе в блог ? На правах копи-паста. Активную гиперссылку на solutionfix.org конечно поставлю..
Январь 20th, 2010 at 12:34
Конечно можно!
Январь 21st, 2010 at 16:41
Не получается запихнуть rss читалке Abilon. Точнее получается, но прочесть не могу — прога кажись не может ничего получить. Добавляю вот этот адрес ленты — http://solutionfix.org/feed/. Помогите придурку — кто чем читает solutionfix.org?
Февраль 15th, 2010 at 12:23
Скачал. Есть правда и хрум, и раптор, и текст пайп, но ничё, пригодиццо, тем более что с большими файлами умеют работать. Твои проги уважаю ещё со времён бид-чекеров и прочих полезных мелочей
Февраль 24th, 2010 at 13:20
Спасибо за утилиты!
Март 2nd, 2010 at 16:33
Я запихнул 13 гигов файлов с кеями, сколько раздубливатся будет? Проц core2duo2400 мгц , 2г озу.
Март 3rd, 2010 at 08:55
К старости раздублит. Нереально такой объем.
Апрель 23rd, 2010 at 19:30
Уважаемый Тут Каспер интересное предупреждение
выдал обнаружен Trojan-Banker.Win32.Banbra.uun
и сылочку сописаним :
http://www.securelist.com/ru/search?VN=Trojan-Banker.Win32.Banbra.uun&sha1=e706169241c5a4b13de29f21aed6662bd81cae37
Апрель 23rd, 2010 at 19:43
Уважаемый ! видимо вы действительно хороший
програмер ! так что насчет предупреждения Касперским ?
Врет поди собака?
Апрель 26th, 2010 at 10:38
Та врет конечно…
Но никак избавиться от этого не могу, перекомпиляции хватает на 2-3 дня.
Декабрь 30th, 2010 at 13:21
Супер программа раздубливатель. очень помогла. а с Text Pipe Pro даже не понял как такое можно сделать. автору — мое уважение.
Декабрь 30th, 2010 at 13:22
единственное, что долго разбирался — надо, чтобы адрес был с http.
Июнь 4th, 2011 at 11:18
В «парочке утилит» очень не хватает чекбокса как в первой программе — «Сравнивать не строки, а домены».