Материалы за Сентябрь 14th, 2009
Скачать все утилиты в одном архиве: redoublers
Сегодня выложу несколько утилит, не так чтобы сильно оригинальных, но мне лично сэкономивших массу времени и нервов. Все они связаны с работой со списками, с задачами типа «отобрать строки из файла 1, которых нет в файле 2″, «убрать дубли доменов» и подобными.
Что это такое. Собственно, я не претендую на оригинальность или какое-то «ноу-хау» в этих тривиальных задачах. Мало того, есть программа Text Pipe Pro, которая умеет делать все что мои утилиты и еще много-много чего. Мало того, таких утилит полно. НО – мне было влом как-то искать соответствующие програмки, писать их недолго… Ну и конечно, за 10 лет профессионального программирования я научился составлять нормальные алгоритмы, так что скорость работы у утилит, мне кажется, на высоте.
В общем первая утилита – обычный раздубливатель. Из «фишек»:
- Можно сравнение проводить не на основании всей строки, а на основании доменов. То есть если строки – это www-адреса, ftp или email, то утилитка вычленит домены, и будет сравнивать их, ну а в результат конечно будут записаны не домены, а сами строки полностью.
- Штатными средствами можно выбрать несколько файлов, утилита прочтет их все и сделает уникальный список на основании всех файлов. Удобно, когда есть старая база и надо добавить одну или несколько новых, прочекивая на дубли. Кстати, вернемся к режиму сравнения по доменам. Если выбрать сначала старую базу, а потом новые, то СНАЧАЛА в результат добавятся значения старой базы, а новые URL с таким же доменом не добавятся. Ну и наоборот, то есть какой файл первый выбираешь – имеет значение.
- Естественно, программа рассчитана на многомиллонные списки. Скажем 15 миллионов (файл около 400 Mb) я ей раздубливал.
Вот скрин:
Утилита бесплатная, текущая версия 1.00, думаю что и последняя
Скачать можно здесь: ReDoubler
Ну и еще парочку утилит, которые делают следующее. Первая утилита отбирает в результат из файла №1 только те строки, которые есть в файле №2. Вторая – удаляет из файла №1 строки, которые есть в файле №2. Типичные задачи – чекинг по блэк-листу, или выборка общих значений из двух баз.
Выглядят вот так, как близницы
Обе программы бесплатные.
Качать отсюда: Первая и вторая.
Все утилиты в одном архиве: redoublers



