AbavaNet technical corner: Копатель

Интересный Open Source инструмент по извлечению данных с веб-страниц: Web harvest. В основе - преобразование HTML файла, загруженного с опрашиваемой страницы в XML, с последующей обработкой уже полученного XML файла. Реализован на Java.

P.S. На уровне веб-компонент для решения задач извлечения данных из HTML страниц можно воспользоваться следующей библиотекой из Coldtags suite: Request taglib.