Страницы

Thursday, September 21, 2006

Spam bot

Проблема спама при постинге в HTML формах стоит уже давно. Блоггерские платформы инициировали даже специальный атрибут (точнее специальную обработку поисковыми системами) rel="nofollow", который говорит о том, что гиперлинк с таким атрибутом не должем учитываться алгоритмами ранжирования. См., например, здесь.

Широко известны подходы на основе Captcha - картинок, которые требуют введения в запрос некорого числа (слова), изображенного на картинке. Идея в том, что для распознавания изображения нужен человек и HTTP запрос не удастся выполнить от имени робота. Эти картинки существуют в самых разных реинкарнациях, простейшая форма используется, например, на LinkStore.

Сейчас, похоже, начали появляться и эвристические методы определения спама. Вот начальная публикация, которая была найдена.

И очень быстро на все отреагировал Микрософт. Сентябрьский релиз Atlas Control Toolkit содержит уже компоненту Nobot - автоматическую (или невидимую) каптчу. Так как раз и заявлены все три метода:
- принудительно что-то вычислять в JavaScript (чтобы убедиться в том, что запрос из браузера)
- ограничить частоту запросов от одного IP адреса
- проверять задержку между отрисовкой (выдачей) формы для запроса и ее постингом

Интересно, что ограничители частоты запросов мы иcпользовали в виде компонент для J2EE веб-приложений уже давно (см. здесь, например), но не трактовали это как средство борьбы со спамом.

No comments:

Post a Comment