Особенность капчи reCAPTCHA от Google: почему все-таки проходит спам

Краткое содержание поста: одно из слов генерируется самим сервисом (его боты по-видимому без проблем опознают), а другое берется из «книжек» и является необязательным для заполнения. Это делает рекапчу не очень то и полезной в деле защиты от спама.

Начну свое повествование со следующих строк… Всем (ну или не всем) известно, что веб-сервис reCAPTCHA от компании Google помимо своей основной задачи, а именно защиты от автоматически рассылаемого спама в комментариях на сайтах, выполняет и дополнительную не менее важную функцию, которая звучит, как — «stop spam, read books» (в переводе что-то типа «остановите спам, читайте книги»).

Однако знаете ли вы, что собственно сама капча состоит из двух слов, разделенных пробелом, одно из которых можно вводить буквально от балды, и система ничего вам не скажет, молча пропустит сообщение.

Обход reCAPTCHA

Синим штрихом я подчеркнул тот набор символов, который является фактически пустышкой. Визуально человеку её (пустышку) легко распознать.  Ну, а текст, генерируемый автоматически, т.е. самой рекапчей явно отличается от того, что OCR не под силу: он всегда имеет более четкие контуры, волной, не сильно размыт.

Я не специализируюсь на программном распознавании символов на картинках, но даже мне нетрудно догадаться почему спам-боты все-таки научились обходить данную защиту. Ввел я в поле набор такой букв ss commwe.  Сообщение все равно было одобрено, потому что автоматизированным способом одно из слов не распознается напрочь. Оно ведь берется из (цитируя справочную):

Проходя проверку reCAPTCHA, вы помогаете оцифровывать тексты, написанные до появления компьютеров. Слова, которые мы показываем, взяты из старых изданий, которые мы сканируем и оцифровываем, чтобы сохранить их и сделать доступными для всего мира. В некоторых случаях компьютеры не могут распознать текст, и тогда для оцифровки мы используем данные, полученные от пользователей.

А также с фотографий (номера домов, надписи на табличках и прочая информация, которую собирают видимо для Google Maps или чего-то подобного, и гугловцы пока не могут научить свои программы распознавать их).

Смотрим ещё примеры:

reCAPTCHA reCAPTCHA

Данный материал, возможно, будет полезен ленивым комментаторам, а также тем, кто недолюбливает reCAPTCHA, и спамерам. Последние кстати её легко обходят с недавних пор, — по-видимому раньше всех заметили такой умышленный недостаток сервиса.

Опубликовано 2-10-2013 в 11:41


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>











Свежие комментарии

  • krasnov8953: к записи Не работает как мне кажется строчка $newTvId = $ »
  • Dimanski: к записи ничего не понимаю. Ставлю ModX на хостинг r01.ru »
  • Дмитрий: к записи Спасибо! Очень выручили. С битриксом беда, а прав »
  • леонид: к записи как сделать что были в ряд? у меня получается по о »
  • Администратор: к записи Статический IP. »
  • Steel: к записи Администратор, вы данную проблему решили подключен »
  • Дмитрий: к записи Хотел узнать как прикрутить данное окно (http://re »

Последние твиты