Ручная работа
05.07.2006
Джону Грэму-Каммингу осталось около 666666 кликов для завершения своего антиспамового проекта. Приложить руку к решению этой задачи Грэм-Камминг призывает пользователей.
Джон Грэм-Камминг (John Graham-Cumming), англичанин, проживающий во Франции, опытный борец со спамом, автор персонального антиспам-модуля POPfile и Polymail - антиспамовой библиотеки, которой пользуются многие компании в спам-фильтрах.
Грэм-Камминг считает, что есть письма, которые пропустит антиспамовый фильтр, но не пропустит человек. Причем, по его мнению, люди не соглашаются с выбором машины в среднем в 1 случае из 10.
Посему Грэм-Камминг предлагает пользователям пожертвовать долей своего времени и внести свой вклад в борьбу со спамом - на специально созданном им сайте www.spamorham.org заняться сортировкой писем, разделяя их на 'spam' ('мусорные' письма) или 'ham' ('хорошие' письма).
Разумеется, ручная работа предлагается пользователям не ради развлечения: их усилиями может быть обновлен 'корпус' спамовых писем, используемый для проверки точности работы спам-фильтров.
В состав TREC (Text Retrieval Conference) 2005 Public Spam Corpus входят 100000 сообщений, около трети которых Грэм-Камминг уже рассортировал сам. Идея проекта состоит в том, что каждое письмо будет проверяться десятикратно, прежде чем попадет в разряд спама или будет обозначено как 'ham'.Так что пользователям осталось расправиться приблизительно с 66666 письмами, классификация каждого из которых требует участия десяти человек.
Труднее всего людям будет классифицировать послания фишеров - такие письма имитируют сообщения из легитимных источников, и отличить их от 'хороших' писем пользователям не всегда удается. Грэм-Камминг надеется, что результаты данного проекта будут использованы не только для создания обновленного свода спама, но и дадут более четкие знания о фишинговых письмах.