Яндекс научился находить дубли картинок

24 Ноя 2008 admin | Рубрика: Новости, Поисковая оптимизация.

Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.

Наше исследование картинок Рунета показало, что из 600 млн картинок половина уникальна (300 млн), вторая половина склеивается в отношении 3:1, 200 из 300 млн имеют дубликаты только на своем сайте.

Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.

Самый многочисленный класс картинок, оказавшийся в выигрыше, это пары – исходное изображение и его уменьшенная копия, лежащие на одном сайте. Оказывается, что маленькие картинки гораздо чаще хорошо подписаны, но они не попадают на первые страницы поисковиков из-за своих размеров. Благодаря новой технологии мы научились находить маленькую картинку, а показывать ее большой оригинал.

На странице просмотра картинки мы показываем табличку копий картинки на разных сайтах. Сами того не желая, мы рассказываем веб-мастерам о сайтах, которые без разрешения или же во благо воспользовались их творениями. Для этого достаточно лишь найти свою картинку в поиске.

Задача поиска дубликатов оказалась технически сложной. Есть много научных работ на тему интеллектуального сравнения двух изображений, а для специалистов по «компьютерному зрению» задача опознать пару изображений, полученных изменением размеров, не является серьезной задачей. Однако никто из этих специалистов не имел возможности поработать с базой из 600 млн картинок. Попарное их сравнение на одном компьютере потребовало бы около 300 млн лет. К сожалению, обычными методами с помощью хеш-функций задачу решить тоже не удается. Но мы это сделали!

источник: http://company.yandex.ru/blog/message.xml?msg=104394&p=1

От редактора adplace.ru: Хехехе, фотошоп в руки в вперед. Например так(работает на картинке с большим белым фоном): берем картинку, сдвигаем вправо и вниз,  в левый верхний угол вставляем маленький логотип сайта. Вуаля, уникальная картинка. ИМХО, не тем ПС занята.

Теги: ,

Поделитесь своими мыслями