При запуске в 2007-м году, алгоритм контроля нарушений авторского права на YouTube был далёк от идеального. Но эволюция Content ID сделала его не только эффективным, но и привлекательным для правообладателей.
Годом ранее, когда Google купил крупнейший видеохостинг в мире, компания понимала, что также приобретает самую большую юридическую головную боль вместе с ним. Так что, всего через год после совершения сделки, компания запустила инструмент для борьбы с нарушениями авторского права, разработка которого была по зубам только такой изобретательной компании как Google: Content ID.
Content ID дал правообладателям автоматический способ отслеживания неавторизованных копий видео и песен, размещенных на YouTube. Появилась даже возможность выбрать: заблокировать контент или направить его монетизацию на себя. Предсказуемо, система была далека от совершенства: оставлять на усмотрение машин такой деликатный и полный нюансов вопрос, как авторское право, может легко привести к осечкам и разочарованиям от которых страдают все стороны процесса. Также, самые упрямые нарушители всё равно изобретут какой-нибудь хитрый способ обойти копирайт-роботов: прежде всего, частично искажая аудио и видео, чтобы избежать детекции.
Почти десятилетие спустя, Content ID прошел большой путь. Система – принесшая, по словам компании, более 2 млрд. долларов выручки для правообладателей – «поумнела» в поиске совпадений видео и аудио и стала гораздо гибче в разрешении споров, связанных с авторских правом. Места для улучшений всё ещё достаточно, но Content ID является редким примером того, как технологический гигант занимает проактивную позицию в комплексной проблеме и обучается на своих ошибках в процессе.
Одним из самых примечательных фактов о Content ID, за исключением недостатков и критики, является то, что у YouTube не было никаких юридических обязательств для его создания. Ещё с середины 90-х сайты, позволяющие пользователям загружать на них свой контент, были защищены от преследований несколькими положениями Digital Millennium Copyright Act (DMCA). Такие гиганты как YouTube или SoundCloud – следствие принятия DMCA.
Для YouTube, который сразу же набрал солидную популярность в 2006-м и до сих пор продолжает это делать, оставить всё на усмотрение DMCA и системы «уведомление – удаление», которая используется в нём, стало бы настоящей катастрофой. Также это неизбежно привело бы к искам и судебным тяжбам – как и произошло в 2007-м, когда Viacom безуспешно пытался отсудить у YouTube 1 млрд. долларов.
Всё это и привело к рождению Content ID. Система, которая сейчас обслуживает 98% копирайт-запросов на YouTube, сканирует загруженный контент и сверяет его с гигантской библиотекой на 50 млн. референсов, предоставленных правообладателями. Используя метод, схожий со снятием отпечатков пальцев, видео разделяется на тысячи индивидуальных кадров и затем каждый из них автоматически сверяется с референсной библиотекой. В случае с аудио, процесс немного проще, а недавно YouTube внедрили и детектор мелодий – чтобы помочь отследить несанкционированные кавер-версии песен. Если системой обнаруживается совпадение, видео помечается, а правообладатель получает оповещение и решает, как быть дальше. Они могут заблокировать видео, потребовать удаления контента (в случаях, когда только части ролика содержат материалы, защищенные авторским правом), или же оставить видео как есть, но монетизировать его в свою пользу. Несложно догадаться, что именно эта опция породила немало споров вокруг Content ID. Сами Google тоже признают, что система несовершенна и возможны ложные срабатывания, поэтому предлагают возможность оспорить совпадение, не удаляя видео.
Конечно же, некоторые случае очевиднее других. Если загрузить на свой аккаунт полнометражный фильм, слегка исказив картинку и звук чтобы не быть обнаруженным Content ID, то это очевидное нарушение и обсуждать здесь нечего. Но если защищенный материал используется лишь частично, в рамках добросовестного использования, предусмотренного законами об авторском праве, то система может неправильно отметить ролик, как нарушающий копирайт. В этом случае, автор ролика может обжаловать это решение и заморозить жалобу на 30 дней, в течении которых правообладатель сможет ответить и обосновать свои претензии. Если же правообладатель молчит, то жалоба автоматически снимается по истечению этого срока.
Раньше жалоба Content ID автоматически приводила к перенаправлению потока монетизации в сторону правообладателя, что приводило к множеству упреков в том, что для правообладателей создаются предпочтительные условия. Особенно по этому поводу возмущалось игровое комьюнити – геймплейные видео частенько «попадали под раздачу» Content ID, который, без лишних разговоров, начинал монетизировать видео в сторону разработчиков. Но ранее в этом году YouTube обновил процесс обжалования, так что теперь, когда возникают подобные ситуации, прибыль от показа рекламы «замораживается», а затем направляется к победителю спора между автором ролика и правообладателем.
Чтобы смягчить трения между креаторами и правообладателями, YouTube также улучшает и алгоритмы, которые изначально определяют совпадения - искусственное «зрение» становится более чётким. В этом ему помогает технология «картографирования» ролика, когда составляется абстрактная карта всего ролика из ключевых кадров, более светлые из которых символизируют потенциальные нарушения.
По мере роста как количества роликов на сайте, так и базы данных референсов, для оперативной работы системы требуются все большие и большие вычислительные мощности. Чтобы сберечь Content ID как быструю и справедливую систему, инженеры YouTube подключили её к Google Brain – нейронной сети глубинного обучения компании. Используя суперкомпьютеры Google, Content ID оперативно пополняет и базу референсов, и становится всё искусней в поисках нарушителей. Одним из главных преимуществ использования Google Brain является именно адаптация к новым способам обхода системы, которые изобретают пользователи. А они смело экспериментируют: зеркально отражают видео по горизонтали, изменяют соотношения сторон, добавляют светлые пятна на картинку и придумывают всякие хитрости в борьбе с Content ID. Разработчики системы должны постоянно совершенствовать продукт, иначе он быстро потеряет свою ценность. Обучение системы при помощи Google Brain даёт YouTube весомое преимущество в схватке с контент-пиратами.
Безусловно, игра в кошки-мышки между пользователями и правообладателями продолжится. Но, судя по эволюции Content ID с момента его запуска, победителем из этой схватки выйдет именно он.