
Новый день, новый спор вокруг искусственного интеллекта. На этот раз Meta была обвинена в использовании пиратского контента с торрентов для обучения своей большой языковой модели (LLM) Llama, которая поддерживает Meta AI. Это дело стало одним из первых исков об авторских правах, поданных против технологической компании, занимающейся обучением ИИ.
Документы показывают, что Meta AI обучался с использованием пиратского контента.
Как сообщает ПроводнойВ 2023 году на Meta был подан иск по обвинению в обучении Llama, LLM компании, пиратскому контенту. Дело стало известно как «Кадрей и др. против Meta Platforms» и было подано романистами Ричардом Кадри и Кристофером Голденом, которые утверждали, что Meta использовала контент, защищенный авторским правом, без разрешения.
До сих пор Мета передавала в суд документы с отредактированной информацией, но судья Винс Чабрия из Окружного суда США Северного округа Калифорнии распорядился обнародовать оригиналы документов – что и произошло.
Документы раскрывают разговоры между сотрудниками Meta о Meta AI и Llama. В одном из разговоров инженер говорит, что «торрент с [Meta-owned] корпоративный ноутбук кажется неподходящим», что подтверждает, что компания использовала пиратский контент для обучения своего ИИ. Другой разговор предполагает, что «МЗ» (Марк Цукеберг) санкционировал использование пиратских материалов.
Имеющиеся данные свидетельствуют о том, что Meta использовала контент из LibGen, огромной библиотеки пиратских книг, журналов и научных статей. LibGen был создан в России в 2008 году и с тех пор стал объектом многочисленных исков о нарушении авторских прав, хотя никто не знает, кто на самом деле управляет «пиратским хабом». Сообщается, что Meta также использовала контент из других «теневых библиотек» для обучения ИИ.
Компания утверждает, что использовала общедоступные материалы в соответствии с правовой доктриной «добросовестного использования», которая позволяет использовать контент, защищенный авторским правом, без разрешения при определенных обстоятельствах, которые анализируются в каждом конкретном случае. Meta также утверждает, что они просто «используют текст для статистического моделирования языка и создания оригинального выражения».
А как насчет Apple Intelligence?

Это не первый случай, когда крупные технологические компании обвиняются в обучении моделей ИИ с помощью контента, защищенного авторским правом. В прошлом году расследование показало, что модель OpenELM, созданная Apple, включала субтитры из более чем 170 000 видеороликов YouTube.
Хотя поначалу это заставило людей поверить, что Apple использует контент, защищенный авторским правом, для обучения Apple Intelligence, позже компания объяснила, что OpenELM — это модель с открытым исходным кодом, созданная для исследовательских целей, и что ее база данных не используется для поддержки Apple Intelligence.
По словам Apple, ее функции искусственного интеллекта, доступные в iOS и macOS, обучаются «на лицензионных данных, включая данные, выбранные для улучшения конкретных функций, а также общедоступные данные, собранные нашим веб-сканером».
Стоит отметить, что многие крупные издательства, такие как Нью-Йорк Таймс и Атлантика решили не делиться своим контентом с тренингами Apple Intelligence.
Meta обвинили в обучении своего ИИ с использованием пиратского контента с торрентов