Вы бы доверяли ИИ, который был обучен на синтетических данных, в отличие от реальных данных? Возможно, вы этого не знаете, но, вероятно, уже знаете — и это нормально, согласно результатам недавно опубликованного опроса. Нехватка высококачественных, специфичных для предметной области наборов данных для тестирования и обучения приложений искусственного интеллекта заставила команды искать альтернативы. Большинство внутренних подходов требуют, чтобы команды собирали, компилировали и аннотировали свои собственные данные, что еще больше усугубляет вероятность искажений, неадекватной производительности в крайних случаях (т. Е. плохого обобщения) и нарушений конфиденциальности.
Datagen, компания, специализирующаяся на моделировании синтетических данных, недавно поручила Wakefield Research провести онлайн-опрос 300 специалистов по компьютерному зрению, чтобы лучше понять, как они получают и используют обучающие данные AI/ML для систем и приложений компьютерного зрения и как этот выбор влияет на их проекты.
Причина, по которой люди обращаются к синтетическим данным для приложений искусственного интеллекта, ясна. Обучающие модели машинного обучения требуют высококачественных данных, которые нелегко получить. Это похоже на общепризнанный опыт.
Девяносто девять процентов респондентов, участвовавших в опросе, сообщили, что проект ML был полностью отменен из-за недостаточных данных об обучении, а 100% респондентов сообщили, что столкнулись с задержками в реализации проекта из-за недостаточных данных об обучении.
Что менее ясно, так это то, как могут помочь синтетические данные. Гил Эльбаз, технический директор и соучредитель Datagen, может иметь к этому отношение. Когда он впервые начал использовать синтетические данные в 2015 году, в рамках своей второй степени в Израильском университете Технион, он сосредоточился на компьютерном зрении и 3D-данных с использованием глубокого обучения.
Эльбаз был удивлен, увидев, что синтетические данные работают: “Это выглядело как взлом, как что-то, что не должно работать, но все равно работает. Это было очень, очень нелогично»,-сказал он.
Однако, убедившись в этом на практике, Эльбаз и его соучредитель Офир Чакон почувствовали, что здесь есть возможность. В компьютерном зрении, как и в других областях применения искусственного интеллекта, данные должны быть аннотированы, чтобы их можно было использовать для обучения алгоритмам машинного обучения. Это очень трудоемкий, предвзятый и подверженный ошибкам процесс.
“Вы выходите на улицу, фотографируете людей и вещи в больших масштабах, а затем отправляете их в компании, занимающиеся ручной аннотацией. Это не масштабируемо, и это не имеет смысла. Мы сосредоточились на том, как решить эту проблему с помощью технологического подхода, который будет масштабироваться в соответствии с потребностями этой растущей отрасли”, — сказал Эльбаз.
Datagen начал работать в режиме гаража и генерировать данные с помощью моделирования. Моделируя реальный мир, они смогли создать данные для обучения ИИ пониманию реального мира. Убедить людей в том, что это работает, было нелегкой битвой, но сегодня Эльбаз чувствует себя оправданным.
Согласно результатам опроса, 96% команд сообщают об использовании синтетических данных в определенной пропорции для обучения моделей компьютерного зрения. Интересно, что 81% используют синтетические данные в пропорциях, равных или превышающих пропорции данных, полученных вручную.
Синтетические данные, отметил Эльбаз, могут означать многое. Datagen фокусируется на так называемых имитированных синтетических данных. Это подмножество синтетических данных, ориентированных на 3D-моделирование реального мира. Виртуальные изображения, снятые в рамках этого 3D-моделирования, используются для создания полностью помеченных визуальных данных, которые затем могут быть использованы для обучения моделей.
Смоделированные синтетические данные на помощь
По словам Эльбаза, на практике это работает по двум причинам. Во-первых, ИИ действительно ориентирован на данные.
“Допустим, у нас есть нейронная сеть, например, для обнаружения собаки на изображении. Таким образом, он занимает 100 ГБ изображений собак. Затем он выводит очень специфический вывод. Он выводит ограничивающую рамку, в которой на изображении изображена собака. Это похоже на функцию, которая отображает изображение в определенную ограничивающую рамку”.
“Сами нейронные сети весят всего несколько мегабайт, и на самом деле они сжимают сотни гигабайт визуальной информации и извлекают из нее только то, что необходимо. И поэтому, если вы посмотрите на это так, то сами по себе нейронные сети менее интересны. Самое интересное на самом деле-это данные”.
Итак, вопрос в том, как мы создаем данные, которые могут наилучшим образом представлять реальный мир? По утверждению Эльбаза, это лучше всего сделать путем создания имитированных синтетических данных с использованием методов, таких как GANs.
Это один из способов сделать это, но, по словам Эльбаза, очень сложно создавать новую информацию, просто обучая алгоритм определенному набору данных, а затем используя эти данные для создания дополнительных данных. Это не работает, потому что существуют определенные границы информации, которую вы представляете.
То, что делает Datagen — и то, что делают такие компании, как Tesla, — это создание симуляции с акцентом на понимание людей и окружающей среды. Вместо того, чтобы собирать видео о том, как люди что-то делают, они собирают информацию, которая отделена от реального мира и имеет высокое качество. Это сложный процесс, который включает в себя сбор высококачественных сканирований и данных захвата движения из реального мира.
Затем компания сканирует объекты и моделирует процедурные среды, создавая отдельные фрагменты информации из реального мира. Магия заключается в том, чтобы подключить его в масштабе и предоставить пользователю управляемым, простым способом. Эльбаз описал этот процесс как комбинацию режиссерских аспектов и моделирования аспектов динамики реального мира с помощью моделей и сред, таких как игровые движки.
Это сложный процесс, но, по-видимому, он работает. И это особенно ценно для крайних случаев, которые трудно найти в противном случае, таких как экстремальные сценарии при автономном вождении, например. Возможность получать данные для этих крайних случаев очень важна.
Однако вопрос на миллион долларов заключается в том, можно ли обобщить генерируемые синтетические данные за пределами компьютерного зрения. Нет ни одного домена приложений искусственного интеллекта, который не испытывал бы потребности в данных и не извлекал бы выгоду из дополнительных высококачественных данных, репрезентирующих реальный мир.
Отвечая на этот вопрос, Эльбаз упомянул неструктурированные данные и структурированные данные отдельно. Неструктурированные данные, такие как изображения или аудиосигналы, по большей части могут быть смоделированы. Текст, который считается полуструктурированными данными, и структурированные данные, такие как табличные данные или медицинские записи,-это разные вещи. Но и там, отметил Эльбаз, мы видим много инноваций.
Многие стартапы фокусируются на табличных данных, в основном связанных с конфиденциальностью. Использование табличных данных вызывает опасения по поводу конфиденциальности. Вот почему мы видим работу по созданию возможности моделирования данных из существующего пула данных, но не по расширению объема информации. Синтетические табличные данные используются для создания уровня соблюдения конфиденциальности поверх существующих данных.
Синтетические данные могут быть переданы специалистам по обработке данных по всему миру, чтобы они могли начать обучение моделей и создавать идеи, фактически не получая доступа к базовым данным реального мира. Эльбаз считает, что эта практика получит более широкое распространение, например, в сценариях, подобных обучению персональных помощников, поскольку она устраняет риск использования личных данных.
Устранение предвзятости и конфиденциальности
Еще одним интересным побочным эффектом использования синтетических данных, выявленным Эльбазом, было устранение предвзятости и повышение качества аннотаций. В аннотированных вручную данных проявляется предвзятость, будь то из-за различий в представлениях аннотаторов или невозможности эффективно аннотировать неоднозначные данные. В синтетических данных, полученных с помощью моделирования, это не проблема, так как данные получаются идеально и последовательно предварительно аннотированными.
В дополнение к компьютерному зрению, Datagen стремится расширить этот подход к аудио, поскольку руководящие принципы схожи. Помимо суррогатных синтетических данных для обеспечения конфиденциальности, а также видео-и аудиоданных, которые могут быть сгенерированы с помощью моделирования, есть ли шанс, что мы когда-нибудь увидим синтетические данные, используемые в таких сценариях, как электронная коммерция?
Эльбаз считает, что это может быть очень интересным вариантом использования, вокруг которого можно было бы создать целую компанию. Как табличные данные, так и неструктурированные поведенческие данные должны быть объединены — например, как потребители перемещают мышь и что они делают на экране. Но существует огромное количество информации о поведении покупателей, и должна быть возможность моделировать взаимодействия на сайтах электронной коммерции.
Это может быть полезно для разработчиков продуктов, оптимизирующих сайты электронной коммерции, а также может быть использовано для обучения моделей для прогнозирования. В этом сценарии нужно было бы действовать с осторожностью, так как вариант использования электронной коммерции больше напоминает подход к данным, сгенерированным GAN, поэтому он ближе к структурированным синтетическим данным, чем к неструктурированным.
“Я думаю, что вы не собираетесь создавать новую информацию. Что вы можете сделать, так это убедиться, что, например, существует версия данных «Черной пятницы», соответствующая требованиям конфиденциальности. Цель состояла бы в том, чтобы данные наилучшим образом отображали данные реального мира, не нарушая конфиденциальность клиентов. А затем вы можете удалить реальные данные в определенный момент. Таким образом, у вас будет замена реальным данным, без необходимости отслеживать клиентов пограничным этическим способом”, — сказал Эльбаз.
Суть в том, что, хотя синтетические данные могут быть очень полезны в определенных сценариях и в настоящее время наблюдается рост их внедрения, их ограничения также должны быть ясны.
Источник: https://venturebeat.com/2021/12/21/taking-the-world-by-simulation-the-rise-of-synthetic-data-in-ai/