Intel и Blockade Labs опубликовали модель для синтеза 3D-изображений

22.06.2023 12:41

Компании Intel и Blockade Labs совместно разработали модель машинного обучения LDM3D (Latent Diffusion Model for 3D) для генерации изображений и связанных с ними карт глубины на основе текстового описания на естественном языке. Разработка напоминает систему синтеза изображений Stable Diffusion, но позволяет формировать трёхмерный визуальный контент, такой как сферические панорамные изображения, которые можно просматривать в режиме 360 градусов. С практической стороны модель может применяться в играх и системах виртуальной реальности для интерактивного формирования трёхмерных окружений.

Для свободной загрузки предложена готовая модель для систем машинного обучения, которую можно использовать с PyTorch и кодом, рассчитанным на генерацию изображений при помощи моделей от проекта Stable Diffusion. Модель распространяется под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях. Распространение под открытой лицензией даёт возможность исследователям и заинтересованным разработчикам улучшать модель в зависимости от своих потребностей и оптимизировать её для узкоспециализированных применений.

Для обучения модели использован открытый набор данных LAION-400M, подготовленный сообществом LAION (Large-scale Artificial Intelligence Open Network), развивающим инструменты, модели и коллекции данных для создания свободных систем машинного обучения. Коллекция LAION-400M включает 400 миллионов изображений с текстовыми описаниями.

Помимо изображений и их текстовых описаний при обучении модели LDM3D также задействованы карты глубины, сгенерированные для каждого изображения при помощи системы машинного обучения DPT (Dense Prediction Transformer), позволяющей прогнозировать относительную глубину каждого пикселя плоского изображения. По сравнению с технологиями прогнозирования глубины на стадии постобработки, модель LDM3D, изначально обученная с учётом глубины, позволяет получать более точную информацию о глубине на стадии генерации. Другим достоинством модели является возможность выдачи данных о глубине без увеличения числа параметров - число параметров в модели LDM3D примерно соответствует последней модели Stable Diffusion.

Для демонстрации возможности модели подготовлено приложение DepthFusion, позволяющее на основе двумерных RGB-изображений и карт глубины создавать интерактивные окружения для просмотра в режиме 360-градусов. Приложение написано на визуальном языке программирования TouchDesigner, подходящем для создания интерактивного мультимедийного контента в режиме реального времени. Модель LDM3D также может использоваться для генерации и изменения изображений на основе предложенного шаблона, проецирования результата на сферу для создания окружающего пространства, генерации изображений с учётом различных позиций наблюдателя и формирования видео на основе виртуального перемещения камеры.

Предполагается, что предложенная технология обладает большим потенциалом в создании новых методов взаимодействия с пользователем, которые могут оказаться востребованными в различных индустриях - от развлечений и игр до архитектуры и дизайна. Например, LDM3D может применяться для создания интерактивных музеев и окружений виртуальной реальности, формирующих детализированное окружение на основе пожеланий на естественном языке.

исправить +15 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/59325-ldm3d

Ключевые слова: ldm3d, 3d, ai

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (22)

1.1, Аноним (1), 13:02, 22/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
И кто тут теперь скажет что Blockade Labs не лучший друг опенсорса?

2.12, васян (?), 22:06, 22/06/2023 [^] [^^] [^^^] [ответить]	–4 +/–
Ага, очередной говнокод подъехал: на сайте у них можно попробовать как оно работает https://huggingface.co/Intel/ldm3d?text=reddish+cat+lying+on+a+bed+like+a+pro так вот прям ща получил ошибку: module 'diffusers' has no attribute 'StableDiffusionLDM3DPipeline' наверное все круто просто их паламали да?

3.13, barmaglot (??), 23:46, 22/06/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Трудно ожидать от васяна чего-то адекватного ...

4.15, васян (?), 00:14, 23/06/2023 [^] [^^] [^^^] [ответить]	+1 +/–
сайт иди чини, умник. только и можете что бюджеты пилить а как коснется то или не работает или надо переписывать или все уже уволились...

3.20, Vasya definitely Vasya (?), 10:45, 23/06/2023 [^] [^^] [^^^] [ответить]	+/–
> module 'diffusers' has no attribute 'StableDiffusionLDM3DPipeline' > наверное все круто просто их паламали да? нет - просто у тебя модуль 'diffusers' не той версии

1.2, EuPhobos (ok), 13:05, 22/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Карты глубин немного "кривые" что-ли (что-то не так), хотя... в общем-то как и всё, что генерируется нейросетями.

2.4, soarin (ok), 13:31, 22/06/2023 Скрыто ботом-модератором [к модератору]	–2 +/–

3.5, Аноним (1), 13:47, 22/06/2023 Скрыто ботом-модератором [к модератору]	+8 +/–

3.8, Аноним (8), 14:34, 22/06/2023 Скрыто ботом-модератором [к модератору]	–1 +/–

1.3, Аноним (3), 13:12, 22/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Давайте быстрее 2-ю версию. И чтоб сразу делала ассеты для Unreal Engine! Работать, бездельники!

1.6, Аноним (6), 13:47, 22/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Просто отлично. А что мешало раньше сгенирить картинки, а уже к ним карту глубин сетью для оценки карты глубин? И интересно, что модель сгенерит, если её попросят сгенерить треугольник Пенроуза. Для него карты глубин в принципе существовать не может.

2.7, keydon (ok), 14:04, 22/06/2023 [^] [^^] [^^^] [ответить]

+/–

>А что мешало раньше сгенирить картинки, а уже к ним карту глубин сетью для оценки карты глубин?

Собственно так и делали с SD. Тут видимо просто своя разработка.

> И интересно, что модель сгенерит, если её попросят сгенерить треугольник Пенроуза. Для него карты глубин в принципе существовать не может

Нейросети не ИИ и не на магии работают. На чем и как обучили, то и сделает. Так что на вразумительный результат без примеров и указаний рассчитывать не приходится.

2.9, Аноним (9), 16:01, 22/06/2023 [^] [^^] [^^^] [ответить]	+/–
А что человек сгенерит, если его попросят сгенерить треугольник Пенроуза?

3.14, Аноним (14), 23:58, 22/06/2023 [^] [^^] [^^^] [ответить]	+/–
Человек не использует карты глубины.

4.17, Аноним (1), 07:39, 23/06/2023 [^] [^^] [^^^] [ответить]	+2 +/–
Ну он может взять линейку и ручку, рассчитать всё, но у него тоже мало что получится.

1.18, Пряник (?), 09:36, 23/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Только вчера наткнулся на princeton-vl/infinigen в трендах гитхаба. Теперь генерация 3д в моде? Как будто кто-то массово задаёт тему мейнстрима. Битки, ИИ картинки, чат-боты... А давайте все разрабатывать реалистичный звуковой движок для игр с трассировкой и т.д.? На звук в играх почему-то все забили.

2.26, Аноним (26), 19:38, 23/06/2023 [^] [^^] [^^^] [ответить]	+/–
Давно есть https://learn.microsoft.com/en-us/gaming/acoustics/what-is-acoustics И нейросетки для этого не нужны.

3.27, Аноним (27), 01:10, 24/06/2023 [^] [^^] [^^^] [ответить]	+/–
проприетарь.

1.21, Аноним (21), 11:17, 23/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Фанатики прогресса могут пищать от восторга и обмазываться чюдо-ИИ сколько угодно, но держат их за яйца те, кто производит покушать и погреться

2.25, Счастливый Россиянин (?), 19:06, 23/06/2023 [^] [^^] [^^^] [ответить]	–1 +/–
Папусы отдадут еду и нефть за бусы - сгенерированные ИИ цифровые развлечения.

1.24, Аноним (24), 17:23, 23/06/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Вангую, что уже через месяц весь инет будет завален сгенерированным 3D порно.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: