Утечка конфиденциальной информации DeepSeek из-за неограниченного доступа к БД с логами

30.01.2025 13:43

Исследователи безопасности из команды Wiz Research выявили общедоступную базу данных с информацией, используемой в AI-сервисах компании DeepSeek. Из-за отсутствия должного ограничения доступа к хранилищу логов, любой желающий мог получить конфиденциальную информацию о работе сервисов DeepSeek. В БД хранилось более миллиона записей, включающих логи с историей сообщений пользователей в AI-чате DeepSeek, ключи доступа к API, детальную информацию о работе бэкендов и метаданные, используемые в работе различных систем.

В ходе изучения публично доступных поддоменов deepseek.com исследователи обратили внимание на хосты оoauth2callback.deepseek.com и dev.deepseek.com, на сетевых портах 9000 и 8123 которых находился сервис хранения, основанный на СУБД ClickHouse. Сетевой порт 9000 использовался для подключения приложений, а через порт 8123 предоставлялся web-интерфейс, дающий возможность отправить любой SQL-запрос.

Выставленные настройки СУБД предоставляли полный контроль над операциями в БД, при доступе без прохождения аутентификации. По мнению исследователей, имеющегося доступа было достаточно для организации атаки, не ограничивающейся СУБД и позволяющей получить привилегированный доступ к инфраструктуре DeepSeek.

На прошлой неделе компания DeepSeek опубликовала под свободной лицензией MIT большие языковые модели DeepSeek-R1 и DeepSeek-R1-Zero, охватывающие 671 миллиард параметров. DeepSeek-R1 рассматривается как самая крупная и качественная модель для решения задач, требующих логического вывода, опубликованная в открытом доступе. В 12 проведённых тестах указанная модель обогнала проприетарные модели Claude-3.5-Sonnet, OpenAI GPT-4o и OpenAI o1, а в 9 тестах продемонстрировала близкие показатели.

DeepSeek-R1 является улучшенным вариантом языковой модели DeepSeek-V3, опубликованной в декабре 2024 года под лицензией MIT. Модель DeepSeek-V3, как и DeepSeek-R1, охватывает 671 миллиард параметров, учитывает контекст в 128 тысяч токенов и по своим характеристикам близка или обгоняет Claude-3.5-Sonnet и GPT-4o. DeepSeek-V3 и DeepSeek-R1 могут запускаться на собственном оборудовании при помощи типовых открытых фреймворков для выполнения языковых моделей, таких как vLLM, TensorRT-LLM, LMDeploy и SGLang. Модели подходят для создания диалоговых систем, виртуальных ассистентов, генерации текста, формирования ответов на вопросы, краткого изложения и обобщения содержимого, объяснения сути концепций и терминов.

Помимо DeepSeek-R1 и DeepSeek-V3 компания также развивает открытые мультимодальные модели Janus, способные обрабатывать, понимать и генерировать графические изображения и звуковые данные. Последняя модель Janus Pro близка по характеристикам к модели DALL-E 3 от компании OpenAI при решении задач по генерации изображений по текстовому описанию.

Заявлено, что для обучения модели DeepSeek-V3 было использовано 2048 видеокарт NVIDIA TESLA H800, а затраты на обучение составили 5.58 млн долларов. Для сравнения затраты на обучение модели GPT-4 оцениваются в 80-100 млн долларов. Подобная разница привела к обвалу стоимости акций многих компаний, связанных с AI (например, стоимость акций NVIDIA снизилась на 17%), и возникновению домыслов, что DeepSeek скрывает реальные затраты. Компания OpenAI упомянула, что получила доказательство того, что в процессе обучения моделей DeepSeek были задействованы проприетарные модели OpenAI, что нарушает правила сервисов OpenAI, запрещающих использование вывода моделей OpenAI при разработке продуктов, конкурирующих с OpenAI (примечательно, что в своё время к OpenAI предъявляли претензии из-за использования при обучении моделей данных, полученных без разрешения).

исправить +15 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/62639-deepseek

Ключевые слова: deepseek, leak, hack, database

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (56)

1.1, Аноним (1), 14:27, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	–19 +/–
Ну что ж, ожидаемо: китайцам указали на их место. Могло бы и прокатить, если бы им не было безразлично.

2.11, pic (??), 14:45, 30/01/2025 [^] [^^] [^^^] [ответить]	+8 +/–
Скорее из-за зависти и подлости, что их не уведомив макнули в чан, нужно было срочно к чему-то прикопаться. Ой, мы тут мимо шли-шли и нашли, никто ничего специально не делал. Глобализм закончился, идёт гонка оставшихся держав за гегемонию.

3.20, Аноним (20), 14:52, 30/01/2025 [^] [^^] [^^^] [ответить]

+/–

>мы тут мимо шли-шли и нашли

Не выдумывайте, они открыто пишут:

>As DeepSeek made waves in the AI space, the Wiz Research team set out to assess its external security posture and identify any potential vulnerabilities.

https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak

4.30, pic (??), 15:43, 30/01/2025 [^] [^^] [^^^] [ответить]	+2 +/–
Когда ж научитесь распознавать сарказм?!

5.72, Аноним (72), 22:46, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Когда ж научитесь не распознавать сарказм там, где его нет?

2.14, Аноним (14), 14:48, 30/01/2025 [^] [^^] [^^^] [ответить]

+4 +/–

Одни специалисты помогли другим специалистам с укреплением безопасности.

Абсолютно непричастный, случайный чел в интернете, не имеющий никакого отношения к заслугам обеих сторон: китайцам указали на их место!

Батенька, это к доктору.

3.40, тоже Аноним (ok), 16:19, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Случайные люди в рунете великодержавную политоту не гонят.

2.21, 12yoexpert (ok), 14:57, 30/01/2025 [^] [^^] [^^^] [ответить]	+1 +/–
это тупо пиар очередной коммерческой модельки

1.2, Аноним (2), 14:28, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+9 +/–
это всё потому что МСЭ у них без сертификата фстек

2.5, Аноним (5), 14:30, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Медико-социальная экспертиза?

3.10, A.Stahl (ok), 14:39, 30/01/2025 [^] [^^] [^^^] [ответить]	+4 +/–
Морковная смузи эссенция.

2.15, User (??), 14:48, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Какой МСЭ? Зачем МСЭ? Сертификата об отсутствии НСД вполне достаточно - но они и этого-то не сделали...

3.17, User (??), 14:50, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
тьху, НДВ

2.34, Аноним (-), 15:48, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
>МСЭ Сталкивался с рабочей рутиной госслужащих РФ. Так там через каждое слово аббревиатура. Ничего не понятно.

3.54, Аноним (54), 18:35, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
В любой мало-мальски серьёзной отрасли есть своя терминология и аббревиатуры, взять ту же HoReCa. То что ты об этом не знаешь, характеризует тебя.

1.3, Аноним (5), 14:29, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+4 +/–
Виноват насквозь протрояненный Яндексом Clickhouse дело раскрыто.

2.6, Аноним (6), 14:31, 30/01/2025 [^] [^^] [^^^] [ответить]	+5 +/–
не поставили инструкцию на китайском

1.4, dullish (ok), 14:30, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Так, запоминаем, это не недобросовестная конкуренция и чёрный пиар, это исключительно бескорыстная забота о безопасности пользователей.

2.26, Аноним (26), 15:23, 30/01/2025 [^] [^^] [^^^] [ответить]	+2 +/–
Ну пиар. Это отменяет дыру в безопасности пользователей? Как у тебя в голове выстроилась цепочка вида "либо дыра, либо пиар"?

3.70, dullish (ok), 22:29, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
А какой, простите, ущерб эта утечка нанесла безопасности пользователей? Или Вы судите по себе и считаете, что человек, увидев рандомное поле для ввода текста, немедленно начинает вбивать туда какую-то конфиденциальную информацию? Если так, то, опять-таки, из этой дыры ничего нового про подобных индивидов уже не вытащить.

4.73, Аноним (72), 22:48, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Поэтому дыры латать не надо, сгорел сарай — гори и хата. Пришли своё резюме в личку, чтобы я тебя не нанял по ошибке.

5.74, dullish (ok), 23:10, 30/01/2025 [^] [^^] [^^^] [ответить]

+/–

> Поэтому дыры латать не надо, сгорел сарай — гори и хата.

Это не «дыра», а выложенные в публичный доступ логи работы свободно распространяемой программы. Очень полезно для отладки и адаптации продукта под свои нужды. Большой респект разработчикам.
> Пришли своё резюме в личку, чтобы я тебя не нанял по ошибке.

В HR-департаментах такой дефицит кадров, что вопросами найма персонала занимаются школьники с тревожным расстройством? Ну что ж, это многое объясняет.

1.7, Аноним (7), 14:33, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+6 +/–
> в процессе обучения моделей DeepSeek были задействованы проприетарные модели OpenAI, что нарушает правила сервисов OpenAI Идея нового шоу - две языковые модели самостоятельно выясняют отношения в суде, "формируя ответы на вопросы" и "объясняя суть концепций и терминов". Победит сильнейшая!

2.12, Аноним (12), 14:47, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
для начала они должны ссылаться на общие аксиомы, а то - сами знаете что

2.58, X86 (ok), 19:02, 30/01/2025 [^] [^^] [^^^] [ответить]	–1 +/–
в процессе обучения моделей OpenAI были задействованы данные, сгенерированные открытой моделью DeepSeek. Так что OpenAI обязана выложить свои поделки под той же лицензией, что и DeepSeek)

1.8, Аноним (8), 14:35, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Подтверждение есть или очередной вброс? Там уже продавливают запрет дипсика, якобы данные пользователей хранит не в США и поэтому та же Италия сходу запретила.

2.62, Аноним (62), 20:40, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Как сайта возможно заблокируют, но они выложили модель в открытый доступ и она же запущена уже много на каких серверах. На том же huggingface та де модель deepseek работает и ей можно так же пользоваться. Они еще и ее воспроизведение open r1 в ближайшие несколько недель сделают где найдут несколько небольших шагов для реализации которые deepseek не раскрыла. Ну и все новые модели теперь будут основываться на deepseek.

1.9, Смузихлеб забывший пароль (?), 14:39, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]

–1 +/–

> что нарушает правила сервисов OpenAI,
> запрещающих использование вывода моделей OpenAI
> при разработке продуктов, конкурирующих с OpenAI

Это запрещено в рамках американского законодательства или китайского ?
И что теперь, в ответ на это, сша у китая что-то отожмут, возможно даже тик-ток, наплевав на любые условия и законы ?)

Но, в общем по шуму о китайских поделиях, очень похоже что на западе просто готовят информационный фон и общественное мнение к вливанию огромных гор бабла в "свой" ИИ, а не, например, в промышленность или социалку

2.18, западная закулиса (?), 14:50, 30/01/2025 [^] [^^] [^^^] [ответить]

–1 +/–

да, и клячхаус без пароля тоже мы им подбросили!

> Это запрещено в рамках американского законодательства или китайского ?

это запрещено соглашением, которое ты "ознакомился" не читая, прежде чем пользоваться openai. И поддержано не только американским законодательством, а и всеми средствами, которыми располагает годсударство. ВНЕЗАПНО, оно защищает своих граждан и их бизнесы, даже если такой вот хитропопый как ты считает что галочка согласился ни к чему его не обязывает.
Для того и существует. (в отличие от твоего концлагеря, где, в принципе, то же самое, но только граждан первого сорта, а не пыли вроде тебя)

1.13, Аноним (13), 14:48, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+9 +/–
Интересно, что компания со словом в названии "Открытая" пытается всеми силами захватить и подчинить себе рынок, делая проприетарные продукты, а товарищи "глубокие" всё вываливают в открытый доступ для всех

2.19, нетоварищи (?), 14:51, 30/01/2025 [^] [^^] [^^^] [ответить]

+/–

да, и твои логи доступа тоже. Большое спасибо товарищам.

Вот образчик открытого софта!

3.51, Аноним (51), 17:46, 30/01/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Какой дурак будет использовать модели на чужих серверах для конфиденциальной информации? Всё инфрмация что ты туда ввёл по умолчанию должна подразумеваться выставленной у всех на виду.

2.23, Аноним (20), 15:03, 30/01/2025 [^] [^^] [^^^] [ответить]	+1 +/–
>Интересно https://openai.com/policies/terms-of-use/

1.16, ijuij (?), 14:49, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Deepseek больше не актуален, так как компания Alibaba представила QwenLM, который значительно превосходит Deepseek.

2.31, Андрей (??), 15:44, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Превосходит чем, только размером окна? Квен убогая херня

2.47, нууу (?), 17:12, 30/01/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Это не так работает лол. Плюс дипсика в том, что он таки дестилировал данные openai, стоимостью в миллиарды баксов. Qwen же в основном на китайских данных, он тупой как пень

3.69, chdlb (?), 22:13, 30/01/2025 [^] [^^] [^^^] [ответить]

+/–

а вот хрен на тасках генерации текста qwen показал себя лучше

а так-то и чат гпт тупой как пень

и чем больше мучаешь эти модели тем нагляднее становятся промахи в изначальном наборе данных у каждой модели

1.22, Аноним (22), 14:58, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Теперь мой работодатель узнают, что я не знаю сортировку пузырьком ((((

2.39, нах. (?), 16:16, 30/01/2025 [^] [^^] [^^^] [ответить]

+4 +/–

Не ссы, промпт-инженер тоже профессия. Мы уже готовим тебе перевод.

А этих... как их... пузырькателей? мы собираемся сократить. Выяснилось что пользы бизнесу от них вообще никакой.

1.32, Аноним (20), 15:46, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
>Заявлено, что для обучения модели DeepSeek-V3 было использовано 2048 видеокарт NVIDIA TESLA H800, а затраты на обучение составили 5.58 млн долларов. Тут как в анекдоте: «...Ну так и вы говорите!». Прям мощный ****ёж, т.к. все кто даже запускал локальные модели у себя дома это понимают. И если просто экстраполировать затраты на объём возможностей, то понятно, что тут была другая задача. А у Лян Вэньфэня вообще "интересная" биография, успешного успеха =)

2.38, афроним (?), 16:09, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
А в чем цимес там? Для тех кто не в курсе, так как никакие ИИ не запускал даже локально.

3.67, Аноним (67), 22:04, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
В заниженной стоимости и мощностях.

1.36, Нуину (?), 16:04, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
И это все, что смогли нарыть безопасники обиженных фаангов?) Еще и кликхаус пропиарили.

1.41, Аноним (41), 16:25, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> deepseek-api-server/src/middleware/dependency.rs Странно, программу написали в memory safe языке, но данные всёравно утекли. Неразбериха.

2.57, Я (??), 18:59, 30/01/2025 [^] [^^] [^^^] [ответить]	+1 +/–
это потому что unsafe неправильно используют. надо его везде ставить, хакеры увидят, что unsafe есть и не полезут.

1.42, Аноним (42), 16:29, 30/01/2025 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ] [к модератору]	+/–

1.48, Аноним (48), 17:16, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
По закрытым каналам, как принято доброжелателям, они известить не могли? Обычное дело в среде разработчиков. По опыту, Там Такой Бардак.

1.50, Аноним (50), 17:20, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Я в этот deepseek закинул немного кода openssh и он нашел критические уязвимости в функции аутентификации, показал место где ошибка, сделал исправленную версию и даже продемонстрировал механизм атаки. Короче, пакуемся.

2.52, Аноним (51), 17:50, 30/01/2025 [^] [^^] [^^^] [ответить]	+2 +/–
Но он мог и наврать :)

1.55, Аноним (55), 18:41, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
а известно какие сервера они используют для хостинга? на каком фреймворке написан сервер с АПИ?

1.56, X86 (ok), 18:58, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> В 12 проведённых тестах указанная модель обогнала проприетарные модели Claude-3.5-Sonnet, OpenAI GPT-4o и OpenAI o1, а в 9 тестах продемонстрировала близкие показатели. Ну, сейчас, вот что GPT-4o или o1 обогнала я еще поверю, но чтобы Claude-3.5-Sonnet - нет

2.64, Андрей (??), 20:54, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Claude 3.5 далеко позади R1

2.65, Аноним (-), 21:09, 30/01/2025 Скрыто ботом-модератором [к модератору]	+/–

1.59, Аноним (59), 19:15, 30/01/2025 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
> AI-сервисах Когда уже на технических ресурсах перестанут позориться и называть машинное обучение AI?

2.60, Анонем (?), 19:59, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
> машинное обучение Ты имел в виду вычислительную статистику?

2.61, чееел (?), 20:03, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Семантический сдвиг в пользу AI уже устоялся в речи, так что это вариант нормы

3.71, pic (??), 22:38, 30/01/2025 [^] [^^] [^^^] [ответить]	+/–
Устоявшаяся подмена понятий, ну и что, главное "бабло побеждает зло", это же "рынок".

игнорирование участников | лог модерирования

Добавить комментарий

Текст: