![]() |
Пред. тема | След. тема | ||
Форум Разговоры, обсуждение новостей | |||
---|---|---|---|
Изначальное сообщение | [ Отслеживать ] |
"В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей" | +/– | ![]() |
Сообщение от opennews (??), 03-Мрт-25, 23:12 | ||
Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц... | ||
Ответить | Правка | Cообщить модератору |
Оглавление |
Сообщения | [Сортировка по времени | RSS] |
1. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +29 +/– | ![]() |
Сообщение от Аноним (1), 03-Мрт-25, 23:12 | ||
Стоит заметить, что создатели оригинальной статьи поступили очень плохо и грязно, назвав её "Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data". Да, технически они правы, но на деле практически все современные языковые модели были обучены на CommonCrawl, это по сути самый популярный датасет для моделей вообще. Но Trufflehog, похоже, решили ещё раз показать именно в сторону Deepseek, что-то вида "вот видите, как у них всё плохо и небезопасно", так как из-за успеха Deepseek многие начали обвинять эту компанию во всех смертных грехах. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
31. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | –4 +/– | ![]() |
Сообщение от Аноним (31), 04-Мрт-25, 08:13 | ||
а в чём успех, уже заработали миллиард или пока только в планах? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
32. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +9 +/– | ![]() |
Сообщение от EuPhobos (ok), 04-Мрт-25, 08:17 | ||
Обрушить акции конкурента, и переманить не малую часть пользователей оплачивать свой сервис - это не успех? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
47. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +2 +/– | ![]() |
Сообщение от Ivan_83 (ok), 04-Мрт-25, 14:22 | ||
Не, там реально как будто амеры открыли кран на канализационной трубе, у них прям сильно-сильно пригорело от DeepSeek. | ||
Ответить | Правка | К родителю #31 | Наверх | Cообщить модератору |
![]() | ||
53. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (53), 04-Мрт-25, 17:15 | ||
Так они вам и скажут, на сколько денег их "знакомые" зашортили стоки, ждите. | ||
Ответить | Правка | К родителю #31 | Наверх | Cообщить модератору |
2. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +6 +/– | ![]() |
Сообщение от Аноним (2), 03-Мрт-25, 23:13 | ||
Классический вебдев, хоть что-то не меняется в этом мире. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
10. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +2 +/– | ![]() |
Сообщение от Аноним (10), 04-Мрт-25, 00:42 | ||
> Классический вебдев, хоть что-то не меняется в этом мире. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
29. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +1 +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:24 | ||
Ну уот же ж - ключи теперь утекают - безопастненько! | ||
Ответить | Правка | Наверх | Cообщить модератору |
4. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +1 +/– | ![]() |
Сообщение от Аноним (4), 04-Мрт-25, 00:03 | ||
> Наиболее часто встраиваемыми учётными данными оказались API-ключи к | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
7. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +3 +/– | ![]() |
Сообщение от чатжпт (?), 04-Мрт-25, 00:18 | ||
github весь завален ключами от сервисов, от s3, логины/пароли от почтовых ящиков и баз данных.. адъ и израиль. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
9. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (4), 04-Мрт-25, 00:38 | ||
Ну васянский С3 мало кому интересен. ценных данных там нет, разве что снесут и положат файлик "для восстановления пересылать 1.5 битка сюда". И то врядли, что тот вообще найдёт этот файлик, а если найдёт, то 1.5 битка у него нету и никогда не будет. а вот почта это спам, судя по потокам оного это комуто да интересно. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
28. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:23 | ||
ну может хотя бы сгодится свою порнуху хранить? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
59. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (59), 04-Мрт-25, 19:53 | ||
Да, где то мелькал прототип проекта для размещения своих данных на 100500 чужих поломатых хостингах, шифруем, рубим на небольшие чанки и раскладываем по N (если N кажется мало, то можно M или даже Q*2) копий вот в такие вот S3 и гугл доксы. ну пропадёт десяток-другой, 80+% останется. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
39. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от onanim (?), 04-Мрт-25, 11:34 | ||
и это же хорошо! когда мне нужен доступ к какому-то дорогому сервису, или к сервису, где геморная регистрация типа "укажите ваш е-мэйл в домене .edu или .gov и мы рассмотрим вашу заявку в течение 99 рабочих дней" я просто открываю гугл, пишу site:github.com или site:gitlab.com, "адрес сервиса" "api" (или "pass" или "key") и пользуюсь. | ||
Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору |
![]() | ||
27. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:22 | ||
то есть как это не нашли и как это не разослали?! | ||
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору |
8. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | –5 +/– | ![]() |
Сообщение от Аноним (8), 04-Мрт-25, 00:33 | ||
Тогда ещё griggorii говорил что всё в мире уязвимо даже твой монитор , умная колонка или же другая вещь hdd-ssd-data я учёный cdn , диалог учёный аналитег: нет я не мошенник , но надо зарабатывать сдерем дата сет код чужой стабле machine , скажем что наш и бинари тоже или сделаем слакс и потом из этого альт или другую поделку мол не убунту основанную на дебиане за счёт именно стандартизации расширения .deb и тому подобное у. Ну и ушел в другую метадату. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
12. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +6 +/– | ![]() |
Сообщение от Аноним (12), 04-Мрт-25, 01:29 | ||
Это какая-то очень фиговая модель. Даже Алиса выражается яснее | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
16. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от N (?), 04-Мрт-25, 02:12 | ||
Эта модель 65536 , даже плюс тебе поставила что бы ты не был доволен , как видишь эта модель не нуждается во внимании , а лишь констатирует факты. | ||
Ответить | Правка | Наверх | Cообщить модератору |
15. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +4 +/– | ![]() |
Сообщение от Аноним (15), 04-Мрт-25, 01:47 | ||
Датасеты какие-то, второй человек в США черпает информацию из сторис в Инстаграмме. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
18. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | –2 +/– | ![]() |
Сообщение от Аноним (18), 04-Мрт-25, 02:51 | ||
и купил при этом твиттер, заодно переименовав его? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
19. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +1 +/– | ![]() |
Сообщение от Аноним (15), 04-Мрт-25, 03:21 | ||
Маск такой же фейк как пашка дуров, который на словах оппозиционер, революционер, гений, бездетный холостяк. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
25. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:18 | ||
Но волосы-то с ладошек - пересадил себе на плешь! Завидуй, Иплон! | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
44. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (44), 04-Мрт-25, 13:32 | ||
А от чего у него растут волосы на ладонях? Школьные истории о побочных эффектах онанризма прпвда? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
26. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +1 +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:20 | ||
Это первый купил, не перепутай. | ||
Ответить | Правка | К родителю #18 | Наверх | Cообщить модератору |
![]() | ||
48. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Ivan_83 (ok), 04-Мрт-25, 14:24 | ||
Он про JD Вэнса ващето. | ||
Ответить | Правка | К родителю #18 | Наверх | Cообщить модератору |
![]() | ||
38. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от YetAnotherOnanym (ok), 04-Мрт-25, 10:17 | ||
> второй человек в США черпает информацию из сторис в Инстаграмме | ||
Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору |
![]() | ||
49. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Ivan_83 (ok), 04-Мрт-25, 14:27 | ||
А что ему, читать и слушать? пропаганду от ботов президента гостевой побитой страны? | ||
Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору |
17. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | –1 +/– | ![]() |
Сообщение от Аноним (18), 04-Мрт-25, 02:51 | ||
> в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
22. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от qwe (??), 04-Мрт-25, 06:30 | ||
> Как тогда пользователь _из своего браузера_ получит доступ к апи? | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
33. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (31), 04-Мрт-25, 08:18 | ||
Все тут нормально с ключами в форме, просто забыли добавить доступ к самой странице. Или Васян-админ специально открыл, чтобы не париться. | ||
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору |
![]() | ||
34. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от EuPhobos (ok), 04-Мрт-25, 08:19 | ||
> Как тогда пользователь _из своего браузера_ получит доступ к апи? | ||
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору |
23. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от пох. (?), 04-Мрт-25, 07:15 | ||
НУ НАКОНЕЦ-ТО! ДОЖДАЛИСЬ! | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
46. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (46), 04-Мрт-25, 13:41 | ||
>сбербак | ||
Ответить | Правка | Наверх | Cообщить модератору |
30. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (30), 04-Мрт-25, 08:06 | ||
А вы думали зачем все это? Когда какой-нибудь Мэйл.ру открывал бесплатную почту, вы думали, что это не для того, чтобы читать ваши письма? Когда какой-нибудь яндекс и гугл открывали поисковики, вы думали , что это чтобы не читать ваши поисковые запросы? Когда они открыли "безопасный" DNS, свои операционки, телефоны, колонки? А тут у них просто еще не все срослось. Слишком много палятся, что на самом деле все эти "ИИ в браузере" будут на самом деле лить кучу приватной информации, даже ваши пароли. | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
54. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (54), 04-Мрт-25, 17:39 | ||
Всё это было понятно но все сервисы и особенно поиск каждый человек не может позволить на своих серверах держать. :( | ||
Ответить | Правка | Наверх | Cообщить модератору |
36. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +1 +/– | ![]() |
Сообщение от тоже Аноним![]() | ||
Я правильно понимаю, что Зоркий Глаз нашел, например, такие "уязвимости"?Добавьте в заголовок head HTML-страницы строку следующего вида: | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
40. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от prokoudine![]() | ||
Либо кого-то попросили дать ссылку, и он скопипастил урл, будучи залогиненым. А в урле был ключ. Страницу, куда он скопипастил, спарсили и положили для обучения. | ||
Ответить | Правка | Наверх | Cообщить модератору |
37. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (37), 04-Мрт-25, 09:11 | ||
Сколько же всякого мусора на самом деле покоится в этих "топовых" датасетах... | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
41. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (41), 04-Мрт-25, 12:52 | ||
Хм, а отечественные датасеты в открытом доступе где-либо существуют? | ||
Ответить | Правка | Наверх | Cообщить модератору |
43. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +2 +/– | ![]() |
Сообщение от fuggy (ok), 04-Мрт-25, 13:26 | ||
> большинство популярных больших языковых моделей в ответ на запрос кода для интеграции со Slack и Stripe выдали небезопасные примеры, использующие встраивание ключей прямо в web-страницу | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
56. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (54), 04-Мрт-25, 17:48 | ||
Дело не в том что-то кто-то ленится. Дело в том что прибыль получают только самые быстрые :( | ||
Ответить | Правка | Наверх | Cообщить модератору |
50. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (50), 04-Мрт-25, 14:41 | ||
Исследователи из компании Секретный Трюфель? | ||
Ответить | Правка | Наверх | Cообщить модератору |
51. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | –1 +/– | ![]() |
Сообщение от Аноним (51), 04-Мрт-25, 14:43 | ||
https://assets.unilogcorp.com/267/ITEM/IMG/American_Standard... | ||
Ответить | Правка | Наверх | Cообщить модератору |
52. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Анонимище (?), 04-Мрт-25, 16:56 | ||
Представьте себе алгоритм-анализатор с дедукцией уровня Эйнштейна. Заприте его на субъективные миллионы лет(внутри время идет быстрее) в симуляции где он будет читать и перечитывать CommonCrawl. Я уверен, в результате обнаружится столько интересной информации, что эти несчатные ключи просто померкнут на общем фоне. Скандалы-интриги-расследования потекут рекой, от мелких до мегакрупных | ||
Ответить | Правка | Наверх | Cообщить модератору |
![]() | ||
55. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от Аноним (54), 04-Мрт-25, 17:44 | ||
Он от качества этой информации просто отупеет и по истечению времени вы его уже не узнаете. :) | ||
Ответить | Правка | Наверх | Cообщить модератору |
57. Скрыто модератором | +/– | ![]() |
Сообщение от Аноним (-), 04-Мрт-25, 19:11 | ||
Ответить | Правка | Наверх | Cообщить модератору |
58. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..." | +/– | ![]() |
Сообщение от luid (ok), 04-Мрт-25, 19:35 | ||
Нужно срочно переписать на Rust! | ||
Ответить | Правка | Наверх | Cообщить модератору |
Архив | Удалить |
Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема |
Закладки на сайте Проследить за страницей |
Created 1996-2025 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |