The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и SourceHut из-за ИИ-индексаторов"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и SourceHut из-за ИИ-индексаторов"  +/
Сообщение от opennews (ok), 21-Мрт-25, 14:06 
Различные открытые проекты столкнулись с волной сбоев и замедления работы элементов инфраструктуры из-за повышения активности индексаторов содержимого сайтов (скраперов), собирающих информацию для обучения больших языковых моделей или для обеспечения ИИ-поиска в Web  (например, компания  Anthropic вчера представила вариант модели Claude 3.7 с  возможностью поиска в Web)...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=62925

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +3 +/
Сообщение от laindono (ok), 21-Мрт-25, 14:06 
> robots.txt

Мне всегда казалось странным это "решение". Очевидно же, не работает.

Ответить | Правка | Наверх | Cообщить модератору

6. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +23 +/
Сообщение от Аноним (6), 21-Мрт-25, 14:14 
Как раз прекрасно для блокировки кривых ботов работает, чтобы разных правильных ботов по ошибке не заблокировать.
  
Делаешь в запрещённой через  robots.txt области скрипт, видимый только ботам по скрытой ссылке, и  автоматом блокируешь всех, кто к нему обратился.
Ответить | Правка | Наверх | Cообщить модератору

13. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –12 +/
Сообщение от Аноним (13), 21-Мрт-25, 14:21 
Расскажите, как это должно работать. Несколько раз писал ботов для сборки нужных мне данных, они в robot.txt даже не заглядывали, а парсили строго определённые страницы по строго определённым критериям.

Некоторе время мне попалось прекрасное: сайт содержал в себе защиту от парсинга, и эта защита просто выдавала пустую страницу, как будто ничего не произошло. Могли хотя-бы 429 код отдавать, или по ip забанить. В результате бот просто слал десятками тычяч запросы в холостую.

Ответить | Правка | Наверх | Cообщить модератору

18. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –3 +/
Сообщение от Аноним (18), 21-Мрт-25, 14:31 
Добавляешь в блок-лист по IP того, кто заглядывает по указанной в robots.txt скрытой ссылке, не?
Ответить | Правка | Наверх | Cообщить модератору

26. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +13 +/
Сообщение от пох. (?), 21-Мрт-25, 15:00 
> Расскажите, как это должно работать.

вот так и должно.

> они в robot.txt даже не заглядывали

т.е. ты намеренно делаешь пакость потому что тебе ННАДА.

> и эта защита просто выдавала пустую страницу, как будто ничего не произошло.
> Могли хотя-бы 429 код отдавать, или по ip забанить.

нет, дорогуша, никто тебе жизнь облегчать не собирается - могли бы еще и заставить какой-нибудь хэш 256 посчитать.
Именно этого пакостники вроде тебя и заслуживают.
Тратьте свои ресурсы вхолостую, забивайте базы мусором, вы так уважали других людей, что достойны такого же уважения в ответ.

Ответить | Правка | К родителю #13 | Наверх | Cообщить модератору

29. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –4 +/
Сообщение от anonymous (??), 21-Мрт-25, 15:08 
Ну это нормально.

Программисты веба ничего никому не нужны (и поэтому туча рекламы и блокировка парсинга, который позволяет посмотреть сайт без рекламы, вытщаив самое полезное).

Пользователи тоже никому ничего не должны и могут с спокойной совестью парсить такие сайты и вытаскивать контент. В идеале потом где-нибудь делиться с другими такими же пользователями скриптами для вытаскивания контента.

Ответить | Правка | Наверх | Cообщить модератору

64. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (64), 21-Мрт-25, 16:36 
Не получается соскрапить в лоб рекурсивным курлом — соскрапят через селениум, делов-то. И как ты один браузер от другого отличишь? Правильно, никак, пока не начнёшь анализировать поведение пользователя. И тут окажется, что отдать контент дешевле, чем время между кликами и длину скролла считать. Когда-то уже все научились один раз делать так, чтобы гуглобот не укладывал сайт индексацией, научатся ещё раз. Ну или уступят дорогу тому, кто умеет.
Ответить | Правка | К родителю #26 | Наверх | Cообщить модератору

76. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Фрол (?), 21-Мрт-25, 17:18 
access-list deny ip ещё дешевле
Ответить | Правка | Наверх | Cообщить модератору

78. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fuggy (ok), 21-Мрт-25, 17:21 
Это дороже будет, чем простой curl. Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling. А если они будут как юзеры по одной странице в полминуты запрашивать, то пожалуйста. И анализировать поведение можно на стороне клиента, например всякие хэши посчитать, нагрузка на сервер будет минимальная. Только так они не скачают базу и за год.

Поэтому будет проще договорится с владельцем и предоставить данные в машинном формате, возможно за отдельную плату. Вон как со stackoverflow договорились. И не мешать обычным пользователям.

Ответить | Правка | К родителю #64 | Наверх | Cообщить модератору

84. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (13), 21-Мрт-25, 17:31 
>Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling

Для этого rate-limit должен быть адекватным. Одно дело, когда с белого адреса идёт поток запросов, и другое дело, когда из-за NAT-а.

Ответить | Правка | Наверх | Cообщить модератору

73. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (13), 21-Мрт-25, 17:10 
Ух, какие вы злые.
>Тратьте свои ресурсы вхолостую, забивайте базы мусором

Вставляется простейшая проверка, после чего на сайт обратно отправляются те тысячи запросов, которые не обработались. Если им не жалко их обрабатывать, то и мне не жалко их послать
>вы так уважали других людей, что достойны такого же уважения в ответ.

Когда я зашёл на сайт, то внимательно посмотрел, никакого намёка на платное апи, тем более, принимающего мои карты - не увидел.

Ответить | Правка | К родителю #26 | Наверх | Cообщить модератору

85. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Фрол (?), 21-Мрт-25, 17:31 
это про sourcehut?

плохо смотрел.

https://sourcehut.org/alpha-details

Ответить | Правка | Наверх | Cообщить модератору

88. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 17:38 
>это про sourcehut?

Нет

Ответить | Правка | Наверх | Cообщить модератору

33. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от penetrator (?), 21-Мрт-25, 15:18 
ну вот тебя и забанят
Ответить | Правка | К родителю #13 | Наверх | Cообщить модератору

9. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Фрол (?), 21-Мрт-25, 14:16 
если юзер не презервуар и не китаец -прекрасно работает

но так-то кто пускает к себе трафик из китая - сам знает, на что идет

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

14. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –2 +/
Сообщение от Аноним (13), 21-Мрт-25, 14:22 
Вот у вас есть подкроватный хостинг. Как понять из какой страны траффик?
Ответить | Правка | Наверх | Cообщить модератору

30. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от anonymous (??), 21-Мрт-25, 15:10 
Правильное решение - это торрент трекер. Закидываешь туда всю открытую несекретную информацию, дамп сообщений и прочее. И пусть пользователи сами между собой шарят торрент, качают и разбирают, а сайт не нагружают.

Ещё в старые добрые времена было бы принято делать ссылку "зеркало", где показывались зеркала сайта и давались инструкции как завести себе такое зеркало.

Это и этично и куда правильнее чем подлянки друг другу строить.

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

66. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от Admino (ok), 21-Мрт-25, 16:43 
А если ИИ ещё и раздавать будет круглосуточно, так ему ещё спасибо скажут.
Ответить | Правка | Наверх | Cообщить модератору

31. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fuggy (ok), 21-Мрт-25, 15:13 
Плохих ботов даже блокировка по useragent не берёт, и даже по ip подсетям.
Наоборот, это хорошее решение. Для вежливых ботов. Там пишешь сюда не ходи, там история редактирований или бесконечный календарь, а то зациклишься. Хорошие боты это соблюдают и в ловушку не попадают. Защищать admin.php таким способом не стоит, но из индексирования можно и исключить на всякий случай.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

58. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +3 +/
Сообщение от нейм (?), 21-Мрт-25, 16:19 
Пока интернетики держались на энтузиастах - все работало. А потом пришли маркетолухи/пизнесмемы и прочий мусор, вот и сломалось.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

120. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от fuggy (ok), 21-Мрт-25, 19:46 
Так самая главная проблема что потом они насоздают сайтов со статьями полностью сгенерированными нейросетями.
Ответить | Правка | Наверх | Cообщить модератору

131. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (131), 21-Мрт-25, 20:40 
Это чисто юридическое решение, не техническое. Работает только в пользу государств и дзяибатсу. Ну и бизнесов чуть поменьше. Если же вы выкатите техническое решение - то вас просто законом обяжут поделиться данными с "озером" (версия 2.0, но главныйбенефицар всё тот же).
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

4. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +5 +/
Сообщение от Аноним (4), 21-Мрт-25, 14:13 
> По статистике Cloudflare около 1% всего трафика в сети приходится на ИИ-ботов.

Победит ли ИИ-траффик порно-траффик? ;)

Ответить | Правка | Наверх | Cообщить модератору

20. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +5 +/
Сообщение от Аноним (-), 21-Мрт-25, 14:37 
Думаю они объединяться в ИИ-порно-траффик)
И поработат мир)
Но возможно ИИ может создать кошкодевочек ИРЛ - и тогда каждому будет кошкожена, и ии-прон станент ненужен)
Ответить | Правка | Наверх | Cообщить модератору

102. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (-), 21-Мрт-25, 18:29 
Замахнулись на роботов для секса но, это для тех у кого денег побольше. Почему им это надо это вы у них спрашивайте. Кого-то и негра приютить у себя в жилище из Африки устраивает - это разновидность проституции.
Ответить | Правка | Наверх | Cообщить модератору

106. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (106), 21-Мрт-25, 19:09 
Кого-то и негра приютить для секса у себя в жилище из Африки устраивает - это разновидность проституции.
Ответить | Правка | Наверх | Cообщить модератору

68. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от КО (?), 21-Мрт-25, 16:52 
ИИ боты траффик не генерируют, лишь потребляют и нагружают
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

74. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от Neon (??), 21-Мрт-25, 17:14 
Ага, счас, как говорится. Недавно угорал над нейросетями. Яндексовская отказалась рисовать картину в стиле Микеланджело сотворение Адама. Причина отказа: авторкие права Микеланджело.))) Чуть со стула не упал.))) У Микеланджело в эпохе Возрождения.
Китайская нейросеть тоже отжигала. Рисовать не отказывалась, авторские права не смущали. Но... в процессе рисования она выясняла, что получившийся  контент строго +18, обнаружив порнографию в собственном исполнении, падала.)))
Так что ИИ вполне может генерировать порнотрафик там, где его никто не ожидает.
Ответить | Правка | Наверх | Cообщить модератору

139. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 21:16 
> Так что ИИ вполне может генерировать порнотрафик там, где его никто не
> ожидает.

но тебе его не покажут!


Ответить | Правка | Наверх | Cообщить модератору

77. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от BeLord (ok), 21-Мрт-25, 17:19 
Не победит, пока ИИ не научится этот трафик сам генерировать))
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

8. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (13), 21-Мрт-25, 14:15 
Интересно, если кто-то поднимет зеркало ресурса, выкачав к себе файлы, то как сторонний источник может убедится, что это зеркало без бекдоров?
Ответить | Правка | Наверх | Cообщить модератору

15. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (15), 21-Мрт-25, 14:25 
Никак.... Проверка по крипто подписки если только но и то не 100% вариант
Ответить | Правка | Наверх | Cообщить модератору

19. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 14:33 
Я вот тоже об этом думал, но потом понял, что эту подпись почти никто не ставит, в том числе и я, когда публиковал свой код.
Ответить | Правка | Наверх | Cообщить модератору

113. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (113), 21-Мрт-25, 19:32 
Единственное решение это свое зеркало. Иметь копии тех проектов которые тебе нужны на всякий случай
Ответить | Правка | Наверх | Cообщить модератору

10. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +5 +/
Сообщение от Аноним (13), 21-Мрт-25, 14:16 
Если ресурсов всего интернета не хватает для обучения ботов, что они надувают количество данных даже такими вещами как git blame, которые можно получить локально, то это очень многое говорит о качестве самого обучения
Ответить | Правка | Наверх | Cообщить модератору

27. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от пох. (?), 21-Мрт-25, 15:01 
> то это очень многое говорит о качестве самого обучения

как будто без этого не было очевидно, какое там "качество"?

Ответить | Правка | Наверх | Cообщить модератору

11. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +3 +/
Сообщение от Анонимно (ok), 21-Мрт-25, 14:18 
> ИИ-ботов, игнорирующих запрет на индексацию, отдавать фиктивные страницы и зацикливать ботов на их обработке.

Годно, бот нарушил правила -> бот зациклился.

Ответить | Правка | Наверх | Cообщить модератору

21. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от анонтитан (?), 21-Мрт-25, 14:38 
Что годно ? мусорную нагрузку и трафик как убрать от них ? это не решение.
Ответить | Правка | Наверх | Cообщить модератору

32. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +3 +/
Сообщение от fuggy (ok), 21-Мрт-25, 15:17 
Предложи лучше. Они всё равно будут долбиться. Только вместо обращения к реальной базе, генерируется лёгкая рандомная страница. Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить. И таким образом индекс ИИ будет испорчен и тогда может они одумаются чтобы не создавать паразитную нагрузку.
Ответить | Правка | Наверх | Cообщить модератору

51. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (51), 21-Мрт-25, 15:49 
> Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить

а speedtest в чем перед тобой виноваты?

Ответить | Правка | Наверх | Cообщить модератору

60. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нейм (?), 21-Мрт-25, 16:25 
А за то что с провайдерами корешились и результаты подставные отдавали
Ответить | Правка | Наверх | Cообщить модератору

115. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 19:38 
Просто на сайте удобная ссылка скачать гигабайт рандома, вдруг кому надо. А раз бот нажал значим ему надо. Разработчики бота же не научили отличать полезные ссылки от скрытых ссылок с атрибутом nofollow.
Ответить | Правка | К родителю #51 | Наверх | Cообщить модератору

46. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от нах. (?), 21-Мрт-25, 15:40 
итого - с точки зрения анубис - я бот. Ок. Идет туда же куда любители клаудшмариной крыши. Скорее всего еще и эффективно выбросит твой ценный (нет) сцайтик из индекса гугляндекса.

nepentis запрещенный в robots.txt похоже годная затея - одновременно кормит ИИ дерьмом, ничем не мешает нормальным пользователям и нормальным ботам, собирает полезную статистику (blacklistd легко присобачить, оно на lua) и без марковского модуля не жрет особо ресурсы (можно просто отключать по достижении критичного LA).

Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

52. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от Аноним (52), 21-Мрт-25, 16:01 
А какой у тебя браузер? Какой-нибудь непонятный "конфиденциальный форк форка"? Или расширения стоят, блокирующие все скрипты?
Ответить | Правка | Наверх | Cообщить модератору

82. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от нах. (?), 21-Мрт-25, 17:30 
> А какой у тебя браузер?

а кого это колебет? Система позиционирующаяся как заshitа от ботов - вместо этого защищает от людей. Все. Ее писал - м-к, и испольуют - м-ки.

И да, у ИИ прекрасно получится подделывать не только user-agent, но и типовые характеристирки твоего единственноверного хромонога распоследней версии - на то он и ИИ.

А вот разобраться где текст а где марковская сеть - эт вряд ли. И ни один человек туда не забредет случайно. Ни с каким ниправильным-ниправильным-блакирующим-маиоченьоченьнужные-(для слежки)-скрипты, что характерно.

Ответить | Правка | Наверх | Cообщить модератору

12. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –13 +/
Сообщение от Шарп (ok), 21-Мрт-25, 14:19 
>ИИ-боты сканируют всё до чего могут дотянуться

Всё правильно делают. Современные поисковики настолько испортились, что уже невозможно через них нормально искать информацию. Через ИИ получается эффективнее.

Ответить | Правка | Наверх | Cообщить модератору

117. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –3 +/
Сообщение от Аноним (117), 21-Мрт-25, 19:43 
Соглашусь.
Странно, что заминусовали.
Ответить | Правка | Наверх | Cообщить модератору

121. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fidoman (ok), 21-Мрт-25, 19:56 
Наверное не во всех областях. Не так давно решал одну задачку (связанную с так всеми нелюбимыми X11). ChatGPT навыдавал некоторое количество весьма интересных вещей, но все оказались нерабочими - то есть эти малоизвестные функции в X есть, но не доведены до того состояния, чтобы от них была какая-то польза. Решение нашлось только ковырянием ссылок на форумы, выдаваемых обычным поисковиком (вот только не помню, уткоход это был или на гугл пришлось полезть).
Ответить | Правка | К родителю #12 | Наверх | Cообщить модератору

16. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Gorge (?), 21-Мрт-25, 14:28 
Блокировка по user-agent пока работает.
Ответить | Правка | Наверх | Cообщить модератору

17. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 14:31 
Юзерагент элементарно подменяется
Ответить | Правка | Наверх | Cообщить модератору

43. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от IdeaFix (ok), 21-Мрт-25, 15:35 
Ну допустим в M**a работают беспринципные товарищи, которые харвестят хуже китайцев, но свой юзерагент подменить им чсв не позволит. А если забанить корпоратов, кои лично мне на моём опыте доставляют куда больше проблем чем частники, то... проблем становится на 90% меньше. А то что гит можно уронить просто обходом ссылок - это проблема гита.
Ответить | Правка | Наверх | Cообщить модератору

50. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (50), 21-Мрт-25, 15:46 
>но свой юзерагент подменить им чсв не позволит

Они обучали на пирацких книгах с Флибусты, им плевать

Ответить | Правка | Наверх | Cообщить модератору

34. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Фрол (?), 21-Мрт-25, 15:19 
это если автор бота не презервуар

а если презервуар - поставит вон юзер агента от  edge, как китайцы. и что ты им сделаешь?

Ответить | Правка | К родителю #16 | Наверх | Cообщить модератору

39. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (-), 21-Мрт-25, 15:25 
> Блокировка по user-agent пока работает.

Не работает.
Есть куча примеров, как всякие бомж-браузеры меняют агент, чтобы маскироваться под более успешных конкурентов.
Ну и юзеры тоже таким шалят.

Так что приходится использовать другие методы и/или добавлять капчу.

Ответить | Правка | К родителю #16 | Наверх | Cообщить модератору

118. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fuggy (ok), 21-Мрт-25, 19:43 
Может потому что некоторые сайтоваятели делают редирект на badbrowser.php поставьте наш новый супер-пупер яндекс.браузер.
Ответить | Правка | Наверх | Cообщить модератору

23. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (23), 21-Мрт-25, 14:57 
В последние несколько дней идёт массированный ДДОС с бразильских IP-адресов. Стоит апач, чем это можно полечить?
Ответить | Правка | Наверх | Cообщить модератору

25. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (25), 21-Мрт-25, 15:00 
CloudFlare
Ответить | Правка | Наверх | Cообщить модератору

36. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Вы забыли заполнить поле Name. (?), 21-Мрт-25, 15:23 
pf + таблица со списком бразильянцев, заразившихся ЦРУшатиной. Сразу намечайте список и аремиканских адресов, после блока бразильянцев пойдёт шквал от хотдогеров.
Ответить | Правка | К родителю #23 | Наверх | Cообщить модератору

70. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от myster (ok), 21-Мрт-25, 16:58 
через fail2ban можно настроить regex правила, но и дефолтных фильтров на самом деле хватит, чтобы отсеивать агрессивных
Ответить | Правка | К родителю #23 | Наверх | Cообщить модератору

28. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +3 +/
Сообщение от Василийemail (??), 21-Мрт-25, 15:03 
Анубис неплохо справляется и лого у него прикольное, но на коредуба он довольно долго отрабатывает. Гномовцы молодцы, что подсуетились
Ответить | Правка | Наверх | Cообщить модератору

72. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 17:08 
Такое чувство что нужно этот анубис в дефолтный шаблон сайта добавить. Даже для хомпейдж блогов.
Ответить | Правка | Наверх | Cообщить модератору

42. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (42), 21-Мрт-25, 15:31 
> перебирая всё, вплоть до истории редактирования.

чтобы скормить в ИИ и поучить её делать очепятки ? хорошие же будут результаты на выходе после такого обучения...

Ответить | Правка | Наверх | Cообщить модератору

44. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от wyry (ok), 21-Мрт-25, 15:40 
Воскрешение Silverlight в соседней темке уже не выглядит таким уж странным. Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа, а ботам выдавать минимум инфы, полезной для индексации ресурса. Сейчас фактически ИИ модели воруют все данные до каких могут дотянуться. По работам художников уже прошлись, украв весь Артстейшн, по Гитхабу прошлись, изымут и всё остальное, при этом вы ещё и заплатите за повышенную нагрузку. Дивный новый мир, в каждой железке теперь будет (уже есть) нейронка корпорации, которая будет отвечать на все вопросы и учить вас думать правильно.
Ответить | Правка | Наверх | Cообщить модератору

53. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Фрол (?), 21-Мрт-25, 16:03 
к чертям подробности

даешь бутлерианский джихад

Ответить | Правка | Наверх | Cообщить модератору

80. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 17:24 
>Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа

Парсить json куда приятнее, чем html

Ответить | Правка | К родителю #44 | Наверх | Cообщить модератору

122. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fidoman (ok), 21-Мрт-25, 19:59 
Когда 99,9% процентов контента в сети будет тот мусор, который сам ИИ и нагенерил - всё это резко сдохнет. Потоки синтаксически и стилистически верного бреда никому не интересны.
Ответить | Правка | К родителю #44 | Наверх | Cообщить модератору

45. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от vitalif (ok), 21-Мрт-25, 15:40 
Я тоже всех нахрен забанил у себя по юзерагенту. Говноедские боты
Ответить | Правка | Наверх | Cообщить модератору

49. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (50), 21-Мрт-25, 15:44 
>юзерагенту

Вообще удивительно, что этот хедер до сих пор отдают

Ответить | Правка | Наверх | Cообщить модератору

47. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (50), 21-Мрт-25, 15:43 
Уродские сайты приходится скрапить
@
Вебмастер видит, что ты парсишь и делает сайтишко еще более уродским и тормозным, навтыкав ловушек
@
Скрапер переписали
@
Вебмастер добавил капчу
@
Скраперы ответили AI-OCR
@
Вебмастер воткнул Клаудфлару
@
Обошли и клаудфлару, и proof of work, и geoipdb, и DNSBL, и много что еще
...
Чтобы зайти на сайтишко, нужно подтянуть квалифицированную ЕЦП, ввести OTP из SMS, заполнить форму указав персональные данные, верифицироваться по сетчатке и пройти собеседование в Дискорде
@
Все равно соскрапили
Ответить | Правка | Наверх | Cообщить модератору

59. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Жироватт (ok), 21-Мрт-25, 16:23 
@
Делает глагне и все остальное закрывается логином через ЕСИА, попутно прибив любую возможность открыть по прямой ссылке
@
Вставялет мультимедийную "Beat the DarkSouls boss on 512x512 window on WASM"-капчу
@
Блеклист заменяет на вайтлист айпишником. Айпишники специально добавляются полуавтоматически после верификации человеком и очень легко из него вылетают, например за автоматические запросы
Ответить | Правка | Наверх | Cообщить модератору

81. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от Аноним (81), 21-Мрт-25, 17:26 
Хакер в столовой :)
Ответить | Правка | К родителю #47 | Наверх | Cообщить модератору

119. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (119), 21-Мрт-25, 19:44 
Это лишь теория, найдите владельца бизнеса которые не додумались бы выдавать порционные пакетики с солью.
Ответить | Правка | Наверх | Cообщить модератору

140. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (140), 21-Мрт-25, 21:17 
@
К скарйперам приходит юридическая контора и скрейперы засужены в ад. Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт, если вы его не реализовали - то вы автоматически виноваты, как минимум recklessness.
Ответить | Правка | К родителю #47 | Наверх | Cообщить модератору

150. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Grand (?), 21-Мрт-25, 22:35 
@
нанимается 10000 индусов, которым всплывает окошко пропарсить url такой-то и они тапают - ДА. Благодарные пролетарии спасены от голодной смерти через автоматизацию производства ! Ура ! Ура !
Ответить | Правка | Наверх | Cообщить модератору

48. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (48), 21-Мрт-25, 15:43 
А если капчу сделать?
Ответить | Правка | Наверх | Cообщить модератору

54. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Нуину (?), 21-Мрт-25, 16:03 
Капчу в консоли по git clone показывать?
Ответить | Правка | Наверх | Cообщить модератору

151. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Grand (?), 21-Мрт-25, 22:37 
Что б дево-псам жисть медом не казалась !!
Ответить | Правка | Наверх | Cообщить модератору

55. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Нуину (?), 21-Мрт-25, 16:05 
Вот ИИ ворует внаглую код. Совсем оборзели. И не понятно как решать проблему? Код же не закроешь.
Ответить | Правка | Наверх | Cообщить модератору

56. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (56), 21-Мрт-25, 16:10 
А вот если б не перегрузка, то мы б такое сделали, такое, вообщем огого какое...!
Ответить | Правка | Наверх | Cообщить модератору

57. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 16:15 
> При блокировке IP-адресов, боты возобновляли работу с новых адресов, а при блокировке User-Agent переходили к индексации под идентификаторами типовых браузеров.

Я просто офигеваю с этого. Просто не представляете, как у меня с этого мягко сказать раздражение вызывает. Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.

Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt. Даже писал валидатор для robots.txt, чтобы вебмастера могли проверить что они правильно создали файл. Если администратор адекватный, он внесёт исключения чтобы определённые адреса, которые создают бесконечные рекурсии не индексировались. А на те которые создают повышенную нагрузку добавляет задержку между обращениями. Конечно среди них тоже попадаются неадекватные, которые сразу после нескольких обращение от curl (или не популярного браузера) банят IP навечно. Конечно обратной связи между клиентами и администраторами сайтов не хватает.

Ответить | Правка | Наверх | Cообщить модератору

69. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –4 +/
Сообщение от Аноним (69), 21-Мрт-25, 16:56 
> Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt.

А зачем? Задача стоит "скраулить контент", а не "учтиво снять шляпу, поинтересоваться роботс-файлом, поклониться, сказать 'спасибо'..."

Ответить | Правка | Наверх | Cообщить модератору

89. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 17:40 
Так сайт и так скраулится, ну не за минуту, а за час. Например мне нужно заархивировать сайт или выкачать новые статьи из rss раз в день. И без мусорных страниц, и в клаулер проще не нужно добавлять обнаружение зацикливания. Если вебмастер адекватный, он например может отфильтровать лишние страницы вроде /cgi-bin или допустим написать на почту автору useragent бота. Но такое можно было представить только на заре интернета.

А что значит "скраулить контент" перевожу - заработать на чужих данных, а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков. Таких вредоносов и нужно банить. А полезных ботов, например webarchive нужно оставить в покое. Как мы видим не подписывают и притворяются браузером только плохие боты. Все хорошие боты или боты поисковых систем всегда подписываются. Делаем вывод.

Ответить | Правка | Наверх | Cообщить модератору

93. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 17:49 
>Так сайт и так скраулится, ну не за минуту, а за час.

Какой-то маленький у вас сайт.
>а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков

Даже если не ddos-ить сайт, а качать всего в пару потоков, то сколько времени вы будете выкачивать сайт типа хабра?

Ответить | Правка | Наверх | Cообщить модератору

152. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Grand (?), 21-Мрт-25, 22:39 
11 дней. Всего-то.
Ответить | Правка | Наверх | Cообщить модератору

98. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (69), 21-Мрт-25, 18:03 
Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа. Прилетела таска: скраулить сайт. Ты берешь и пишешь скриптец, игнорируя роботса. Может быть ты в курсе про существование роботс.тхт и говоришь непосредственному начальнику: "хорошо бы по-правильному, как в 90-ых, попереписываться с 'вебмастером' по почте, чтобы краулилось не за минуту, а за час." Начальник поднимает брови и молча переназначает таску на другого исполнителя, а тебе дает задачу перекрасить кнопку в корзине.

Идем далее. Ситуация. Скриптец работает, и тут прилетает таска: сайт перестал отвечать. С этим надо разобраться побыстрее. Ты просто берешь и меняешь юзер-агент. Сайт снова начал отвечать. Все, задача решена, можно пойти попить кофе на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо пофиг на все эти идеалы 90-ых. Они про них может быть даже и не в курсе. Задача стояла "скраулить контент", а не "повзаимодействовать с third party 'вебмастерами' (г-споди, слово-то какое допотопное!), попереписываться по почте на тему того, как бы нам по-правильному краулер забабахать."

Ответить | Правка | К родителю #89 | Наверх | Cообщить модератору

123. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 20:05 
Ну давай отметём все эти переписки по почте. Приходит задача скраулить сайт - начинаешь краулить в 100 потоков, через десять секунд твои ip банят. Потом будет: насяльника vps не работает, давай денег новый покупать.
Или. Пишешь имя MyCompanyBot, смотришь в robots crawl-delay 5 секунд, не заходишь на всякие мусорные страницы вроде истории редактирования и бесконечного календаря, и не нужно обрабатывать фильтрацию ссылок-ловушек, спокойно скачиваешь сайт за пару часов, vps не банят, лишних расходов нет, а данные нужны начальнику только к началу следующего месяца.
Ответить | Правка | Наверх | Cообщить модератору

124. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 20:29 
Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru
Ответить | Правка | Наверх | Cообщить модератору

135. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:58 
> Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru

Не хотел бы тебя огорчать, но они на ней - ИИ тренируют. Никакие человекообразные это не читают и не собираются. Единственный способ взаимодействия с гуглем - личные контакты с выскопоставленными индусами.

Через них периодически (те кто через вторые-третьи-четвертые руки смог выйти на такого индусского гения) удается что-то изменить. А на эту деревню этому дедушке можешь даже не тратить время на писанину.

Ответить | Правка | Наверх | Cообщить модератору

134. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от нах. (?), 21-Мрт-25, 20:57 
> Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа.

В этом офисе решение принимает настолько высокозадранный индус, что да, выполняй и кланяйся. Но зачем ты такой дешовый раб?

> на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо

тот индус вполне собирается - заработать (ну хотя бы на свой бонус) и именно на чужих данных, раз именно чужие ему сегодня приспичило.
Исполнителей-винтиков, конечно, никто не спрашивает, но иногда все же от них требуют соблюдения правил - faang скандалов не любит.
Поэтому гуглевые боты - учитывают robots.

А вот альтернативно-одаренные китайские стартапы - вообще ненеслышали. Насяльника у них следует кланяться в пол и лишних вопросов не задавать.

Ответить | Правка | К родителю #98 | Наверх | Cообщить модератору

91. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 17:43 
>Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.

Рискну предположить, что ввести платное API, где запросы можно посылать без проблем вы не догадались.

Ответить | Правка | К родителю #57 | Наверх | Cообщить модератору

61. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (64), 21-Мрт-25, 16:29 
> не учитывают правила доступа к контенту, заданные на сайтах через файл robots.txt.

Это не правила, это рекомендации. То, что их кто-то к ним прислушивался говорит лишь об их благосклонности.

Ну и реакция Дрю на тоже забавляет. Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется за час, «пришлось» тратить время на выстраивание ловушек. Натура у человека такая, хлебом не корми, дай только свой праведный гнев куда-нибудь направить, но только чтобы при этом всенепременно нагадить ближнему, желательно корпорации. Что поделать, популярность ресурса в интернете требует инфраструктуры.

Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать. И с аккаунтом тоже воли не каждому давать, как раньше на закрытых трекерах, пока рейтинг не наберёшь не все разделы сайта видны. А ещё лучше просто отключиться от глобальной сети. Кому надо тот дискету с софтом по почте купит.

Ответить | Правка | Наверх | Cообщить модератору

87. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 17:36 
> Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется
> за час,

да за две секунды - deny any, ok

Внезапно, человек вместо этого хотел осложнить жизнь - ботов, а не нормальных посетителей своего сайта. И, похоже, неплохой инструмент нашел, делающий именно то что и требовалось.

> Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать.

а дура4ок с опеннета все продолжает вещать как бы он всем пакостей понаделал. Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому, кроме может ИИ.

Ответить | Правка | Наверх | Cообщить модератору

95. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (95), 21-Мрт-25, 17:53 
> Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому

Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от скраппера.

> и твой сервер не нужен абсолютно никому, кроме может ИИ

Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от скраппера

Ответить | Правка | Наверх | Cообщить модератору

97. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 17:59 
> Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от
> скраппера.

раз скраппер его нашел - значит, таки нужен.

> Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от
> скраппера

просто этот сайт настолько никому не нужен, что и скраппер после второго запроса уходит, расстроенный.

Ответить | Правка | Наверх | Cообщить модератору

100. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 18:05 
Проблема в том что они мешают обычным пользователям создавая паразитную нагрузку. Если бы они не ломились толпой и ходили только в ночное время и с соблюдением таймаутов, никто бы может и дела бы не обратил. Так значит не работает файрвол. Вон пишут же что банишь по ip, так они на другие подсети переходят.

Да robots.txt рекомендации и плохо что их не делают стандартами. Как в целом и остальные RFC для http рекомендуемые: "The key words SHOULD - This word, or the adjective "RECOMMENDED". Хотя вроде что-то специально для ai ботов хотели придумать.

Ответить | Правка | К родителю #61 | Наверх | Cообщить модератору

101. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (13), 21-Мрт-25, 18:26 
>Если бы они не ломились толпой

А вы откуда знаете, кто ломится толпой? Если вас будет парсить две независмые группы, как вы поймёте что их две, а не одна?
>и ходили только в ночное время

А ночное время это когда? Всё же часовые пояса сущестуют
>и с соблюдением таймаутов

А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?

Ответить | Правка | Наверх | Cообщить модератору

129. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 20:35 
> две независмые группы, как вы поймёте что их две

Вот cloudflare как то научился. Например, если "перебирают каждую страницу в git log из разных подсетей.

> ночное время это когда

Зависит от языка сайта. Например для русскоязычных сайтов пик это по московскому времени. Если нет, то можно просто размазать равномерно.

> бот мог узнать максимальную частоту запросов

robots.txt crawl-delay или для поисковиков можно прямо у них на сайте прописать что краулить мой сайт не чаще чем X. Да это всё только рекомендации. Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.

Ответить | Правка | Наверх | Cообщить модератору

137. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 21:13 
>Если нет, то можно просто размазать равномерно.

Как минимум для англоязычных это единственный возможный вариант
>robots.txt crawl-delay

Осталось только посмотреть, где их заполняют, у того же sourcehut.org/robots.txt - 404, то есть вообще ничего нет
>Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.

Чем определяется данная адекватность? Это насколько сложной должна быть страница, чтобы уже дважды в секунду было неадекватным?

Ответить | Правка | Наверх | Cообщить модератору

147. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 22:12 
> Чем определяется данная адекватность

Определяется вероятностью получить бан по ip помноженный на количество доступных прокси. Вот и приходится гадать. Станет ли человек открывать регулярно новые страницы дважды в секунду - нет - значит бот. А так как человек это ожидаемый пользователь, скорость его работы берём за эталон. Если человек настолько резвый что успеет превысить скользящий rate-limit, что вряд ли, то увидит плашку http 429 на пару минут. Яндекс/Гугл вон свою капчу показывает, тем кто слишком часто делает сложные запросы.

Ответить | Правка | Наверх | Cообщить модератору

130. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:35 
> А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?

Уровень экспертизы...

Ответить | Правка | К родителю #101 | Наверх | Cообщить модератору

138. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (13), 21-Мрт-25, 21:16 
Кексперд видимо сам ни разу не смотрел в robots.txt. У того же sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков
Ответить | Правка | Наверх | Cообщить модератору

141. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 21:20 
> Кексперд видимо сам ни разу не смотрел в robots.txt. У того же
> sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков

Какое отношение это имеет к твоему незнанию "где прописывается"?

Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам. (а регекспы в этом файле не обрабатываются)
Но речь об обычных роботах, которые и так стараются не создавать проблем.

А необычные все равно не собираются этот файл проверять.

Ответить | Правка | Наверх | Cообщить модератору

148. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (6), 21-Мрт-25, 22:21 
> www.opennet.ru/robots.txt - тоже никаких намёков

Куда-то не туда вы смотрите, robots.txt на opennet с испокон веков

https://web.archive.org/web/*/https://www.opennet.ru/robots.txt
Saved 67,666 times between September 18, 1999 and March 12, 2025.

$ curl https://www.opennet.ru/robots.txt

User-Agent: *
Disallow: /search.shtml
Disallow: /cgi-bin/opennet/htsearch
Disallow: /cgi-bin/opennet/bookmark.cgi
Disallow: /cgi-bin/openforum/bv.cgi
Disallow: /cgi-bin/openforum/arted.cgi
Disallow: /cgi-bin/openforum/ch_cat.cgi
Disallow: /cgi-bin/opennet/jnews.cgi
Disallow: /cgi-bin/opennet/tips_search.cgi
Disallow: /cgi-bin/opennet/key_search.cgi
Disallow: /docs/search.shtml

# User-agent: Mediapartners-Google
# Disallow:

Host: www.opennet.ru

Ответить | Правка | К родителю #138 | Наверх | Cообщить модератору

149. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от fuggy (ok), 21-Мрт-25, 22:32 
> парсить две независмые группы

Забыл напомнить ещё проблема в том что если один бот ходит в несколько потоков на сайт. Сейчас большинство сайтов http/2 и значит отдают ресурсы страницы в том же соединении не открывая новых. Значит бот делая несколько потоков увеличивает нагрузку, открывая несколько отдельных соединений. Так же если краулить разные сайты, то нужно поднимать свой DNS потому что можно просто задудосить публичный DNS. Но разработчики ИИ-ботов обычно ничего это не знают. Поэтому действительно проще и дешевле прийти с мешком денег как OpenAI к stackoverflow и просто купить доступ к базе, чем разрабатывать свои кривые краулеры.

Обо всех таких рекомендациях можно прочитать в книге Introduction to Information Retrieval. Но стартеперы книжек не читают, побыстрее в продакшн, а то инвесторы уже деньги спрашивают.

Ответить | Правка | К родителю #101 | Наверх | Cообщить модератору

132. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:48 
> обратил. Так значит не работает файрвол. Вон пишут же что банишь
> по ip, так они на другие подсети переходят.

У яндекса научились. В свое время, когда я растерял там все контакты людей, имевших право думать своей головой, кто уехал, кто умер - оно в очередной раз охренело.
Обычные сайты это не сильно затронуло, но у нас были необычные, и нам прилетело по полной. Э... кто не понимает - например, народру (почему не ложился народ? А потому что это был внутренний сайт яндекса и его они сканили не через веб вообще. Да, их бот так может.)
Техподдержка делала круглые глазыньки и вид что вообще не понимает о чем речь.

Что ж ... давайте забаним их блоки. ОГО! Нихреновый за пару дней вырос списочек (когда эта хрень не может пробиться - она так просто не сдается, поднимает новые и новые зомбонеты, по всему миру, до этого тихо спавшие).
Что ж... random drop probability 93%

Все довольны - яндекс перестал создавать нам сумасшедшую нагрузку, хомякопейджи продолжают индексироваться, громадный кластер т-по висит (потому что drop а не reject) на хэндшейках, одаренной молоди тогда еще не израильского предпринимателя казахского происхождения совершенно похрен, электричество и серверы в стойках для них бесплатные и в любом количестве. Пару лет, до моего ухода, так и работало, яндекс у себя ничего не исправил.

> Да robots.txt рекомендации и плохо что их не делают стандартами.

на стандарты эти "Мне ННННАДА!" точно так же забьют. Они понимают только палкой по хребту.

Ответить | Правка | К родителю #100 | Наверх | Cообщить модератору

143. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (13), 21-Мрт-25, 21:28 
>Что ж ... давайте забаним их блоки

У них useragent постоянный? Post запросы шлют или только get?

Ответить | Правка | Наверх | Cообщить модератору

144. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 22:03 
хммм... вот этого не знаю. В свое время э.. ну неважно в общем, кто - дал яндексу (да, тогда еще нас слушали) "полезный" как ему показалось совет - если на странице есть форма, состоящая ровно из одной submit - попробовать ее "нажать", потому что это может быть "согласитесь с правилами сайта", "skip animation", какой-нибудь приветственный диалог или еще какая подобная ботва.

"Но потом произошел неприятный инцидент и хищников пришлось срочно убрать"(c)анекдот про тигров в НИИ. Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).

Но, поскольку ИИ-боты не яндексы - и плевать хотели на любой нанесенный ими ущерб - не исключаю, что если такой совет им еще и не дали, то скоро какой-нибудь особо одаренный таки додумается.

Ответить | Правка | Наверх | Cообщить модератору

62. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –2 +/
Сообщение от Аноним (62), 21-Мрт-25, 16:33 
Наглядный пример нежизнеспособности инфраструктуры этого вашего Virgin OpenSource по сравнению с Chad корпорациями.
Ответить | Правка | Наверх | Cообщить модератору

63. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (63), 21-Мрт-25, 16:34 
>можно отметить, ловушку для ИИ-ботов AI Labyrinth, представленную вчера компанией Cloudflare

Cloudflare пишет в блоге, что AI Labyrinth доступен на free тарифе, а по факту оно не включается и написано - Your current bot protection on the Free plan (Bot Fight Mode) only detects and challenges easy-to-detect bots from popular cloud providers.

Ответить | Правка | Наверх | Cообщить модератору

65. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от myster (ok), 21-Мрт-25, 16:40 
Проблему можно даже решить без прибегания к услугам CloudFlare и прочих анти-DDOS компаний.
Можно через fail2ban и аналогичными инструментами, отсеивать агрессивных клиентов, агрессивность определяется по логам веб-сервера, с помощью regex правил. Агрессивным маньякам можно выдавать текст, к примеру: "Успагойся, подожжи 5 минут, чувак. Если не хочешь ждать, закинь 0,00002 BTC на такой-то кошелёк".  Если не угомонится банить по IP временно.
Ответить | Правка | Наверх | Cообщить модератору

71. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (69), 21-Мрт-25, 17:03 
Опять баш-портянщик со своим sed по логам.
Ответить | Правка | Наверх | Cообщить модератору

79. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от myster (ok), 21-Мрт-25, 17:22 
> Опять баш-портянщик со своим sed по логам.

ну вообще то и дефолтных фильтров в fail2ban хватает для отсеивания большинства дичи

Ответить | Правка | Наверх | Cообщить модератору

109. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (109), 21-Мрт-25, 19:17 
Как Аноним Анониму скажу - я тебя не поддерживаю.
Ответить | Правка | К родителю #71 | Наверх | Cообщить модератору

75. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (81), 21-Мрт-25, 17:18 
> заставка, которая у некоторых пользователей приводит к минутной задержке загрузки страниц. За два с половиной часа тестирования только 3% запросов прошили проверку

Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто решил что сайт написан криворукими вебокодерами, как и сам гном, и поэтому не работает, просто назначили ботами.

Ответить | Правка | Наверх | Cообщить модератору

92. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 17:49 
> Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто
> решил что сайт написан криворукими вебокодерами, как и сам гном, и
> поэтому не работает, просто назначили ботами.

ну, будь это какой-то другой сайт - так бы оно и было. Но насчет гома ты по-моему все же неправ. КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."

Скорее всего те 3% тоже были ботами. Просто с длинным таймаутом.

Ответить | Правка | Наверх | Cообщить модератору

108. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (108), 21-Мрт-25, 19:15 
> КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."

Зайдите и посмотрите, что там. Например, GIMP, GLib.

Ответить | Правка | Наверх | Cообщить модератору

125. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:31 
ЗАЧЕМ мне на них - смотреть?!

Ответить | Правка | Наверх | Cообщить модератору

83. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (83), 21-Мрт-25, 17:30 
Как неожиданно... "И кто это сделал?" (с)
Ответить | Правка | Наверх | Cообщить модератору

86. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (-), 21-Мрт-25, 17:33 
"Для снижения запросов к ресурсоёмким обработчикам в SourceHut были внедрены ловушки на базе инструментария Nepenthes, генерирующего в ответ на запросы ботов случайный контент с зацикленными на ловушку ссылками" Ещё бы подумать как майнерам отдавать умное электричество, чтобы от повышенной нагрузки у них например что-то не так работало и замедляло майнинг. Может силу тока понижать или ещё как чтобы не выглодано было использовать майнинг на повышенных нагрузках. Всёравно на майнинге много можно заработать только если не платить за электричество, а если платить за электричество большая часть прибыли от майнинга уходит на оплату электричества, прибыль существенно падает. После покупки майнинг оборудования сколько то лет надо работать в минус уменьшая затраты оплачивая купленное оборудование. Что и пытаются делать и делает какая-то часть майнеров не платить за электричестао.
Ответить | Правка | Наверх | Cообщить модератору

90. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (-), 21-Мрт-25, 17:43 
Я бы добычу кртптоволют в виде больших контор запретил и не давал развиваться этому направлению.
Ответить | Правка | Наверх | Cообщить модератору

94. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 17:51 
> Я бы добычу кртптоволют в виде больших контор запретил и не давал
> развиваться этому направлению.

Товарищ Ким (третий по величине, а возможно и первый если выкинуть коллективные, криптовладелец) смотрит на тебя неодобрительно. Не хочешь ли ты экскурсию за 57 тыщ приобрести?


Ответить | Правка | Наверх | Cообщить модератору

96. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (-), 21-Мрт-25, 17:53 
"не выглодано было" Так: не выгодно было
Ответить | Правка | К родителю #86 | Наверх | Cообщить модератору

105. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от fuggy (ok), 21-Мрт-25, 19:07 
Значит как светофоры от автобусов отличать это нормальная капча. Парадокс в том: обучая при этом нейросеть которая учиться отличать светофоры от автобусов. То есть человек проходя капчу, обучает нейросеть проходить капчу. А как создавать Honeypot для ботов, которые нагружают сервер и мешают нормальным людям так это не хорошо.
Ответить | Правка | К родителю #86 | Наверх | Cообщить модератору

104. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Ан Оним (?), 21-Мрт-25, 18:43 
А,.. вот в чём дело, буквально вчера или позавчера пытался зайти на gitlab гнома, и сильно удивлялся почему не пускает
Ответить | Правка | Наверх | Cообщить модератору

107. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (109), 21-Мрт-25, 19:13 
Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от ИИ.
Ответить | Правка | Наверх | Cообщить модератору

127. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:33 
> Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от
> ИИ.

А стартапам от ЫЫ обязательно вести себя именно как последние м-ки?


Ответить | Правка | Наверх | Cообщить модератору

110. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –2 +/
Сообщение от Аноним (110), 21-Мрт-25, 19:18 
Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё нет?
Ответить | Правка | Наверх | Cообщить модератору

116. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +2 +/
Сообщение от myster (ok), 21-Мрт-25, 19:41 
> Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё
> нет?

облачность - лишь иллюзия, оно всё self-hosted и постоянно падает, у всех облачных провайдеров время от времени DDOS и технические неполадки.

Возьмём, к примеру gitlab.com ("облачный" вариант gitlab), он внезапно тоже self-hosted и они используют GCP, как хостера. И, кстати, частенько бывает, что он тоже лежит.

GitHub.com также self-hosted, хостится в Azure.

И где ты думаешь упомянутые в статье инстансы gitlab хостятся? в тех же самых "облаках" на соседней стойке.

Ответить | Правка | Наверх | Cообщить модератору

111. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (110), 21-Мрт-25, 19:19 
Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.
Ответить | Правка | Наверх | Cообщить модератору

136. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 21:11 
> Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.

ИИ подделает фингерпринт даже лучше чем твой настоящий браузер. Поэтому тебя отфильтруют, бот поганый, а он пройдет.

Ответить | Правка | Наверх | Cообщить модератору

112. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +1 +/
Сообщение от Аноним (109), 21-Мрт-25, 19:31 
Война ИИ против человечества началась со спама в Интернете.
Ответить | Правка | Наверх | Cообщить модератору

146. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от Аноним (146), 21-Мрт-25, 22:05 
ИИ это скрепка в microsoft office.
Ответить | Правка | Наверх | Cообщить модератору

114. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (109), 21-Мрт-25, 19:37 
Все перейдут в доверенные VPN как необходимость доверия и защиты от атак ИИ.
Ответить | Правка | Наверх | Cообщить модератору

128. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  +/
Сообщение от нах. (?), 21-Мрт-25, 20:35 
> Все перейдут в доверенные VPN как необходимость доверия и защиты от атак
> ИИ.

так точно, товарищмаер! Можно мне кредит доверия как-то до конца месяца поднять на два балла? А то я налог на доверие заплатить не могу - налоговый сайт не пускает.

Ответить | Правка | Наверх | Cообщить модератору

133. "Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и Sou..."  –1 +/
Сообщение от Аноним (131), 21-Мрт-25, 20:53 
>Проблемы возникли у платформы совместной разработки SourceHut, развиваемой Дрю ДеВолтом (Drew DeVault), автором пользовательского окружения Sway. >Дрю сетует на то, что в очередной раз вместо того, чтобы заниматься развитием платформы

Лицемерьненько, он эту платформу совсем забросил со своим ADHD, прыгает с одной игрушки (вроде hare) на другую.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру