1.1, laindono (ok), 14:06, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +3 +/– |
> robots.txt
Мне всегда казалось странным это "решение". Очевидно же, не работает.
| |
|
2.6, Аноним (6), 14:14, 21/03/2025 [^] [^^] [^^^] [ответить]
| +23 +/– |
Как раз прекрасно для блокировки кривых ботов работает, чтобы разных правильных ботов по ошибке не заблокировать.
Делаешь в запрещённой через robots.txt области скрипт, видимый только ботам по скрытой ссылке, и автоматом блокируешь всех, кто к нему обратился.
| |
|
3.13, Аноним (13), 14:21, 21/03/2025 [^] [^^] [^^^] [ответить]
| –10 +/– |
Расскажите, как это должно работать. Несколько раз писал ботов для сборки нужных мне данных, они в robot.txt даже не заглядывали, а парсили строго определённые страницы по строго определённым критериям.
Некоторе время мне попалось прекрасное: сайт содержал в себе защиту от парсинга, и эта защита просто выдавала пустую страницу, как будто ничего не произошло. Могли хотя-бы 429 код отдавать, или по ip забанить. В результате бот просто слал десятками тычяч запросы в холостую.
| |
|
4.18, Аноним (18), 14:31, 21/03/2025 [^] [^^] [^^^] [ответить]
| –3 +/– |
Добавляешь в блок-лист по IP того, кто заглядывает по указанной в robots.txt скрытой ссылке, не?
| |
4.26, пох. (?), 15:00, 21/03/2025 [^] [^^] [^^^] [ответить]
| +12 +/– |
> Расскажите, как это должно работать.
вот так и должно.
> они в robot.txt даже не заглядывали
т.е. ты намеренно делаешь пакость потому что тебе ННАДА.
> и эта защита просто выдавала пустую страницу, как будто ничего не произошло.
> Могли хотя-бы 429 код отдавать, или по ip забанить.
нет, дорогуша, никто тебе жизнь облегчать не собирается - могли бы еще и заставить какой-нибудь хэш 256 посчитать.
Именно этого пакостники вроде тебя и заслуживают.
Тратьте свои ресурсы вхолостую, забивайте базы мусором, вы так уважали других людей, что достойны такого же уважения в ответ.
| |
|
5.29, anonymous (??), 15:08, 21/03/2025 [^] [^^] [^^^] [ответить]
| –3 +/– |
Ну это нормально.
Программисты веба ничего никому не нужны (и поэтому туча рекламы и блокировка парсинга, который позволяет посмотреть сайт без рекламы, вытщаив самое полезное).
Пользователи тоже никому ничего не должны и могут с спокойной совестью парсить такие сайты и вытаскивать контент. В идеале потом где-нибудь делиться с другими такими же пользователями скриптами для вытаскивания контента.
| |
5.64, Аноним (64), 16:36, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Не получается соскрапить в лоб рекурсивным курлом — соскрапят через селениум, делов-то. И как ты один браузер от другого отличишь? Правильно, никак, пока не начнёшь анализировать поведение пользователя. И тут окажется, что отдать контент дешевле, чем время между кликами и длину скролла считать. Когда-то уже все научились один раз делать так, чтобы гуглобот не укладывал сайт индексацией, научатся ещё раз. Ну или уступят дорогу тому, кто умеет.
| |
|
6.78, fuggy (ok), 17:21, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
Это дороже будет, чем простой curl. Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling. А если они будут как юзеры по одной странице в полминуты запрашивать, то пожалуйста. И анализировать поведение можно на стороне клиента, например всякие хэши посчитать, нагрузка на сервер будет минимальная. Только так они не скачают базу и за год.
Поэтому будет проще договорится с владельцем и предоставить данные в машинном формате, возможно за отдельную плату. Вон как со stackoverflow договорились. И не мешать обычным пользователям.
| |
|
7.84, Аноним (13), 17:31, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
>Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling
Для этого rate-limit должен быть адекватным. Одно дело, когда с белого адреса идёт поток запросов, и другое дело, когда из-за NAT-а.
| |
|
|
5.73, Аноним (13), 17:10, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
Ух, какие вы злые.
>Тратьте свои ресурсы вхолостую, забивайте базы мусором
Вставляется простейшая проверка, после чего на сайт обратно отправляются те тысячи запросов, которые не обработались. Если им не жалко их обрабатывать, то и мне не жалко их послать
>вы так уважали других людей, что достойны такого же уважения в ответ.
Когда я зашёл на сайт, то внимательно посмотрел, никакого намёка на платное апи, тем более, принимающего мои карты - не увидел.
| |
|
|
|
2.9, Фрол (?), 14:16, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
если юзер не презервуар и не китаец -прекрасно работает
но так-то кто пускает к себе трафик из китая - сам знает, на что идет
| |
|
3.14, Аноним (13), 14:22, 21/03/2025 [^] [^^] [^^^] [ответить]
| –2 +/– |
Вот у вас есть подкроватный хостинг. Как понять из какой страны траффик?
| |
|
2.30, anonymous (??), 15:10, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
Правильное решение - это торрент трекер. Закидываешь туда всю открытую несекретную информацию, дамп сообщений и прочее. И пусть пользователи сами между собой шарят торрент, качают и разбирают, а сайт не нагружают.
Ещё в старые добрые времена было бы принято делать ссылку "зеркало", где показывались зеркала сайта и давались инструкции как завести себе такое зеркало.
Это и этично и куда правильнее чем подлянки друг другу строить.
| |
|
3.66, Admino (ok), 16:43, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
А если ИИ ещё и раздавать будет круглосуточно, так ему ещё спасибо скажут.
| |
|
2.31, fuggy (ok), 15:13, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
Плохих ботов даже блокировка по useragent не берёт, и даже по ip подсетям.
Наоборот, это хорошее решение. Для вежливых ботов. Там пишешь сюда не ходи, там история редактирований или бесконечный календарь, а то зациклишься. Хорошие боты это соблюдают и в ловушку не попадают. Защищать admin.php таким способом не стоит, но из индексирования можно и исключить на всякий случай.
| |
2.58, нейм (?), 16:19, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
Пока интернетики держались на энтузиастах - все работало. А потом пришли маркетолухи/пизнесмемы и прочий мусор, вот и сломалось.
| |
|
3.120, fuggy (ok), 19:46, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
Так самая главная проблема что потом они насоздают сайтов со статьями полностью сгенерированными нейросетями.
| |
|
2.131, Аноним (131), 20:40, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Это чисто юридическое решение, не техническое. Работает только в пользу государств и дзяибатсу. Ну и бизнесов чуть поменьше. Если же вы выкатите техническое решение - то вас просто законом обяжут поделиться данными с "озером" (версия 2.0, но главныйбенефицар всё тот же).
| |
|
1.4, Аноним (4), 14:13, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +5 +/– |
> По статистике Cloudflare около 1% всего трафика в сети приходится на ИИ-ботов.
Победит ли ИИ-траффик порно-траффик? ;)
| |
|
2.20, Аноним (-), 14:37, 21/03/2025 [^] [^^] [^^^] [ответить]
| +5 +/– |
Думаю они объединяться в ИИ-порно-траффик)
И поработат мир)
Но возможно ИИ может создать кошкодевочек ИРЛ - и тогда каждому будет кошкожена, и ии-прон станент ненужен)
| |
|
3.102, Аноним (-), 18:29, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Замахнулись на роботов для секса но, это для тех у кого денег побольше. Почему им это надо это вы у них спрашивайте. Кого-то и негра приютить у себя в жилище из Африки устраивает - это разновидность проституции.
| |
|
4.106, Аноним (106), 19:09, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Кого-то и негра приютить для секса у себя в жилище из Африки устраивает - это разновидность проституции.
| |
|
|
2.68, КО (?), 16:52, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
ИИ боты траффик не генерируют, лишь потребляют и нагружают
| |
|
3.74, Neon (??), 17:14, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
Ага, счас, как говорится. Недавно угорал над нейросетями. Яндексовская отказалась рисовать картину в стиле Микеланджело сотворение Адама. Причина отказа: авторкие права Микеланджело.))) Чуть со стула не упал.))) У Микеланджело в эпохе Возрождения.
Китайская нейросеть тоже отжигала. Рисовать не отказывалась, авторские права не смущали. Но... в процессе рисования она выясняла, что получившийся контент строго +18, обнаружив порнографию в собственном исполнении, падала.)))
Так что ИИ вполне может генерировать порнотрафик там, где его никто не ожидает.
| |
|
4.139, нах. (?), 21:16, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Так что ИИ вполне может генерировать порнотрафик там, где его никто не
> ожидает.
но тебе его не покажут!
| |
|
|
|
1.8, Аноним (13), 14:15, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Интересно, если кто-то поднимет зеркало ресурса, выкачав к себе файлы, то как сторонний источник может убедится, что это зеркало без бекдоров?
| |
|
2.15, Аноним (15), 14:25, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Никак.... Проверка по крипто подписки если только но и то не 100% вариант
| |
|
3.19, Аноним (13), 14:33, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Я вот тоже об этом думал, но потом понял, что эту подпись почти никто не ставит, в том числе и я, когда публиковал свой код.
| |
|
4.113, Аноним (113), 19:32, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Единственное решение это свое зеркало. Иметь копии тех проектов которые тебе нужны на всякий случай
| |
|
|
|
1.10, Аноним (13), 14:16, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +5 +/– |
Если ресурсов всего интернета не хватает для обучения ботов, что они надувают количество данных даже такими вещами как git blame, которые можно получить локально, то это очень многое говорит о качестве самого обучения
| |
|
2.27, пох. (?), 15:01, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
> то это очень многое говорит о качестве самого обучения
как будто без этого не было очевидно, какое там "качество"?
| |
|
1.11, Анонимно (ok), 14:18, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +3 +/– |
> ИИ-ботов, игнорирующих запрет на индексацию, отдавать фиктивные страницы и зацикливать ботов на их обработке.
Годно, бот нарушил правила -> бот зациклился.
| |
|
|
3.32, fuggy (ok), 15:17, 21/03/2025 [^] [^^] [^^^] [ответить]
| +3 +/– |
Предложи лучше. Они всё равно будут долбиться. Только вместо обращения к реальной базе, генерируется лёгкая рандомная страница. Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить. И таким образом индекс ИИ будет испорчен и тогда может они одумаются чтобы не создавать паразитную нагрузку.
| |
|
4.51, Аноним (51), 15:49, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
> Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить
а speedtest в чем перед тобой виноваты?
| |
|
5.60, нейм (?), 16:25, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
А за то что с провайдерами корешились и результаты подставные отдавали
| |
5.115, fuggy (ok), 19:38, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Просто на сайте удобная ссылка скачать гигабайт рандома, вдруг кому надо. А раз бот нажал значим ему надо. Разработчики бота же не научили отличать полезные ссылки от скрытых ссылок с атрибутом nofollow.
| |
|
|
|
2.46, нах. (?), 15:40, 21/03/2025 [^] [^^] [^^^] [ответить]
| –2 +/– |
итого - с точки зрения анубис - я бот. Ок. Идет туда же куда любители клаудшмариной крыши. Скорее всего еще и эффективно выбросит твой ценный (нет) сцайтик из индекса гугляндекса.
nepentis запрещенный в robots.txt похоже годная затея - одновременно кормит ИИ дерьмом, ничем не мешает нормальным пользователям и нормальным ботам, собирает полезную статистику (blacklistd легко присобачить, оно на lua) и без марковского модуля не жрет особо ресурсы (можно просто отключать по достижении критичного LA).
| |
|
3.52, Аноним (52), 16:01, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
А какой у тебя браузер? Какой-нибудь непонятный "конфиденциальный форк форка"? Или расширения стоят, блокирующие все скрипты?
| |
|
4.82, нах. (?), 17:30, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
> А какой у тебя браузер?
а кого это колебет? Система позиционирующаяся как заshitа от ботов - вместо этого защищает от людей. Все. Ее писал - м-к, и испольуют - м-ки.
И да, у ИИ прекрасно получится подделывать не только user-agent, но и типовые характеристирки твоего единственноверного хромонога распоследней версии - на то он и ИИ.
А вот разобраться где текст а где марковская сеть - эт вряд ли. И ни один человек туда не забредет случайно. Ни с каким ниправильным-ниправильным-блакирующим-маиоченьоченьнужные-(для слежки)-скрипты, что характерно.
| |
|
|
|
1.12, Шарп (ok), 14:19, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| –12 +/– |
>ИИ-боты сканируют всё до чего могут дотянуться
Всё правильно делают. Современные поисковики настолько испортились, что уже невозможно через них нормально искать информацию. Через ИИ получается эффективнее.
| |
|
2.121, fidoman (ok), 19:56, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Наверное не во всех областях. Не так давно решал одну задачку (связанную с так всеми нелюбимыми X11). ChatGPT навыдавал некоторое количество весьма интересных вещей, но все оказались нерабочими - то есть эти малоизвестные функции в X есть, но не доведены до того состояния, чтобы от них была какая-то польза. Решение нашлось только ковырянием ссылок на форумы, выдаваемых обычным поисковиком (вот только не помню, уткоход это был или на гугл пришлось полезть).
| |
|
|
|
3.43, IdeaFix (ok), 15:35, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Ну допустим в M**a работают беспринципные товарищи, которые харвестят хуже китайцев, но свой юзерагент подменить им чсв не позволит. А если забанить корпоратов, кои лично мне на моём опыте доставляют куда больше проблем чем частники, то... проблем становится на 90% меньше. А то что гит можно уронить просто обходом ссылок - это проблема гита.
| |
|
4.50, Аноним (50), 15:46, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>но свой юзерагент подменить им чсв не позволит
Они обучали на пирацких книгах с Флибусты, им плевать
| |
|
|
2.34, Фрол (?), 15:19, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
это если автор бота не презервуар
а если презервуар - поставит вон юзер агента от edge, как китайцы. и что ты им сделаешь?
| |
2.39, Аноним (-), 15:25, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Блокировка по user-agent пока работает.
Не работает.
Есть куча примеров, как всякие бомж-браузеры меняют агент, чтобы маскироваться под более успешных конкурентов.
Ну и юзеры тоже таким шалят.
Так что приходится использовать другие методы и/или добавлять капчу.
| |
|
3.118, fuggy (ok), 19:43, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Может потому что некоторые сайтоваятели делают редирект на badbrowser.php поставьте наш новый супер-пупер яндекс.браузер.
| |
|
|
1.23, Аноним (23), 14:57, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
В последние несколько дней идёт массированный ДДОС с бразильских IP-адресов. Стоит апач, чем это можно полечить?
| |
|
2.36, Вы забыли заполнить поле Name. (?), 15:23, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
pf + таблица со списком бразильянцев, заразившихся ЦРУшатиной. Сразу намечайте список и аремиканских адресов, после блока бразильянцев пойдёт шквал от хотдогеров.
| |
2.70, myster (ok), 16:58, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
через fail2ban можно настроить regex правила, но и дефолтных фильтров на самом деле хватит, чтобы отсеивать агрессивных
| |
|
1.28, Василий (??), 15:03, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +3 +/– |
Анубис неплохо справляется и лого у него прикольное, но на коредуба он довольно долго отрабатывает. Гномовцы молодцы, что подсуетились
| |
|
2.72, fuggy (ok), 17:08, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Такое чувство что нужно этот анубис в дефолтный шаблон сайта добавить. Даже для хомпейдж блогов.
| |
|
1.42, Аноним (42), 15:31, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
> перебирая всё, вплоть до истории редактирования.
чтобы скормить в ИИ и поучить её делать очепятки ? хорошие же будут результаты на выходе после такого обучения...
| |
1.44, wyry (ok), 15:40, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Воскрешение Silverlight в соседней темке уже не выглядит таким уж странным. Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа, а ботам выдавать минимум инфы, полезной для индексации ресурса. Сейчас фактически ИИ модели воруют все данные до каких могут дотянуться. По работам художников уже прошлись, украв весь Артстейшн, по Гитхабу прошлись, изымут и всё остальное, при этом вы ещё и заплатите за повышенную нагрузку. Дивный новый мир, в каждой железке теперь будет (уже есть) нейронка корпорации, которая будет отвечать на все вопросы и учить вас думать правильно.
| |
|
2.80, Аноним (13), 17:24, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа
Парсить json куда приятнее, чем html
| |
2.122, fidoman (ok), 19:59, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Когда 99,9% процентов контента в сети будет тот мусор, который сам ИИ и нагенерил - всё это резко сдохнет. Потоки синтаксически и стилистически верного бреда никому не интересны.
| |
|
|
2.49, Аноним (50), 15:44, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
>юзерагенту
Вообще удивительно, что этот хедер до сих пор отдают
| |
|
1.47, Аноним (50), 15:43, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Уродские сайты приходится скрапить
@
Вебмастер видит, что ты парсишь и делает сайтишко еще более уродским и тормозным, навтыкав ловушек
@
Скрапер переписали
@
Вебмастер добавил капчу
@
Скраперы ответили AI-OCR
@
Вебмастер воткнул Клаудфлару
@
Обошли и клаудфлару, и proof of work, и geoipdb, и DNSBL, и много что еще
...
Чтобы зайти на сайтишко, нужно подтянуть квалифицированную ЕЦП, ввести OTP из SMS, заполнить форму указав персональные данные, верифицироваться по сетчатке и пройти собеседование в Дискорде
@
Все равно соскрапили
| |
|
2.59, Жироватт (ok), 16:23, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
@
Делает глагне и все остальное закрывается логином через ЕСИА, попутно прибив любую возможность открыть по прямой ссылке
@
Вставялет мультимедийную "Beat the DarkSouls boss on 512x512 window on WASM"-капчу
@
Блеклист заменяет на вайтлист айпишником. Айпишники специально добавляются полуавтоматически после верификации человеком и очень легко из него вылетают, например за автоматические запросы
| |
|
3.119, Аноним (119), 19:44, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Это лишь теория, найдите владельца бизнеса которые не додумались бы выдавать порционные пакетики с солью.
| |
|
2.140, Аноним (140), 21:17, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
@
К скарйперам приходит юридическая контора и скрейперы засужены в ад. Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт, если вы его не реализовали - то вы автоматически виноваты, как минимум recklessness.
| |
|
1.55, Нуину (?), 16:05, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Вот ИИ ворует внаглую код. Совсем оборзели. И не понятно как решать проблему? Код же не закроешь.
| |
1.56, Аноним (56), 16:10, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
А вот если б не перегрузка, то мы б такое сделали, такое, вообщем огого какое...!
| |
1.57, fuggy (ok), 16:15, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
> При блокировке IP-адресов, боты возобновляли работу с новых адресов, а при блокировке User-Agent переходили к индексации под идентификаторами типовых браузеров.
Я просто офигеваю с этого. Просто не представляете, как у меня с этого мягко сказать раздражение вызывает. Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.
Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt. Даже писал валидатор для robots.txt, чтобы вебмастера могли проверить что они правильно создали файл. Если администратор адекватный, он внесёт исключения чтобы определённые адреса, которые создают бесконечные рекурсии не индексировались. А на те которые создают повышенную нагрузку добавляет задержку между обращениями. Конечно среди них тоже попадаются неадекватные, которые сразу после нескольких обращение от curl (или не популярного браузера) банят IP навечно. Конечно обратной связи между клиентами и администраторами сайтов не хватает.
| |
|
2.69, Аноним (69), 16:56, 21/03/2025 [^] [^^] [^^^] [ответить]
| –4 +/– |
> Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt.
А зачем? Задача стоит "скраулить контент", а не "учтиво снять шляпу, поинтересоваться роботс-файлом, поклониться, сказать 'спасибо'..."
| |
|
3.89, fuggy (ok), 17:40, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Так сайт и так скраулится, ну не за минуту, а за час. Например мне нужно заархивировать сайт или выкачать новые статьи из rss раз в день. И без мусорных страниц, и в клаулер проще не нужно добавлять обнаружение зацикливания. Если вебмастер адекватный, он например может отфильтровать лишние страницы вроде /cgi-bin или допустим написать на почту автору useragent бота. Но такое можно было представить только на заре интернета.
А что значит "скраулить контент" перевожу - заработать на чужих данных, а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков. Таких вредоносов и нужно банить. А полезных ботов, например webarchive нужно оставить в покое. Как мы видим не подписывают и притворяются браузером только плохие боты. Все хорошие боты или боты поисковых систем всегда подписываются. Делаем вывод.
| |
|
4.93, Аноним (13), 17:49, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>Так сайт и так скраулится, ну не за минуту, а за час.
Какой-то маленький у вас сайт.
>а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков
Даже если не ddos-ить сайт, а качать всего в пару потоков, то сколько времени вы будете выкачивать сайт типа хабра?
| |
4.98, Аноним (69), 18:03, 21/03/2025 [^] [^^] [^^^] [ответить] | +/– | Не, ты давай без романтики интернета 90-ых Ситуация ты в офисе ФААНГа Прилете... большой текст свёрнут, показать | |
|
5.123, fuggy (ok), 20:05, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Ну давай отметём все эти переписки по почте. Приходит задача скраулить сайт - начинаешь краулить в 100 потоков, через десять секунд твои ip банят. Потом будет: насяльника vps не работает, давай денег новый покупать.
Или. Пишешь имя MyCompanyBot, смотришь в robots crawl-delay 5 секунд, не заходишь на всякие мусорные страницы вроде истории редактирования и бесконечного календаря, и не нужно обрабатывать фильтрацию ссылок-ловушек, спокойно скачиваешь сайт за пару часов, vps не банят, лишних расходов нет, а данные нужны начальнику только к началу следующего месяца.
| |
|
|
7.135, нах. (?), 20:58, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru
Не хотел бы тебя огорчать, но они на ней - ИИ тренируют. Никакие человекообразные это не читают и не собираются. Единственный способ взаимодействия с гуглем - личные контакты с выскопоставленными индусами.
Через них периодически (те кто через вторые-третьи-четвертые руки смог выйти на такого индусского гения) удается что-то изменить. А на эту деревню этому дедушке можешь даже не тратить время на писанину.
| |
|
|
5.134, нах. (?), 20:57, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
> Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа.
В этом офисе решение принимает настолько высокозадранный индус, что да, выполняй и кланяйся. Но зачем ты такой дешовый раб?
> на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо
тот индус вполне собирается - заработать (ну хотя бы на свой бонус) и именно на чужих данных, раз именно чужие ему сегодня приспичило.
Исполнителей-винтиков, конечно, никто не спрашивает, но иногда все же от них требуют соблюдения правил - faang скандалов не любит.
Поэтому гуглевые боты - учитывают robots.
А вот альтернативно-одаренные китайские стартапы - вообще ненеслышали. Насяльника у них следует кланяться в пол и лишних вопросов не задавать.
| |
|
|
|
2.91, Аноним (13), 17:43, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.
Рискну предположить, что ввести платное API, где запросы можно посылать без проблем вы не догадались.
| |
|
1.61, Аноним (64), 16:29, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ] | +/– | Это не правила, это рекомендации То, что их кто-то к ним прислушивался говорит ... большой текст свёрнут, показать | |
|
2.87, нах. (?), 17:36, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется
> за час,
да за две секунды - deny any, ok
Внезапно, человек вместо этого хотел осложнить жизнь - ботов, а не нормальных посетителей своего сайта. И, похоже, неплохой инструмент нашел, делающий именно то что и требовалось.
> Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать.
а дура4ок с опеннета все продолжает вещать как бы он всем пакостей понаделал. Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому, кроме может ИИ.
| |
|
3.95, Аноним (95), 17:53, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому
Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от скраппера.
> и твой сервер не нужен абсолютно никому, кроме может ИИ
Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от скраппера
| |
|
4.97, нах. (?), 17:59, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от
> скраппера.
раз скраппер его нашел - значит, таки нужен.
> Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от
> скраппера
просто этот сайт настолько никому не нужен, что и скраппер после второго запроса уходит, расстроенный.
| |
|
|
2.100, fuggy (ok), 18:05, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Проблема в том что они мешают обычным пользователям создавая паразитную нагрузку. Если бы они не ломились толпой и ходили только в ночное время и с соблюдением таймаутов, никто бы может и дела бы не обратил. Так значит не работает файрвол. Вон пишут же что банишь по ip, так они на другие подсети переходят.
Да robots.txt рекомендации и плохо что их не делают стандартами. Как в целом и остальные RFC для http рекомендуемые: "The key words SHOULD - This word, or the adjective "RECOMMENDED". Хотя вроде что-то специально для ai ботов хотели придумать.
| |
|
3.101, Аноним (13), 18:26, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
>Если бы они не ломились толпой
А вы откуда знаете, кто ломится толпой? Если вас будет парсить две независмые группы, как вы поймёте что их две, а не одна?
>и ходили только в ночное время
А ночное время это когда? Всё же часовые пояса сущестуют
>и с соблюдением таймаутов
А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?
| |
|
4.129, fuggy (ok), 20:35, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> две независмые группы, как вы поймёте что их две
Вот cloudflare как то научился. Например, если "перебирают каждую страницу в git log из разных подсетей.
> ночное время это когда
Зависит от языка сайта. Например для русскоязычных сайтов пик это по московскому времени. Если нет, то можно просто размазать равномерно.
> бот мог узнать максимальную частоту запросов
robots.txt crawl-delay или для поисковиков можно прямо у них на сайте прописать что краулить мой сайт не чаще чем X. Да это всё только рекомендации. Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.
| |
|
5.137, Аноним (13), 21:13, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>Если нет, то можно просто размазать равномерно.
Как минимум для англоязычных это единственный возможный вариант
>robots.txt crawl-delay
Осталось только посмотреть, где их заполняют, у того же sourcehut.org/robots.txt - 404, то есть вообще ничего нет
>Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.
Чем определяется данная адекватность? Это насколько сложной должна быть страница, чтобы уже дважды в секунду было неадекватным?
| |
|
4.130, нах. (?), 20:35, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?
Уровень экспертизы...
| |
|
5.138, Аноним (13), 21:16, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
Кексперд видимо сам ни разу не смотрел в robots.txt. У того же sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков
| |
|
6.141, нах. (?), 21:20, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Кексперд видимо сам ни разу не смотрел в robots.txt. У того же
> sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков
Какое отношение это имеет к твоему незнанию "где прописывается"?
Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам. (а регекспы в этом файле не обрабатываются)
Но речь об обычных роботах, которые и так стараются не создавать проблем.
А необычные все равно не собираются этот файл проверять.
| |
|
7.142, Аноним (13), 21:26, 21/03/2025 [^] [^^] [^^^] [ответить]
| –1 +/– |
>Какое отношение это имеет к твоему незнанию "где прописывается"?
О наставник, просветите меня
>Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам
Тогда в чём проблема, что их сканнирует ИИ бот?
| |
|
|
|
|
3.132, нах. (?), 20:48, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> обратил. Так значит не работает файрвол. Вон пишут же что банишь
> по ip, так они на другие подсети переходят.
У яндекса научились. В свое время, когда я растерял там все контакты людей, имевших право думать своей головой, кто уехал, кто умер - оно в очередной раз охренело.
Обычные сайты это не сильно затронуло, но у нас были необычные, и нам прилетело по полной. Э... кто не понимает - например, народру (почему не ложился народ? А потому что это был внутренний сайт яндекса и его они сканили не через веб вообще. Да, их бот так может.)
Техподдержка делала круглые глазыньки и вид что вообще не понимает о чем речь.
Что ж ... давайте забаним их блоки. ОГО! Нихреновый за пару дней вырос списочек (когда эта хрень не может пробиться - она так просто не сдается, поднимает новые и новые зомбонеты, по всему миру, до этого тихо спавшие).
Что ж... random drop probability 93%
Все довольны - яндекс перестал создавать нам сумасшедшую нагрузку, хомякопейджи продолжают индексироваться, громадный кластер т-по висит (потому что drop а не reject) на хэндшейках, одаренной молоди тогда еще не израильского предпринимателя казахского происхождения совершенно похрен, электричество и серверы в стойках для них бесплатные и в любом количестве. Пару лет, до моего ухода, так и работало, яндекс у себя ничего не исправил.
> Да robots.txt рекомендации и плохо что их не делают стандартами.
на стандарты эти "Мне ННННАДА!" точно так же забьют. Они понимают только палкой по хребту.
| |
|
4.143, Аноним (13), 21:28, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
>Что ж ... давайте забаним их блоки
У них useragent постоянный? Post запросы шлют или только get?
| |
|
5.144, нах. (?), 22:03, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
хммм... вот этого не знаю. В свое время э.. ну неважно в общем, кто - дал яндексу (да, тогда еще нас слушали) "полезный" как ему показалось совет - если на странице есть форма, состоящая ровно из одной submit - попробовать ее "нажать", потому что это может быть "согласитесь с правилами сайта", "skip animation", какой-нибудь приветственный диалог или еще какая подобная ботва.
"Но потом произошел неприятный инцидент и хищников пришлось срочно убрать"(c)анекдот про тигров в НИИ. Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).
Но, поскольку ИИ-боты не яндексы - и плевать хотели на любой нанесенный ими ущерб - не исключаю, что если такой совет им еще и не дали, то скоро какой-нибудь особо одаренный таки додумается.
| |
|
|
|
|
1.62, Аноним (62), 16:33, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| –2 +/– |
Наглядный пример нежизнеспособности инфраструктуры этого вашего Virgin OpenSource по сравнению с Chad корпорациями.
| |
1.63, Аноним (63), 16:34, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
>можно отметить, ловушку для ИИ-ботов AI Labyrinth, представленную вчера компанией Cloudflare
Cloudflare пишет в блоге, что AI Labyrinth доступен на free тарифе, а по факту оно не включается и написано - Your current bot protection on the Free plan (Bot Fight Mode) only detects and challenges easy-to-detect bots from popular cloud providers.
| |
1.65, myster (ok), 16:40, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Проблему можно даже решить без прибегания к услугам CloudFlare и прочих анти-DDOS компаний.
Можно через fail2ban и аналогичными инструментами, отсеивать агрессивных клиентов, агрессивность определяется по логам веб-сервера, с помощью regex правил. Агрессивным маньякам можно выдавать текст, к примеру: "Успагойся, подожжи 5 минут, чувак. Если не хочешь ждать, закинь 0,00002 BTC на такой-то кошелёк". Если не угомонится банить по IP временно.
| |
|
|
3.79, myster (ok), 17:22, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Опять баш-портянщик со своим sed по логам.
ну вообще то и дефолтных фильтров в fail2ban хватает для отсеивания большинства дичи
| |
|
|
1.75, Аноним (81), 17:18, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
> заставка, которая у некоторых пользователей приводит к минутной задержке загрузки страниц. За два с половиной часа тестирования только 3% запросов прошили проверку
Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто решил что сайт написан криворукими вебокодерами, как и сам гном, и поэтому не работает, просто назначили ботами.
| |
|
2.92, нах. (?), 17:49, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто
> решил что сайт написан криворукими вебокодерами, как и сам гном, и
> поэтому не работает, просто назначили ботами.
ну, будь это какой-то другой сайт - так бы оно и было. Но насчет гома ты по-моему все же неправ. КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."
Скорее всего те 3% тоже были ботами. Просто с длинным таймаутом.
| |
|
3.108, Аноним (108), 19:15, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."
Зайдите и посмотрите, что там. Например, GIMP, GLib.
| |
|
|
1.86, Аноним (-), 17:33, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ] | –1 +/– | Для снижения запросов к ресурсоёмким обработчикам в SourceHut были внедрены лов... большой текст свёрнут, показать | |
|
2.90, Аноним (-), 17:43, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
Я бы добычу кртптоволют в виде больших контор запретил и не давал развиваться этому направлению.
| |
|
3.94, нах. (?), 17:51, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Я бы добычу кртптоволют в виде больших контор запретил и не давал
> развиваться этому направлению.
Товарищ Ким (третий по величине, а возможно и первый если выкинуть коллективные, криптовладелец) смотрит на тебя неодобрительно. Не хочешь ли ты экскурсию за 57 тыщ приобрести?
| |
|
2.105, fuggy (ok), 19:07, 21/03/2025 [^] [^^] [^^^] [ответить]
| +1 +/– |
Значит как светофоры от автобусов отличать это нормальная капча. Парадокс в том: обучая при этом нейросеть которая учиться отличать светофоры от автобусов. То есть человек проходя капчу, обучает нейросеть проходить капчу. А как создавать Honeypot для ботов, которые нагружают сервер и мешают нормальным людям так это не хорошо.
| |
|
1.104, Ан Оним (?), 18:43, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
А,.. вот в чём дело, буквально вчера или позавчера пытался зайти на gitlab гнома, и сильно удивлялся почему не пускает
| |
1.107, Аноним (109), 19:13, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от ИИ.
| |
|
2.127, нах. (?), 20:33, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от
> ИИ.
А стартапам от ЫЫ обязательно вести себя именно как последние м-ки?
| |
|
1.110, Аноним (110), 19:18, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| –2 +/– |
Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё нет?
| |
|
2.116, myster (ok), 19:41, 21/03/2025 [^] [^^] [^^^] [ответить]
| +2 +/– |
> Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё
> нет?
облачность - лишь иллюзия, оно всё self-hosted и постоянно падает, у всех облачных провайдеров время от времени DDOS и технические неполадки.
Возьмём, к примеру gitlab.com ("облачный" вариант gitlab), он внезапно тоже self-hosted и они используют GCP, как хостера. И, кстати, частенько бывает, что он тоже лежит.
GitHub.com также self-hosted, хостится в Azure.
И где ты думаешь упомянутые в статье инстансы gitlab хостятся? в тех же самых "облаках" на соседней стойке.
| |
|
|
2.136, нах. (?), 21:11, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.
ИИ подделает фингерпринт даже лучше чем твой настоящий браузер. Поэтому тебя отфильтруют, бот поганый, а он пройдет.
| |
|
1.114, Аноним (109), 19:37, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| –1 +/– |
Все перейдут в доверенные VPN как необходимость доверия и защиты от атак ИИ.
| |
|
2.128, нах. (?), 20:35, 21/03/2025 [^] [^^] [^^^] [ответить]
| +/– |
> Все перейдут в доверенные VPN как необходимость доверия и защиты от атак
> ИИ.
так точно, товарищмаер! Можно мне кредит доверия как-то до конца месяца поднять на два балла? А то я налог на доверие заплатить не могу - налоговый сайт не пускает.
| |
|
1.133, Аноним (131), 20:53, 21/03/2025 [ответить] [﹢﹢﹢] [ · · · ]
| –1 +/– |
>Проблемы возникли у платформы совместной разработки SourceHut, развиваемой Дрю ДеВолтом (Drew DeVault), автором пользовательского окружения Sway. >Дрю сетует на то, что в очередной раз вместо того, чтобы заниматься развитием платформы
Лицемерьненько, он эту платформу совсем забросил со своим ADHD, прыгает с одной игрушки (вроде hare) на другую.
| |
|