> _регулярные_ четыре захода за обновлениями как бы отследить несложно.А нерегулярные? А если ip меняется? А если на разных устройствах разные наборы софта стоят, а /etc/portage (ну точнее его аналог в федоре) один на всех (то есть любой пакет скачивается не более одного раза)? А если я иногда удаляю /etc/portage, чтобы он мне в процессе каких-нибудь манипуляций не мешал? (я пару раз так делал: /etc/portage на отдельном разделе, и если надо что-нибудь массивно подвигать, то это 20G места на отдельном разделе)*
> Поверь человеку, по подобным признакам третьего порядка отслеживающему поведение сложной системы с непредсказуемыми вывертами в кишках
Почему ты думаешь, что твои оценки поведения сложной системы верны? Ты как-то проверяешь свои выводы? Как давно ты этим занимаешься? Ну, в том смысле, что сложная система она такая, она может довольно долго вести себя хорошо, а потом вдруг -- хоп -- и все теории о её поведении насмарку. Многие люди говорят, что они могут работать с данными, но я не верю им. Человеческая психика имеет кучу когнитивных байесов и искажений, и среди них есть и Даннинг-Крюгер. Я работал и с учёными, которые казалось бы специализируются на сборе и обработке данных, и то как они работают, не всегда вызывает доверие к результатам. И так выходит не потому, что они злонамеренно подтасовывают что-то ради грантов, не, они совершенно искренне не видят где они переступают грань допустимого.
А и ещё один вопрос, твоя сложная система состоит из людей? Инженерные сложные системы -- это же детский лепет, по сравнению с социальными системами. Люди гораздо изобретательнее машин, и гораздо менее предсказуемы.
> ну наняли бы summer student, за еду - в конце-концов, им не кредит по этим данным выдавать
Я подозреваю, что количество установок Fedora -- это довольно важная статистика для RedHat'а, влияющая на капитализацию. Но чтобы она влияла, надо уметь отвечать за цифры. Пока изменения этих цифр в пределах того, что предсказуемо, никто не будет париться, и все будут доверять этим цифрам. Но если вдруг за год без видимых причин цифры скакнули на 40%, вопросы неизбежно возникнут. И если на эти вопросы будет отвечать студент, работающий за еду, то его ответам могут не поверить. И тут не очень важно даже, насколько его ответы близки к реальности, важно поверят ему или нет. И те, кто будет решать верить или нет, скорее всего далеки от data science, и судить они будут по косвенным признакам, а "студент", "работает за еду" -- это признаки того, что верить ему особо не стоит. Ну, я бы точно не поверил бы -- обработка данных требует опыта сбора и обработки данных, тут очень не помешает PhD и резюме с кучей success stories.
upd:
[*] а, ещё я иногда удаляю /usr/portage/distfiles -- скачанные архивы там копятся, и со временем 20Gb кончаются. Я видел где-то что-то про скрипты, которые удаляют только то, что заведомо не нужно уже, но так и не собрался разобраться. Поэтому я тупо делаю rm и удаляю всё.