| |
При выгрузке материалов с WWW вам часто будет необходимым ограничить выгружаемые данные определенными типами файлов. Например, если вы заинтересованы только в выгрузке GIF файлов, то вы не будете слишком обрадованы выгрузке документов Postscript и наоборот.
Wget предоставляет две опции для решения этой проблемы. Описание каждой опции приводит ее короткое имя, длинное имя и эквивалентную команду файла ".wgetrc".
Аргументом (ACCLIST) опции является список суффиксов имен файлов или шаблонов определяющий что Wget будет выгружать во время рекурсии. Суффиксом здесь является завершающая часть имени файла и состоит из "нормальных" символов, например, "gif" или ".jpg". Шаблоны позволяют использовать мета-символы подобно шаблонам оболочки командной строки, например, "books*" или "zelazny*196[0-9]*".
Таким образом определение "wget -A gif,jpg
" укажет Wget
выгружать
только файлы заканчивающиеся на "gif" или "jpg", т.е. графические
файлы формата GIF или JPEG. С другой стороны,
'wget -A "zelazny*196[0-9]*"
'
будет выгружать только файлы с именами начинающимися с "zelazny" и
содержащие числа от 1960 до 1969 далее в любом месте имени файла.
За объяснением принципов функционирования шаблонов обратитесь к
руководству на вашу оболочку.
Разумеется любое количество суффиксов и шаблонов может быть объединено в разделенный запятыми список и передано аргументом для "-A".
Данная опция работает аналогично опции "--accept", только ее логика является прямо противоположной. В этом случае Wget будет выгружать любые файлы за исключением тех, что попадают под суффиксы или шаблоны указанные в списке аргумента (REJLIST).
Таким образом, если вы хотите выгрузить со страницы все, исключая
увесистые файлы MPEG и .AU, вы можете воспользоваться
"wget -R mpg,mpeg,au
".
Аналогично, для выгрузки всех файлов исключая те, чье имя начинается
на "bjork", воспользуйтесь
'wget -R "bjork*"
'. Двойные кавычки в командной
строке используются для того, чтобы оболочка командной строки сама не
обрабатывала шаблон.
Опции "-A" и "-R" могут использоваться совместно для получения очень
точного поведения при выгрузке. Например,
'wget -A "*zelazny*" -R .ps
'
приведет к выгрузке всех файлов содержащих "zelazny" как часть их имени,
но исключая все Postscript файлы.
Заметим, что эти две опции не касаются выгрузки HTML файлов, Wget должен выгружать все HTML документы чтобы выяснять куда ему двигаться дальше, в противном случае рекурсивная выгрузка становится просто бессмысленной.
Закладки на сайте Проследить за страницей |
Created 1996-2024 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |