Estoy tratando de descargar el contenido de un sitio web utilizando la herramienta wget. He utilizado la opción-R para rechazar algunos tipos de archivo. pero hay algunos otros archivos que no quiero descargar. Estos archivos se denominan de la siguiente manera, y no tener las extensiones.

string-ID

por ejemplo:

newsbrief-02

¿Cómo puedo saber wget no para descargar estos archivos (los archivos que sus nombres empiezan con la cadena de caracteres especificada)?

OriginalEl autor Hakim | 2012-06-27

2 Comentarios

  1. 8

    No se puede especificar una expresión regular en el wget -R clave, pero usted puede especificar una plantilla (como archivo de plantilla en una shell).

    La respuesta parece:

    $ wget -R 'newsbrief-*' ...

    También puede utilizar ? y símbolo de clases [].

    Para obtener más información, consulte info wget.

    OriginalEl autor Igor Chubin

  2. 25

    Ya que (al parecer) v1.14 wget acepta expresiones regulares : --reject-regex y --accept-regex (con --regex-type posix por defecto, se puede configurar para pcre si se compila con libpcre de apoyo).

    Ten en cuenta que parece que usted puede utilizar --reject-regex sólo una vez por wget llamada. Es decir, usted tiene que utilizar | en una sola expresión regular si desea seleccionar varios regex :

    wget --reject-regex 'expr1|expr2|…' http://example.com
    Gracias por el ejemplo con varios regex.
    Hace rechazar-regex trabajar con cosas como . o *, ¿qué tipo de expresión es, extendido regex o PCRE regex?
    La segunda parte de su pregunta ya se ha abordado en mi respuesta. Funciona con . y *, por ejemplo, wget -r --reject-regex ".*foobar.*" http://example.com descartará http://example.com/foobar/.
    Tenga en cuenta que parece regex sólo funciona en recursiva de descargas, aunque.
    Yo lo he utilizado con --spider, y tuve que escapar [], lo que significa que [] también es especial. Yo solo se les preguntó sobre qué tipo de regex es porque GNU grep también soporta diferentes tipos de regex, como extendido regex y pcre regex.

    OriginalEl autor Skippy le Grand Gourou

Dejar respuesta

Please enter your comment!
Please enter your name here