Es allí una manera de conseguir alrededor de los siguientes?

httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

Es la única forma de evitar esto para contactar con el propietario (barnesandnoble.com).. estoy construyendo un sitio que les traería en más ventas, no sé por qué iban a denegar el acceso a una determinada profundidad.

Estoy usando la mecanización y BeautifulSoup en Python2.6.

con la esperanza de un trabajo-alrededor de

  • Probablemente hay problemas legales si va a monetizar, pero si no, seguid así, por favor. Larga vida a scroogle.
InformationsquelleAutor Diego | 2010-05-17

8 Comentarios

  1. 14

    Usted puede tratar de mentir acerca de su agente de usuario (por ejemplo, tratando de hacer creer que eres un ser humano y no un robot) si usted desea conseguir en posibles problemas legales con Barnes & Noble. ¿Por qué no en lugar de ponerse en contacto con su departamento de desarrollo de negocios y convencerlos de que lo autoriza a usted en concreto? Son sin duda tratando de evitar de conseguir su sitio raspados por algunas clases de robots, tales como la comparación de los precios de los motores, y si usted puede convencerlos de que no eres uno, firmar un contrato, etc, que bien podría estar dispuesto a hacer una excepción para usted.

    Un «técnico» de la solución que rompe sus políticas como codificados en robots.txt es una de alta-legal-enfoque de riesgo que nunca recomendaría. Por CIERTO, ¿cómo hace sus robots.txt leer?

    • Su robots.txt sólo no permite «/críticas/comentarios.asp» – ¿es esto lo que usted está raspado?
    • Gracias Alex, estoy de acuerdo… después de leer más sobre robots.txt este es el mejor enfoque. Saludos… @fmark estoy de raspar la parte de vídeo… video.barnesandnoble.com/robots.txt
    • robots.txt no es jurídicamente vinculante. (nytimes.com/2005/07/13/technology/…)
    • En los estados unidos que pueden estar a la derecha (el resultado de la ley de traje no es dado y la gente que da su opinión puede no ser una muestra representativa de todos modos), pero las leyes varían considerablemente en todo el mundo. En el reino unido puede ser un delito penal para hacer lo que se le pide, ya que bien puede ser contrario a s.1 de la Ley de abusos Informáticos de 1990. Esto puede no ser un problema para Diego, pero yo le invitan a la cautela.
  2. 195

    oh, usted necesita para pasar por alto la robots.txt

    br = mechanize.Browser()
    br.set_handle_robots(False)
    • Eso es lo que estoy buscando.
    • Exactamente lo que estaba buscando, saludos!
    • Esta es la respuesta correcta.
    • finnaaaaaalllly
    • Gracias montones, esta debe ser la respuesta correcta
    • Eso es exactamente lo que estaba buscando.

  3. 5

    Mecanizar de forma automática de la siguiente manera robots.txt pero puede ser desactivado asumiendo que usted tiene permiso, o han pensado en la ética a través de ..

    Establecer un marcador en el navegador:

    browser.set_handle_equiv(False) 

    Esto ignora robots.txt.

    También, asegúrese de que el acelerador de sus solicitudes, para no poner demasiada carga en su sitio. (Nota, esto también hace que sea menos probable que se detecte y que la prohibición).

    • Hey wisty, ¿qué quieres decir con acelerador sus peticiones?
    • Quiero decir, establecer un pequeño tiempo de espera después de cada petición (es decir, tiempo.sleep(1)), y no utilizar muchos hilos. Yo uso un par de hilos (en el caso de atascarse), y un par de segundos de sueño.
    • esto no funciona con la versión actual de la mecanización de la
  4. 4

    El código para realizar una correcta solicitud:

    br = mechanize.Browser()
    br.set_handle_robots(False)
    br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    resp = br.open(url)
    print resp.info()  # headers
    print resp.read()  # content
    • La única respuesta que explique – ¿cómo podemos establecer encabezados a lo largo de con la inhabilitación de robots.txt manejo.
  5. 3

    El error que estás recibiendo no está relacionado con el agente de usuario. la mecanización de forma predeterminada cheques robots.txt las directivas automáticamente cuando se utiliza para navegar a un sitio. El uso de la .set_handle_robots(false) el método de la mecanización.navegador para deshabilitar este comportamiento.

  6. 1

    Conjunto de su User-Agent encabezado para que coincida con algunos de los verdaderos IE/FF Agente de Usuario.

    Aquí está mi IE8 cadena useragent:

    Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; AskTB5.6)
    • bonito trampa 😉 pero no funciona en este caso
  7. 0

    Sin debatir la ética de esto, usted podría modificar los encabezados de ver como el robot de google, por ejemplo, o es el googlebot bloqueado así?

    • Yo no veo ninguna éticas problema, pero el legal pueden empeorar aún más, (quien se está suplantando podría detectar y demandar el improperio-eliminados fuera de ti, no solo B&N y su ISP). «Hacer este ilegales cosa y simplemente no quedar atrapados» no es prudente consejo, incluso cuando no hay problemas éticos pertenecen (y, repito, no veo nada inmoral en la ruptura de estas leyes-es demasiado arriesgado para tan poco beneficio potencial;-).
    • Un asunto legal, es un asunto ético en este caso de que siga o no.
  8. 0

    Como parece, usted tiene que hacer menos trabajo para eludir robots.txt, al menos, dice este artículo. Así que puede que tenga que quitar algo de código para ignorar el filtro.

    • Que artículo más sobre el código personalizado para raspar los sitios web. Si usted está utilizando algún tipo de biblioteca, la biblioteca podría ser ya el respeto de robots.txt.

Dejar respuesta

Please enter your comment!
Please enter your name here