Inicio | Navegadores |Noticias |Prácticos

Recupera tu web desde la caché de sitios on-line

| | 6 comentarios

Internet es una red de redes mundial, pero cuando una web ha sido borrada o está temporalmente inaccesible por cualquier motivo, los usuarios web tienen muy pocas posibilidades de acceder a ese sitio web. Las posibilidades incluyen la búsqueda en la caché de Google, Web Archive o servicios similares de caché que guardan una copia de respaldo de la página en cuestión. La solución no es la idónea, porque los Web caches son una buena solución para ver una única página web pero no es un servicio cómodo cuando se necesita acceder a varios sitios. Entre los casos que también pueden ocurrir es que los administradores de la página web hayan perdido su sitio web alojado en un servidor y necesiten restaurar las páginas desde las caches de Internet.

warrick websites Recupera tu web desde la caché de sitios on line

Warrick es un script que intenta restaurar los sitios web desde varias fuentes de Internet incluyendo la de Archive.org y tres populares buscadores como son Google, Yahoo! y Bing. Su instalación es un poco mas compleja que la de un ejecutable pero se puede hacer aunque seas un usuario inexperto. El programa está disponible tanto para Windows como para Linux. Los usuarios de Windows deberán instalar previamente Active Perl antes de ejecutar el script desde la línea de comandos.

warrick 500x251 Recupera tu web desde la caché de sitios on line

Los desarrolladores han creado una guía paso a paso para los usuarios de Windows sobre cómo instalar y utilizar el script en este sistema operativo. La página web de Warrick contiene ejemplos de cómo usar el script para restaurar páginas sencillas e introducir proyectos web. El comando warrick.pl-r-WR-c ia http://yourwebsite.com/ reconstruirá todas las páginas del sitio web que se almacenan en al menos una de las fuentes on-line utilizadas en el proceso de recuperación.

Las siguientes instrucciones te mostrarán cómo instalar y ejecutar Warrick en un ordenador gobernado por XP:

  • Instala ActivePerl.
  • Después te pedirá que instales SOAP-Lite utilizando el Package Manager de ActivePerl.
  • Para ejecutar el Package Manager de Perl, haz clic en Inicio -> Programas -> ActiveState ActivePerl ->Perl Package Manager.
  • Una ventana negra se abrirá y tendrás que introducir lo siguiente: ppm> install SOAP-Lit.
  • Una vez instalado esto puedes salir del package Manager de perl.
  • Ahora, abre un símbolo desde Inicio -> Todos los programas -> Accesorios -> símbolo del sistema
  • En la ventana negra que aparecerá introduce: cd c:\Warrick (esto le llevará al directorio de Warrick).
  • Ahora introduce: warrick.pl -r -wr ia -c http://yourwebsite.com/.
  • En la ventana negra verás información de salida de Warrick así como información de la página web reconstruida.
  • Deberás ver un directorio llamado yourwebsite.com en el directorio de Warrick (C: \ Warrick \ yourwebsite.com) que contiene todos los archivos que se han recuperado.
Categorías: Navegadores, Noticias, Prácticos
Etiquetas: , , , , , , ,

6 comentarios en “Recupera tu web desde la caché de sitios on-line”

  1. 1
    jose dice:

    hola tengo un problema estas indicaciones son para windows XP el problema es que yo tengo vista y en el vista el ms-2 es diferente no me da accedido a la unidad c: solo me cambia o como administrador a win32 o como usuario c:user/pepe/ que puedo hacer?? instalar xp????? hay solucion?? graciass

  2. 2
    jose dice:

    hola lo he hecho funcionar pero solo me recupera la primera pagina , es un foro , no recupera el contenido interno de la cache de google!!!!!o sea los apartados .

  3. 3
    Veronica dice:

    En principio funciona bajo cualquier plataforma Windows y Linux.
    En cuanto a la recuperación también puedes probar con la opción caché directamente desde Google.

    Saludos

    MuyInternet

  4. 4
    jose dice:

    el problema es que o no se usar la cache de google o tengo que recordar justo esa pagina por ejemplo si pongo cambiar filtro , pues me sale el post de cambiar filtro pero si ese post tiene 3 paginas en la cache de google solo me sale la primera y las demas como las veo ? he hablado con el creador de warrick y me contesto esto “The problem is that Google is not supported unless you run it from your own computer. I’m not sure you you are not seeing pages from MSN (Bing). You may want to run Warrick from your own computer to obtain more pages” creo que me quiere decir que si ejecuto el warrick desde mi pc pero ya lo estoy ejecutando y no me guarda la cache de google..

  5. 5
    jose dice:

    jaja ya me parece por que no me va google por estoo Uso de repositorios específicos de la web

    To reconstruct an entire website using only a subset of all the web repositories, use the -wr command with a comma-separated list of web repositories to use. Use the following abbreviations: Para reconstruir un sitio web completo usando sólo un subconjunto de todos los repositorios web, utilice el comando wr con una lista separada por comas de los repositorios web para su uso. Usar las siguientes abreviaturas:

    g = Google g = Google
    ia = Internet Archive = ia Internet Archive
    b = Bing (formerly Live Search) b = Bing (anteriormente Live Search)
    y = Yahoo y = Yahoo

    The following example will reconstruct the website using only Google and the Internet Archive: El siguiente ejemplo reconstruir el sitio web usando sólo Google y el Archivo de Internet:

    warrick.pl -r -wr g,ia http://foo.org/ warrick.pl-R-wr g, ia http://foo.org/

    There are several options that pertain to only a specific web repository. Hay varias opciones que pertenecen al repositorio sólo una web específica. es que no lo entendia menos mal el traductor , hay que ponerle el comando especifico!!!

  6. 6
    jose dice:

    bueno el problema ahora es que solo recupera esa direccion y ademas si uso google me copia la imagen actual es decir el anuncio de web desactivada no se como indicar al programa que acceda a la cache de google o del big

Escribe un comentario

(Se acepta código HTML)