Uno de los comandos más potentes (si es que no es el más potente) para poder realizar descargas en Internet desde la línea de comandos es el conocido wget. Muchos tutoriales de procesos desde la terminal incluyen a menudo el uso de este comando para la descarga de paquetes, pero la utilidad de wget va más allá.

Lo demuestra el post de jamsubuntu en el que se describen algunas de sus opciones más destacables tanto para esos usos "simples" como para una opción aún más interesante: descargar un sitio web completo para, por ejemplo, poder mantener una copia offline de esas páginas web.

Wget también está disponible en Windows, y hasta hay un GUI para esta utilidad
El proceso es sencillo, y tal y como indican en el post original -de nuevo adapto el contenido, pero todo el mérito es de jamsubuntu- basta con escribir el comando
wget -r -p http://www.ejemplo.com
El parámetro -p le indica a wget que incluya todo (imágenes también), de modo que todos los ficheros HTML se mostrarán en su versión offline del mismo modo que si estuviéramos viendo la página con conexión.
También podemos pasar del fichero robots.txt del sitio web que queremos extraer para obtener aún más información y páginas que no se obtienen con el comando normal. Para ello habrá que escribir:
wget -r -p -e robots=off http://www.ejemplo.com
Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, así que podremos engañarles haciéndoles pensar que somos un navegador convencional:
wget -r -p -e robots=off -U mozilla http://www.ejemplo.com
Aún así hay administradores que han puesto un límite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engañar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de información:
wget --random-wait -r -p -e robots=off -U mozilla http://www.ejemplo.com
Como indican en jamsbuntu, existen otros parámetros útiles de wget, como por ejemplo "--limit-rate=20k", que limitará la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parámetro "-b" continuará con la descarga incluso si nos salimos de la sesión (útil para realizar ese proceso a través de máquinas remotas), y por último la opción "-o $HOME/wget_log.txt" permitirá mantener un registro de las transferencias para comprobar posibles errrores.
Links:
http://jamsubuntu.blogspot.com/2009/02/using-wget-to-download-entire-websites.html
http://www.gnu.org/software/wget/
Opciones
Post Relacionados
- descarga libros de lo que te imagines (mas de 100 webs)
- Limitar la velocidad de descarga en Wget
- Usar wget para descargar sitios y archivos de internet
- ¿Como bajar Musica de Radios Online y Webs?
- descarga como premium con esta webs
- ¿Cómo eran las Webs cuando se crearon?
- Los 100 sitios webs mas solicitasdos (Segun Alexa)
- Más de 450 webs de sonidos.
- Webs para bajar libros .. muy bueno!
- Mejores webs de fotografia
Información del post
5 Puntos
10 Favoritos
1437 Visitas
Creado el: 17.02.2009 a las 16:23:56 hs.
Categoría: Linux y GNU
Tags: descarga, webs, completas, wget
#1 -
pablerque
| 17.02.2009 19:27:52 dijo:
Muy bueno el articulo! Una pregunta: descarga tambien los archivos flash? Por ejemplo podria descargar una web entera de juegos en flash?
Saludos.
#2 - jjm66 | 17.02.2009 20:28:27 dijo:
GRacias, creo q si no lo probé, hacelo y decime
#3 - juancarlospaco | 19.02.2009 21:33:24 dijo:
Por que siempre solo ponen la opcion de Linea de comandos,
los que recien aprenden a usar un equipo informatico desbloqueado necesitan de las GUI :
apt:/gwget


#4 - cfoch3 | 22.02.2009 06:04:40 dijo:
Esto es lo malo, la gente nueva ve solo comandos, por eso esta el mito: para usar linux se necesita saber comandos. Pero para la gente que esta leyendo esto.
Esta explicacion con comandos resulta mas rapido, que explicar un entorno grafico, ejemplo para instalar emesene
tendrias ke decir
Anda a Sistema->Administracion->Gestor de paquetes synaptic, busca emesene y dale clic derecho, marcar para instalar y luego clic en aplicar.
Por terminal...
Aplicaciones-->accesorios->terminal, escribe sudo apt-get install emesene y listo
Cual fue mas facil de "explicar", el de la linea de comandos
Muy bueno el articulo! Una pregunta: descarga tambien los archivos flash? Por ejemplo podria descargar una web entera de juegos en flash?
Saludos.
#2 - jjm66 | 17.02.2009 20:28:27 dijo:
GRacias, creo q si no lo probé, hacelo y decime
#3 - juancarlospaco | 19.02.2009 21:33:24 dijo:
Por que siempre solo ponen la opcion de Linea de comandos,
los que recien aprenden a usar un equipo informatico desbloqueado necesitan de las GUI :
apt:/gwget


#4 - cfoch3 | 22.02.2009 06:04:40 dijo:
Esto es lo malo, la gente nueva ve solo comandos, por eso esta el mito: para usar linux se necesita saber comandos. Pero para la gente que esta leyendo esto.
Esta explicacion con comandos resulta mas rapido, que explicar un entorno grafico, ejemplo para instalar emesene
tendrias ke decir
Anda a Sistema->Administracion->Gestor de paquetes synaptic, busca emesene y dale clic derecho, marcar para instalar y luego clic en aplicar.
Por terminal...
Aplicaciones-->accesorios->terminal, escribe sudo apt-get install emesene y listo
Cual fue mas facil de "explicar", el de la linea de comandos
Para poder comentar necesitas estar Registrado. O.. ya tenes usuario? Logueate!







