terça-feira, 4 de julho de 2017

Como fazer download de site inteiro - Ubuntu

Para esse trabalho, iremos utilizar uma aplicação chamada Httrack, que se encontra nos repositórios oficiais do Ubuntu:


Para instalá-lo:

sudo apt-get install httrack

Essa aplicação roda apenas pelo terminal, então para iniciar o programa digite: httrack e dê enter

Veja que logo de início, o httrack nos pede para inserir um nome para o projeto. No caso, você pode escolher qualquer um.

Nesse próximo passo, o httrack nos pergunta onde queremos que os arquivos do download sejam salvos. Para facilitar, escolhi uma pasta dentro do meu usuário


Em "Enter URL" selecione o site que desejas fazer o download. No caso, se desejas fazer o download de todo o site, use, por exemplo: www.matheus.com. Já caso queira apenas fazer o download de uma página específica, use o link da mesma, por exemplo: www.matheus.com/httrack.html


Nesse próximo passo, o httrack lhe pergunta o que desejas fazer. Como quero fazer o download de um site completo, uso a opção "Mirror ALL links in URLS (Multiple Mirror)" Para selecioná-la, veja que há o número "4" de identificação. Então basta digitá-lo e em seguida enter.


Nesse próximo passo "Proxy", não precisa fazer nada. Basta dar um enter


Nessa próxima opção, basta dar enter novamente

Na opção "Additional options", basta dar enter novamente, caso não deseja fazer algo específico


Nessa opção, basta aceitar com um "Y" maiúsculo

Pronto, agora o programa já está fazendo o download de todas as páginas do site especificado acima.

Basta ir agora onde configurou para ter acesso aos arquivos. No meu caso, salvei os arquivos em uma pasta chamada sites, dentro do meu usuário


Veja que, onde configurei para os arquivos serem salvos, o httrack criou uma pasta com o nome que selecionei nos primeiros passos.

Dentro dessa pasta, há os arquivos do site


O processo de download do site, dependendo do seu tamanho e da velocidade da sua internet, pode demorar dias, ou até semanas.

Esse site que estou baixando para ler offline, não tem muito conteúdo publicado, por conta disso consegui fazer o download de todo o conteúdo em muito pouco tempo.

Outro fator que prejudica é que geralmente os arquivos dos sites são bem pequenos e milhares e milhares deles, por conta disso não dar para a conexão estabilizar perfeitamente.

Esse foi o resultado final:





Compartilhe: