Cum să salvezi site-uri întregi

17.04.2009
Cum să salvezi site-uri întregi
De ce sa salvezi website-uri; aplicatia HTTrack

Ca orice paranoic care se respectă, după ce mi-am tras două yale la uşă şi mi-am instalat un detector de microfoane, panicat fiind de faptul ca www-ul ar putea să crape într-o zi, am hotărât să fac o copie numai a mea a unei bucăţi de Internet.

Ei bine, versiunea softcore e alta: multe dintre siturile pe care găseam informaţii foarte utile – chestii valabile timp îndelungat, resurse de cunoaştere la care apelezi când ai nevoie – au sucombat integral ori parţial în cei 10 ani de când am coborât din copac în faţa monitorului. Până să o păţesc, pur şi simplu adăugam linkurile interesante în lista de "favorite". Astfel, cutia mea craniană a hotărât să cerceteze cum s-ar putea salva pe hard disk întregi site-uri, uşor şi automatizat, ca mai apoi, deschizându-le offline să le vadă la fel de accesibile ca şi în versiunile lor online.

Înainte de a trece la prezentarea soluţiilor descoperite, trec punctual motivaţiile posibile pentru apelarea la aşa-numitele aplicaţii web-spider sau web-copier:

  • ai un site al tău şi vrei să-l distribui pe un CD sau stick USB unor persoane care n-au conexiune la net; persoanele respective îl vor accesa de pe mediul de stocare cu ajutorul browserului, indiferent de sistemul de operare şi fără să instaleze vreun soft suplimentar
  • te urci în trenurile de dat în hepatită marca CFR ori în avion, te aşteaptă drum lung şi laptopul ţi-e alături; cu ocazia asta ai vreme să browsezi site-urile copiate în prealabil pe hard disc ca să eviţi plictisul ori vizionarea incomodă a unui film
  • hopaaa: downloadezi automat şi fără să mai pierzi vremea agitând mausul de pe site-uri cu conţinut protejat de tipul "plăteşti 1 dolar şi ai la dispoziţie o zi ca să iei cât poţi duce"
  • lasă imprimanta să se odihnească pentru zile mai negre, salvând pe HDD siturile cu documentaţie ce te priveşte
  • fă o copie a sitului până nu-l bagă domnul Lucifer în faliment sau până ce nu-i schimbă obiectul de activitate; sigur ai găsit pe net un blog interesant cu multe reţete de gătit, cu poze ce-ţi oferă idei de amenajare a locuinţei, cu scheme şi figuri de judo, sănătate, citate celebre, un site cu tutoriale despre cum să devii Superman sau Traian Băsescu, cum să procreezi fete de succesuri în afaceri din vânzări anterioare 🙂
  • plus backup (accesibil fără complicaţii – baze de date, php and stuff) periodic al site-urilor tale în vederea utilizării ca probă în cazul unor procese ce ţin de drepturile de autor – deşi nu ştiu în ce măsură e valabil d.p.d.v. juridic, în România

HTTrack

HTTrack Webcopier
 Pe vremea când m-am interesat pentru prima dată de o aplicaţie care să salveze site-uri întregi care mai apoi să poată fi accesate offline la fel cum o faci direct de pe net am găsit ca soluţie "mondială" numitul HTTrack. Chiar şi după doi ani de când îl folosesc, fireşte doi ani în care soft-ul s-a mai dezvoltat, rămâne în "pole position-ul" personal, în ciuda testării recente a altor aplicaţii similare, dar comerciale.
Nu numai că este un program gratuit, capabil să ruleze atât instalat în "Program Files" cât şi de pe stick de memorie USB, dar este disponibil pentru orice sistem de operare popular: Windows (95/98/NT/2000/XP), Mac OSX sau Linux.
La instalare ai posibilitatea de a alege limba română. Permite salvarea integrală sau parţială a unui site. Poate fi configurat în fel şi chip, dar asta presupune cotrobăirea help-ului şi cunoştinţe mai avansate. Cu toate setările pe default, nu am întâmpinat probleme în descărcarea site-urilor care m-au interesat. Totuşi, HTTrack nu se înţelege perfect cu anumite site-uri flash, cele ce utilizează intensiv  fişiere Java şi Javascript, respectiv cu cele bazate pe script CGI complex (exemplu concret, go4it.ro – eh, am comis-o!).

Aplicaţii comerciale si Aspecte comune la soft-urile prezentate

Alternativele comerciale

Teleport Pro
Foarte ok în rezultatele muncii sale, acest program este singurul din calupul de comerciale care se prezintă în variantă shareware. Adică îl poţi descărca şi utiliza moca până ţi se face rău. Dar ai alte limitări, principala fiind că descărcarea unui site anume se va opri după câteva sute de fişiere. Iar în ziua de azi, cu tot cu scripturi, chiar şi cele mai mici situri au cam de la o mie de fişiere în sus. Excelent pentru copierea site-urilor complexe.

WRC

Website Ripper Copier (WRC)
Deşi imposibil de mic, doar 1MB instalat, acest program este şi apetisant vizual, şi deştept, şi bun din câte am observat. Îţi oferă, foarte la îndemână – adică în meniul de start, nişte opţiuni care la celelalte aplicaţii sunt ascunse în cine ştie ce meniu: descărcarea exclusiv a unor tipuri de fişiere pe care le doreşti (PDF, MP3, JPG etc.), crearea de copii exacte – în oglindă a site-urilor sau explorarea structurii de link-uri ale acestora. 

  • Cerinţe: Windows 98/M/NT4.0/2000/XP/MCE/2003/Vista; CPU 90 MHz minimum,  RAM > 32MB, Microsoft .NET Framework 1.1 sau mai nou
  • Preţ de la 40 USD, instaler de numai 600KB, trial
  • Link: www.tensons.com/products/websiterippercopier

SurfOffline

SurfOffline (2.0)
Interesant prin faptul că include un browser ce permite vizualizarea siturilor în curs de descărcare ori deja descărcate. Varianta trial (30 zile, perioadă de graţie) este limitată atât ca număr de fişiere descărcabile cât şi în prin faptul că nu permite vizualizarea offline a siturilor descărcate în browsere ca IE sau Firefox, nefiind activă opţiunea de export HTML.

  • Cerinţe: Windows Vista/XP/2000/ME/98
  • Preţ de la 40USD, descărcare gratuită, instaler 1,6MB
  • Link: www.surfoffline.com

Web2Disk

Inspyder Web2Disk (2.0)
Dintre toate exemplele, Web2Disk pare a fi cea mai simplisimă variantă, optimă pentru începători. Introduci numele sitului de descărcat, folderul în care să fie salvat şi gata. Nu gestionează mai multe situri deodată. Poate să-ţi trimită alertă prin e-mail dacă un site a fost actualizat.

  • Cerinţe: Windows 2000/XP SP2/2003/Vista, Microsoft .NET Runtime Version 2.0, 1Ghz Pentium III CPU, 256MB RAM
  • Preţ 50USD, descărcare gratuită (trial), instaler de 2MB
  • Link: www.inspyder.com/products/Web2Disk/index.php


Aspecte comune la soft-urile prezentate

În primul rând nu m-am deranjat să creez un tutorial în stilul "pas-cu-pas" deoarece toate aplicaţiile, inclusiv cea gratuită HTTrack, dispun de un "Vrăjitor" ori sunt extrem de intuitive, iar paşii de bază sunt cam aceştia: scrii numele unui proiect (de pildă abcxzy dacă vrei să salvezi site-ul abcxyz.ro), a categoriei în care poate fi inclus – sănătate, turism, marxism etc., introduci calea către site – adică adresa web – şi dai clic pe finish. Asta-i tot, în principiu.

Pentru a descărca doar anumite secţiuni ale unui site, identifici calea către secţiunea respectivă şi o introduci în locul adresei de bază a site-ului. Altel spus, dacă eşti pasionat de articolele din secţiunea "Curiozităţi" de pe go4it.ro, te vei folosi de adresa web  http://www.go4it.ro/curiozitati.Ai aflat-o din bara browserului, după ce ai dat click pe butonul Curiozităţi din meniul principal.

Dacă intri însă la opţiuni (Options, Preferences) ţi se face pielea de găină, pentru că ai o grămadă, din care multe sunt cele de neînţeles pentru un simplu posesor de computer. De-aici poţi seta ca la downloadarea unui sit să fie exluse anumite tipuri de fişiere (zip, rar, jpg, png, avi etc.), update-upgrade automat al conţinutului site-ului deja descărcat la anumite intervale de timp, utilizarea de proxy-uri şi multe altele.

Soluţiile comerciale de copiere a site-urilor beneficiază de design ceva mai prietenos şi de opţiuni mai puţine şi mai uşor de înţeles pentru novici. Nu sunt neapărat mai deştepte decât HTTrack, dar în mod clar se pot descurca mai bine cu unele situri complexe, fără să fii nevoit să citeşti zile la rând Help-ul.

Cu excepţia Inspyder Web2Disk 2.0, toate programele prezentate pot downloada simultan mai multe situri.

Toate cu excepţia versiunii trial a SurfOffline (2.0) salvează siturile direct în format HTML, accesibil din orice browser (fără deschiderea aplicaţiilor).

Nu te aştepta ca offline absolut orice site să fie fidel reprodus vizual ori ca şi conţinut. Asta se întâmplă la site-uri ce nu corespund unor anumite standarde  sau folosesc scripturi mai speciale.

Ai grijă ce şi cum salvezi, că poate n-ai spaţiu pentru întreg Internetul. Sper că n-ai de gând să copiezi tot Yahoo-ul sau toată Wikipedia :-).