Cuil.com porneşte cu 120 de miliarde de pagini, iar Google depaseste trilionul

30.07.2008
Cuil.com porneşte cu 120 de miliarde de pagini, iar Google depaseste trilionul
Google a indexat primul trilion de pagini web unice

Cuil vs. Google

Să vedem ce diferenţe există între Cuil şi Google. Cea mai importantă se referă la modul de apreciere al paginilor web (page rank). Pentru Google relevanţa paginilor web este dată în mare măsură de numărul de linkuri ce conduc spre ele. În schimb, pentru definirea unui top al relevanţei la căutare, Cuil se bazează în principal pe analizarea conţinutul paginilor web. Este ceea ce se cheamă căutare contextuală (căutare în interiorul paginilor, nu după numele acestora). Apoi, avem designul. Adresa de start a Cuil seamănă leit cu cea a Google Search, diferă doar fundalul: interfaţă minimală, dar pe negru.

Însă la afişarea rezultatelor, situaţia se schimbă radical, aş spune în bine. Interfaţa este cu totul altfel decât la Google, aş spune că reprezintă un pas înainte şi eventual de urmat: rezultatele sunt prezentate pe două-trei coloane (la alegere, din dreapta – talpa paginii), respectiv ordonate pe categorii care ajută internautul să ajungă mai uşor la informaţia dorită, iar fiecare rezultat este însoţit acolo unde este posibil de o poză. Complexitatea afişarii este unul dintre factorii ce conduc la încărcarea greoaie a rezultatelor. Ca funcţionalitate Cuil.com nu este la fel de complet ca alte servicii de căutare web. Lipsesc acele taburi care ne plac la Google sau Yahoo! Search: imagini, video, hărţi ş.a.

În teste, Cuil.com s-a dovedit cam ineficient. Rezultate slabe sau lipsă la căutarea după mai multe cuvinte, cu atât mai slabe cu cât încerci să concentrezi căutarea pe România. Recunosc că nu m-am jucat prea mult cu noul motor, dar există şi de cealaltă parte a oceanului jurnalişti nesatisfăcuţi de noul search engine ori care nu "s-au prins" de cum se utilizează eficient. Am văzut ceva comentarii destul de pertinente la articole pe aceast subiect, în care se spune că nici Google Search n-a mulţumit la data lansării sale (prin ’98), iar modalitatea de căutare, de introducere sau utilizare a cuvintelor cheie în cazul Cuil.com ar solicita o abordare diferită de cea cu care ne-am obişnuit. Nu ştiu dacă capacitatea de returnare a rezultatelor e influenţată de numărul de interpelări dintr-un moment dat, cert este că serverele Cuil au fost probabil suprasolicitate în prima zi de la lansare şi au cedat de câteva ori.

Cuil.com

Trilionul URL

Până şi inginerii Google s-au crucit. Motorul lor de căutare a detectat primul trilion de pagini web unice. Adică a ajuns cu numărătoarea la o mie de miliarde, iar numărul paginilor unice disponibile pe Internet – potrivit aceleiaşi surse de încredere, blogul oficial Google – creşte cu viteza de 1 miliard pe zi. Primul index web al Google, din 1998, consta în 26 de milioane de pagini, iar în 2000 motorul Google citise cifra record, la momentul respectiv, de 1 miliard de pagini web unice.

Jesse Alpert şi Nissan Hajaj, ingineri de soft în echipa Google Web Search Infrastructure spun că motorul de căutare nu indexează toate paginile din trilionul acesta impresionant de vreme ce multe dintre ele sunt similare sau reprezintă pagini cu conţinut autogenerat. Alte informaţii postate descriu cum şi cu ce frecvenţă sunt analizate linkurile web de Google.

Cum descoperă Google aşa multe pagini? "Pornim de la un set de pagini web şi urmărim link-urile acestora către noi pagini web. De pe noile pagini accesăm link-uri de pe acestea şi aşa mai departe. De fapt am descoperit mai mult de un trilion de linkuri unice, dar nu toate conduc spre pagini web diferite. Pe multe dintre pagini se găsesc multiple linkuri URL dar care conduc spre acelaşi conţinut".

Dacă într-adevăr Internetul conţine un număr atît de impresionant de pagini web unice, "nu ştim; timpul nu ne permite să ne uităm la toate! :-). De fapt, putem spune că numărul lor este infinit – de exemplu, calendarele web pot avea câteun link gen ‘ziua următoare’ pe care l-am putea urmări la nesfârşit şi de fiecare dată să descoperim că ne conduce spre o ‘nouă’ pagină. Fireşte că nu procedăm aşa. Dar acest exemplu demonstrează faptul că dimensiunea web-ului depinde mai degrabă de răspunsul fiecăruia la întrebarea ce ‘este o pagină web utilă’, iar o definiţie exactă nu există". 

Bun, după aceste date uşor confuze pentru creierul meu, cu amalgamul de linkuri şi pagini unice care de fapt nu sunt aşa unice prin conţinut…, băieţii de la Google ne mai aduc la cunoştinţă nişte incredibilităţi. Cum ar fi că motorul lor de căutare analizează de mai multe ori pe zi această impresionantă încrengătură de un trilion de linkuri URL, iar procesul este echivalent cu explorarea în detaliu a tuturor intersecţiilor stradale de pe harta Statelor Unite, atenţie "dacă această hartă ar conţine de 50.000 de ori mai multe străzi şi intersecţii".

După lecturarea celor mai mari cifre pe care le-am întâlnit vreodatată, sper că nu v-aţi făcut şi voi bagajele pentru spitalul de nebuni. Eu am chemat deja taxiul.

Urmărește Go4IT.ro pe Google News