Hosting e Domini web

Web Crawler e spider, tutto ciò che c’è da sapere

novembre 10, 2018

3737

Se ti stai chiedendo come vengono catalogati i risultati di migliaia e migliaia di pagine web ad ogni tua ricerca, allora sei nel posto giusto. Scopri tutto ciò che c’è da sapere sui Web Crawler e gli spider dei motori di ricerca.

Che cos’è un Web Crawler?

Motori di ricerca come Google, Yahoo, Bing e cosi via, utilizzano tecnologie ed algoritmi altamente raffinati e veloci, per garantire, in maniera quasi istantanea, migliaia di risultati ad ogni singola ricerca.

Questa tecnologia, prende il nome di web crawler spider ed è conosciuta anche come spider o crawler.

Un crawler, è un bot che periodicamente effettua una visita completa del World Wide Web al fine di creare una mappa per i motori di ricerca.

La mappa viene creata generalmente analizzando e copiando il contenuto dei siti web salvandoli in un database.

In un secondo momento, il motore di ricerca catalogherà le parole chiave, gli argomenti trattati e i contenuti per restituirne i risultati in modo veloce e preciso.

Come funziona un Web Crawler?

Il primo passo che viene effettuato da uno spider è quello di partire da una lista generale di URL conosciuti, chiamata seed.

Tutte le operazioni effettuate, saranno ricorsive per ogni URL presente nella lista.

Infatti per ognuno di esso, verranno estratti tutti i collegamenti ipertestuali e tutti gli altri URL a cui fanno riferimento che verranno inseriti a loro volta in un altra lista, o coda, chiamata crawl frontier.

A questo punto il crawler procederà nella stessa maniera visitando nuovamente la crawl frontier inserendo i collegamenti ipertestuali e gli altri URL nella lista dei seed.

Ovviamente tutti questi processi vengono effettuati in maniera distribuita e non fanno riferimento ad un singolo server.

Basti pensare infatti a quanto grande sia il web e quanto tempo viene impiegato per ogni operazione di questo tipo per capirne il principale motivo.

Le policy di funzionamento di un Web Crawler

Al fronte del funzionamento degli spider, ci sono varie policy che regolarizzano le operazioni eseguite.

In particolare ne esistono quattro tra cui:

Selection policy (Selezione) – Date le dimensioni di tutto il web, è praticamente impossibile riuscire ad indicizzare tutti i siti presenti, anche se la maggior parte di essi non sono indicizzabili. La policy di selezione garantisce quindi una priorità per ogni pagina web. Ciò significa che si andrà ad effettuare una scansione solo per siti di maggiore importanza e che quindi siano anche maggiormente aggiornati, maggiormente visitati e con contenuti qualitativamente più elevati.
Re-visit policy (Gestione delle visite) – Un crawler impiega generalmente settimane o mesi per effettuare una mappatura completa della porzione del web che gli è stata assegnata. Essendo la rete dinamica, le pagine che lo compongono possono cambiare in contenuti e quant’altro. Per questo motivo viene stabilita una policy di gestione delle visite per assicurarsi che i contenuti salvati nel database vengano aggiornati periodicamente.
Politeness policy (Cortesia) – Le performance di un sito web possono subire un forte impatto nel corso della scansione di un crawler. Attraverso la policy di cortesia, vengono stabiliti intervalli, limiti per le risorse utilizzate e cosi via, per garantire un corretto funzionamento. Una soluzione parziale a questo problema adottato dai webmaster, è quella di creare un file “robots.txt” al fine di aiutare lo spider nella scansione.
Parallelization policy (Parallelizzazione) – Per evitare problemi di URL ridondanti nella lista dei seed o nella lista dei crawl frontier, viene adottato un sistema di parallelizzazione (multi thread) dei bot, che effettueranno più scansioni contemporaneamente in una sola volta, anzichè scansioni complete eseguite più volte.