O google anunciou a conclusão de um novo sistema de indexação de web chamado Caffeine. O Caffeine apresenta resultados de 50% mais atualizado para pesquisas na web que o sistema de indexação anterior, e é a maior coleção de conteúdo web que o Google já ofereceu. Quer se trate de uma notícia, um blog ou um post do fórum, agora você pode encontrar links para conteúdos relevantes muito rápido do que o sistema anterior.
Uma explicação para aqueles que não são familiarizados com motores de busca: quando você pesquisa no Google, você não está pesquisando a web ao vivo. Em vez disso você está pesquisando um índice do Google para a web que, como o índice na parte de trás de um livro, ajuda a localizar exatamente a informação que você precisa.
Então, por que construir um novo sistema de indexação de busca? O conteúdo na web está florescendo. Não é só crescer em tamanho e números, mas com o advento do vídeo, imagens, notícias e atualizações em tempo real, a página web média é mais rica e complexa. Além disso, as expectativas das pessoas para a pesquisa são mais elevadas do que costumavam ser. Os pesquisadores querem encontrar o conteúdo mais recente e relevante e editores esperam ser encontrados no momento em que publicam.
Para acompanhar a evolução da web de satisfazer a crescente confiança do usuário, o google construíu o Caffeine. A imagem abaixo ilustra como o antigo sistema de indexação trabalhava em comparação com Caffeine:
O índice antigo tinha várias camadas, algumas das quais eram atualizadas em um ritmo mais rápido do que outras, a camada principal era atualizada a cada duas semanas. Para atualizar uma camada do índice antigo, era necessário analisar toda a web, o que significava que havia um atraso significativo entre o momento em que encontramos uma página e disponibilizado para quem procurava.
Com o Caffeine, a web é analisada em pequenas porções e a atualização do índice de pesquisa é feita sobre uma base contínua, a nível mundial. À medida que o indexador encontrar novas páginas, ou novas informações sobre as páginas existentes, será acrescentada direto para ao índice. Isso significa que você pode encontrar informações mais atuais do que nunca, não importa quando ou onde ela foi publicada.
O Caffeine permite ao Google indexar páginas web em uma escala enorme. Na verdade, todos os processos do Caffeine acontecem em centenas de milhares de páginas em paralelo. Se esta fosse uma pilha de papel, iria crescer quase 5 km a cada segundo. O Caffeine ocupa quase 100 milhões de gigabytes de armazenamento em um banco de dados e adiciona novas informações a uma taxa de centenas de milhares de gigabytes por dia. Você precisaria de 625 mil dos maiores iPods para armazenar tanta informação.
O Caffeine é o futuro que se tornou presente. Não só é mais atual, é uma base sólida que torna possível construir um ainda mais rápido e completo motor de busca que escala com o crescimento da informação on-line, e fornece ainda mais relevantes resultados de pesquisa.