Comment Google arrive-t-il a afficher les résultats aussi rapidement alors qu'ils indexent plus de 10 milliards de pages et qu'ils ont plusieurs dizaines de terabytes de données? Comment est-ce techniquement possible?
Google dispose d'un parc immense de machines, séparées par grappes. Chaque petite grappe de machines contient l'intégralité des données. Les machines utilisent une distribution RedHat fortement modifiée et sont toutes montées le moins cher possible. Chaque machine ne dépasse pas plus de 1000$. L'avantage, vu le prix, est donc de pouvoir faire de nombreuses grappes redondantes sans problème, le désavantage par contre, c'est qu'elles tombent assez vite en panne. En pratique, plusieurs machines tombent en panne chaque jour!
Lorsque une demande de recherche arrive, elle est dirigée vers une grappe de machines qui peuvent à elles seules répondre à la demande. Si la grappe n'est plus accessible, la requête est alors dirigée vers un autre groupe de machine. En parallèle, Google stocke des copies des pages qu'ils indexent sur plusieurs machines de façon redondante. La plus grosse limitation qu'ils connaissent actuellement, dixit l'ingénieur Google, ce sont les webmasters qui se plaignent de se faire bombarder par Google.
Bref, ceci n'était qu'un avant goût de l'article complet proposé par Internet News, pour les curieux, la visite continue dans les liens!
Google dispose d'un parc immense de machines, séparées par grappes. Chaque petite grappe de machines contient l'intégralité des données. Les machines utilisent une distribution RedHat fortement modifiée et sont toutes montées le moins cher possible. Chaque machine ne dépasse pas plus de 1000$. L'avantage, vu le prix, est donc de pouvoir faire de nombreuses grappes redondantes sans problème, le désavantage par contre, c'est qu'elles tombent assez vite en panne. En pratique, plusieurs machines tombent en panne chaque jour!
Lorsque une demande de recherche arrive, elle est dirigée vers une grappe de machines qui peuvent à elles seules répondre à la demande. Si la grappe n'est plus accessible, la requête est alors dirigée vers un autre groupe de machine. En parallèle, Google stocke des copies des pages qu'ils indexent sur plusieurs machines de façon redondante. La plus grosse limitation qu'ils connaissent actuellement, dixit l'ingénieur Google, ce sont les webmasters qui se plaignent de se faire bombarder par Google.
Bref, ceci n'était qu'un avant goût de l'article complet proposé par Internet News, pour les curieux, la visite continue dans les liens!
Liens
Inside Google (228 Clics)
Envoyer une nouvelle à un ami