ruben zamblé-bi
DESCRIPTION
Google - La recherche de données. 09 mars 2006. Sébastien Forner. Sébastien Forner. Sébastien Péron. Sébastien Péron. Ruben Zamblé-bi. Ruben Zamblé-bi. Master A.S.S. Table des matières. Présentation Générale. Fonctionnement du moteur Google. Structure déployée. - PowerPoint PPT PresentationTRANSCRIPT
Exposé Google
Ruben Zamblé-bi
Sébastien Péron
Sébastien Forner
Google - La recherche de données
Sébastien Péron
Ruben Zamblé-bi
Sébastien Forner
09 mars 2006
Master A.S.S
Exposé Google
Table des matières
• Présentation Générale
• Fonctionnement du moteur Google
• Structure déployée
• Services offerts
• Une approche de Datamining
• Trustrank
• Conclusion
Exposé Google
Présentation générale
• Aboutissement d’un projet universitaire
- Fondée par Lawrence E. Page et Sergey Brin (1998)
- Approche scientifique de la recherche
- Référence mondiale du moteur de recherche
Sources: barometre.secrets2moteurs.com
Exposé Google
Présentation générale
• Aboutissement d’un projet universitaire
- Fondée par Lawrence E. Page et Sergey Brin (1998)
- Approche scientifique de la recherche
• Géant de l’informatique
- Buisness model innovant
- Référence mondiale du moteur de recherche
- Introduite en bourse en Mai 2004
Résultats (en M$) 2002 2003 2004 2005
chiffre d'affaires 440 1466 3189 6139
bénéfices 100 106 399 1465
Sources: wikipedia.org
Exposé Google
Fonctionnement du moteur Google (1 / 3)
• Sobriété et valorisation des mots
- Page simpliste
- Valorisation des mots Mise en place d’un système de vente d’espace publicitaire associé au mot recherché
Profilage des utilisateurs déjà mis en évidence
Accueil spécialement dédié à la recherche
Service accessible en bas débit
Exposé Google
Fonctionnement du moteur Google (2 / 3)
• Le système de classement « PageRank »
- Principe de fonctionnement Critère d’évaluation de la qualité d’une page
Échelle de notation variant de 0 à 10
- Dérive liée au PageRank Apparition du « bombardement Google » (Google Bombing)
• La « Google Dance »
- Mise à jour du PageRank
- Généralement 1 fois par mois
Exposé Google
Fonctionnement du moteur Google (3 / 3)
• Le processus d’indexation
- Les « GoogleBot » FreshCrawler
DeepCrawler
- Les « GoogleBot MediaPartner »
• Gestion des liens publicitaires
- Les « GoogleAdWords »
- Les « GoogleAdSense »
Exposé Google
La Structure déployée (1 / 3)
• Le Googleplex
- Une boite à outils logiciels
- Deux approches de sa structure
Exposé Google
La Structure déployée (1 / 3)
• Le Googleplex
a : Noyau linux
b : Une architecture distribuée permettant la connexion rapide de sources variées
c : une architecture technique identique à chaque niveau
d : Le réseau Internet
- Technologies importantes
Exposé Google
La Structure déployée (1 / 3)
• Le Googleplex
a : L’ingénierie logicielle
b : L’ingénierie matérielle
- Google se base sur la fusion de deux activités
Exposé Google
La Structure déployée (1 / 3)
• Le Googleplex
- Google se base sur la fusion de deux activités
Exposé Google
La Structure déployée (2 / 3)
• Les Serveurs et centres de données
- On distingue 6 principaux types de serveur
« Google Web » serveurs
« Data-Gathering » serveurs
« Index » serveurs
« Document » serveurs
« Ad» serveurs
« Spelling » serveurs
Exposé Google
La Structure déployée (2 / 3)
• Les Serveurs et centres de données
- Stockage des serveurs dans les « Data centers »
Sources: www.webrankinfo.com
Exposé Google
La Structure déployée (2 / 3)
• Les Serveurs et centres de données
- Les serveurs et centres de données dans le Googleplex
Exposé Google
La Structure déployée (3 / 3)
• Architecture d’indexation
- Description des principales étapes permettant l’indexation
Exposé Google
Les services offerts
• Mis œuvre par le « Google Labs »
- Google Web Accès principal au service de recherche
- Google Desktop Search
• Orientés indexation / référencement de données
- Google Mini & Search Appliance
- Google Images
- Google Search Book
- Google Video Store
- Google Earth
…….
Exposé Google
Google vous surveille (1 / 4)
• Google et les entreprises
- Google est synonyme de puissance
- Une grande promesse : ne plus perdre de documents stratégiques
- 2 outils : Google Mini et Appliance:
À partir de 2995 euros
Google Appliance peut accéder aux Bds et serveurs de fichiers
Indexe jusqu'à 15 millions de documents
Gère 150 requêtes à la minute
Exposé Google
• Google chez les particuliers
- La Google Toolbar au service de Google Desktop
Blocage des fenêtres indésirables
Correcteur d'orthographe
Recherches améliorées avec suggestions en temps réel
- L'espion qui m'aimait
Que se passe t'il lors d'une navigation à travers le web?
Google vous surveille (1 / 4)
Exposé Google
- Indication du PageRank de la page visitée Adresse IP du poste de départ
Adresse de la page visitée
L'utilisation des résultats proposés par Google
- Une arme fatale car elle est infalsifiable
- Création d'une BD à partir des différentes requêtes Les sites préférés d'un utilisateur
- Exemples d'applications possibles : Estimation de la qualité d'un site
Vérifier la qualité des résultats de Google
Identifier les spammeurs
Google vous surveille (1 / 4)
Exposé Google
• Vers une publicité intelligente
- Création d'un portrait plus vrai que nature de l'utilisateur
- Extension au géomarketing par l'intermédiaire de Google Earth
Vendre des liens publicitaires ciblés aux annonceurs
Une justification pour la hausse des tarifs
Augmenter le taux de transformation
- Que dit la législation?
- Buts recherchés :
Toute personne peut s'opposer à l'utilisation de ses données personnelles
Exportation de données vers les Etats-Unis : le Safe Harbor
Google vous surveille (1 / 4)
Exposé Google
TrustRank (1 / 5)
• La guerre contre le spamdexing
- Marque déposé par Google en mars 2005
- Introduit une année plus tôt par un article publié à Standford
Propagation du principe bonne page / mauvaise page à travers le web
Sélectionner un échantillon de page
Détection du spamdexing parmi l'échantillon (appel de l'Oracle)
- Principes :
Exposé Google
TrustRank (2 / 5)
• Vision du web
- le web est modélisé comme un graphe G = (V , E)
Pas de liens entrant = “page sans référence”
Pas de liens sortant = “page ne référençant pas”
- Chaque page possède des liens entrant et des liens sortants
Pas de liens = “page isolée”
Exposé Google
TrustRank (3 / 5)
• Sélection de l'échantillon
- Aléatoirement
- PageRank inversé
Sélectionner les pages ayant de nombreux liens sortants
Optimiser le nombre de liens sortants par pages
- PageRank élevé
Sélectionner des pages de fort PageRank
Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance
Exposé Google
TrustRank (4 / 5)
• Appel de l'Oracle
- Séparation en deux sous-ensembles de l'échantillon :
- Attention la réciproque est fausse
1 pour les bonnes pages
0 pour les mauvaises pages
0,5 pour les pages n'appartenant pas à l'échantillon
- Une bonne page pointe rarement vers une mauvaise
• « Isolation approximative » des bonnes pages
- C'est le principe de la confiance ignorante
Exposé Google
TrustRank (5 / 5)
- Confiance à M étapes
C'est un mélange de la confiance ignorante et de l'isolation approximative
Confiance atténuée
Exemple avec N = 3 : { 1, 3, 6 }
• Amortissement de la confiance
Confiance fractionnée
• Propagation de la confiance
Exposé Google
Conclusion
• Google s’est imposé comme une référence
• Google instaure un modèle économique révolutionnaire
• Google a su utiliser au mieux le Data Mining
• La numérisation de la culture, le nouveau défi à relever
• Une logique professionnel ambitieuse :
- Anticiper nos besoins pour mieux y répondre…