Detection de moteur de recherche ...

Discussion dans 'Web, design' créé par guslinux, 4 Juillet 2004.

Statut de la discussion:
Fermée.
  1. Offline
    guslinux Gamerz'ien
    Salut à tous,

    J'aimerais faire un script pour pouvoir détecter la lecture du site par un bot, google est evidement primordial (70% du "marché")...

    avis aux idées ...

    Il faut utiliser $HTTP_USER_AGENT ... mais je ne connais pas l'id des bot :oops:
    guslinux, 4 Juillet 2004
    #1
  2. Offline
    guslinux Gamerz'ien
    Code:
    function get_navig($agent)
    {
    	printdebug($agent);
    	// on teste IE > si aol > si 5.0, 5.5, 6.0 > si autre
    	if(ereg('IE', $agent) && !ereg('Opera', $agent))
    	{
    		// IE via AOL
    		if(ereg('AOL', $agent))
    		{
    			return 'IE;AOL';
    		}
    		elseif(ereg('5.5', $agent, $nv) | ereg('5.0', $agent, $nv) | ereg('6.0', $agent, $nv))
    		{
    			// on retourne IE avec son numéro de version
    			return "IE;$nv[0]";
    		}
    		else
    		{
    			// ou si différent on retourne IE;xx
    			return 'IE;x';
    		}
    	}
    	// on teste Opera
    	elseif(ereg('Opera', $agent))
    	{
    		return 'OP;';	
    	}
    	// on teste Konqueror (browser sur linux)
    	elseif(ereg('Konqueror', $agent))
    	{
    		return 'KO;';	
    	}
    	// on teste OmniWeb (browser peu utilisé...)
    	elseif(ereg('OmniWeb', $agent))
    	{
    		return 'OM;';	
    	}
    	// on teste Netscape 6.x
    	elseif(ereg('Netscape6', $agent))
    	{
    		return 'NS;6.x';	
    	}	
    	// et Netscape 7.x
    	elseif(ereg('Netscape/7', $agent))
    	{
    		return 'NS;7.x';	
    	}
    	// et  Netscape 4.x
    	elseif(ereg('lla/4.', $agent))
    	{
    		return 'NS;4.x';	
    	}
    	// et Mozilla si Netscape 7.x n'a pas été reconnu
    	elseif(ereg('rv:', $agent) && ereg('lla/5', $agent))
    	{
    		return 'MO;';	
    	}
    	// pour tous les autres, non listés, car très peu utilisés
    	else
    	{
    		return 'DI;';
    	}
    }
    Detection du navigateur.
    guslinux, 4 Juillet 2004
    #2
  3. Offline
    si tu veux, je peux chercher en détail, mais je pense que surveiller l'accès qu fichier robot.txt peut être une bonne chose (genre, plutôt que de faire le script en PHP, si tu peux, tu analyses les log apaches pour voir si un accès à robot.txt est fait.)

    maintenant, je peux aussi chercher sur les sites google et autre pour trouver l'identification des bots. Tu peux aussi, avec le script que tu as montré dans le post avant, enregistré tout les browsers qui passe sur ton site et en faisant des statistiques et des recherches sur le net (ou par corélation des heures des accès à ta page index et au fichier robot.txt par exemple)

    enfin voilà des pistes... si tu veux, je peux chercher et essayer de te pondre un code pour ça.... tu veux ?
    TheFornicator, 4 Juillet 2004
    #3
  4. Offline
    guslinux Gamerz'ien
    bein, j'ai tout ce qu'il faut (plus haut) pour détecter le "soft" visitant le site, mantenant il fait identifier le bot google, ou autre ... il faut toruver l'identifiant ...

    pour google je penses que c'est "googlebot".

    Mais l'application que je propose est autrement plus intéressante que juste faire des stats, car ca j'ai deja

    Explications : quand on identifie google comme "lecteur" on ajoute en haut ou en bas de page une liste de liens téléchargée sur un serveur central, et ce pour tous les sites que je crée ou que j'administre. Cela permet de créer des liens croisés et de fait monter ainsi la cote de popularité du site sur le moteur de recherche, et ainsi le faire remonter dans la liste !!!
    guslinux, 4 Juillet 2004
    #4
  5. Offline
    guslinux Gamerz'ien
  6. Offline
    PiaFlalCoOl NiuAge
    Les bots de Google visitent tous les sites de la toile, mais par quel moyen ? Ils vont de sites en sites avec les liens ?

    On peut donc se retrouver classé dans google sans avoir rien demandé, c'est ça ? Google note ta popularité ?
    PiaFlalCoOl, 4 Juillet 2004
    #6
  7. Offline
    en gros, t'as tout compris....
    TheFornicator, 4 Juillet 2004
    #7
  8. Offline
    guslinux Gamerz'ien
    Bein j'ai remarqué, que c'est mieux de soumettre le site à google, et de faire en plus les manip de liens croisés etc ...
    guslinux, 4 Juillet 2004
    #8
Statut de la discussion:
Fermée.