Derniers journaux de wawet76 :
- [10/03@23:34] xfce4 / Debian
- [02/03@14:41] Installeur Debian Sarge
- [25/11@15:10] ATI Radeon 9200
- [05/09@18:10] Les journaux sont HS ?
- [30/08@17:04] statut d'un travail s'appuyant sur un document non libre
- [05/05@12:44] Choix de MiniPC sous Linux
- [05/05@12:44] Choix de MiniPC sous Linux
- [02/04@18:23] Cable Parisien
- [06/12@10:34] Le Simputer existe, je l'ai rencontré.
- [06/12@09:56] Le Simputer existe, je l'ai rencontré.
- [12/11@10:19] AAaaaaaaaaaaaaaAAARRRRrrrrrrgg
- [05/11@23:25] AWK help needed
- [05/11@02:44] GPSDrive
- [04/11@21:31] Linux et GPS
- [14/10@13:40] Premier journal
http://www.liafa.jussieu.fr/~latapy/index.php?item=webgraph〈=(...)
Je me souviens aussi de pages créant à l'infini des adresses mail faussent pour occuper les crawleurs des spammeurs...
Comment font les moteurs de recherche pour ne pas suivre tout ce contenu sans intérêt ?
Si ils se restreignent à une certaine "profondeur" de lien pour chaque domaine, il y aura forcement de la perte. Il faut par exemple pas mal de clics pour atteindre certains journaux anciens.
En passant, ça serait intéressant d'étudier la profondeur d'un site comme linuxfr. Quel % du contenu est-il accessible en 1 clic ? 2 clic ? etc. Quelle est la page la plus "profonde" ?
> Lire le journal (9 commentaires, moyenne: 3).
reflexion
Il est impossible de faire un journal qui pointe vers la page la plus profonde du site, à moins que le journal en question ne devienne la deuxième page la plus profonde derrière celle pointée. (ou bien qu'il pointe vers lui-même et soit la page du fond)
-
[^]Re: reflexion
-
[^]Re: reflexion
Posté par Xavier Teyssier (Jabber id, page perso, ) le 22/05/2004 à 22:16. (lien). Évalué à 2.A moins de faire un journal extérieur au site qui pointe vers la page la plus profonde du site. Comme ça, pas d'interaction avec les degrés de profondeur des pages du site...
Comment ça, dans ce cas, c'est plus un journal ?
robot.txt
on met un fichier robots.txt dans la racine du site qui dit aux crawlers de ne pas explorer le contenu de ces pages en vu d'indexation par un moteur de recherche, par exemple :
http://www.monkeys.com/robots.txt(...)
Ce fichier protège le piège :
http://www.monkeys.com/spammers-are-leeches(...)
Pour plus de détails sur robots.txt :
http://www.robotstxt.org/wc/exclusion.html(...)
-
[^]Re: robot.txt
Posté par Wawet76 (page perso, ) le 22/05/2004 à 21:11. (lien). Évalué à 2.Ok pour les pièges à spammeurs bien fait, mais il y a tout plein de sites qui ont du contenu infini et qui ne mettent pas de robots.txt
Les crawleurs des moteurs de recherche doivent forcement en tenir compte. Je me demandais juste si ils s'arrêtaient au bout d'un moment en se basant simplement sur la profondeur ou si d'autres trucs étaient pris en compte.-
[^]Il crawlent en rond ces moteurs !
Posté par Beurt (page perso, ) le 23/05/2004 à 00:07. (lien). Évalué à 3.En tout cas, ils crawlent beaucoup... Ceux qui passent sur mon site bouffent une bande passante folle. Pourtant mon site est moins vaste que les nombre de Mo qu'ils crawlent (pour les 22 premiers jours de Mai j'en suis à 178Mo de bande passante, rien que pour Google. Alors que ma base-de-données fait environ 980ko !).
D'où l'idée qu'ils doivent repasser plusieurs fois sur les mêmes données, présentées différemment par le moteur PHP (daCode roulaize avec Charles).
Peut-être d'ailleurs qu'ils utilisent un indice de similarité entre les pages crawlées en profondeur et les pages proches de la surface. Quand la similarité devient trop grande (ou trop fréquente), c'est que le moteur de crawl brasse les mêmes données, il arête.
C'est peut-être plus fiable que simplement choisir de s'arrêter en fonction de la profondeur à laquelle il est.-
[^]Re: Il crawlent en rond ces moteurs !
Posté par plagiats () le 23/05/2004 à 08:28. (lien). Évalué à 1.au passage tu as un probleme avec le lien vers Ouvaton en footer de ta page...
--
La mort est un phénomène naturel qui se produit par l'avalement répété de petites quantités de salive au cours d'une grande période de temps. - George Carlin-
[^]Re: Il crawlent en rond ces moteurs !
Posté par Beurt (page perso, ) le 23/05/2004 à 10:55. (lien). Évalué à 1.ah oui, tiens ! Ça doit faire des lustres en plus !
Merci !
-
-
-
[^]Re: robot.txt
Posté par Gniarf () le 23/05/2004 à 01:05. (lien). Évalué à 4.j'ai vu GoogleBot indexer un wiki entier et garder sans sourciller plus de 300 pages (visible avec site:62.212.109.174 vaboofer , c'était une archive d'un wiki ailleurs).
pour site:www.cnn.com on obtient 285 000 liens.
les moteurs de recherche bien écrits ont des garde-fous pour éviter de surcharger un site en nombre de requêtes dans le temps (bande passante), suivant différents critères, et en nombre de pages mémorisées aussi.
le souci concerne les moteurs amateurs et ceux ... euh... en cours de rodage ou de mise au point sur le terrain - comme le fameux PompOs de dir.com (Illiad/Proxad) à l'époque. ils cassent tout et là, il faut effectivement jouer du robots.txt ... en plus, quand on se plaint et qu'ils répondent, c'est pour dire qu'ils sont "en rodage"...
ah, autre point, il a de la mémoire, ce con. j'ai viré ce wiki depuis des lustres, plusieurs mois en fait.--
Windows has no users. It has hostages.
-
Les journaux sont destinés à des informations qui ne sont pas suffisamment intéressantes
pour être validées en dépêche (sinon n'hésitez pas à proposer votre information en
dépêche), qui sont sans rapport avec Linux ou le libre, ou simplement pour donner votre
avis. Si vous désirez poser une question, merci d'utiliser 

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.