4. Faire des recherches - Période moderne


Plusieurs sites spécialisés limitent l'affichage des données trop récentes afin d'utiliser le même code d'éthique pour tout le monde.  Il s'en suit qu'il faut utiliser d'autres outils.

4.1. Portée

On peut faire des recherches sur des données de moins de 75 ou 100 ans pour différentes raisons:

4.2. Recherche par Google

Google est sans doute l'outil général de recherches le plus populaire en 2006.  La version courante permet de rechercher parmi des milliards de pages web, des images (dont des photos), les messages des forums de discussion et même l'actualité récente.

Adresses : http://www.google.fr/ ou http://www.google.ca/ ou http://www.google.com/ etc.  Google a beaucoup de variétés locales.  Nous y reviendrons plus loin.

4.2.1. Recherche simple


Google

Web    Images    Groupes    Annuaire    Actualités    
 
  Recherche avancée
  Préférences
  Outils linguistiques
Rechercher dans :

Vous saisissez simplement le ou les mots recherchés dans la case de recherches.  SAISIR: faire la saisie de données ou inscrire une donnée.

En théorie, les pages les plus pertinentes sont placées au début.  En pratique, beaucoup de gens organisent leurs sites pour être mieux placés pour tel ou tel mot-clé, même si leur contenu n'est pas le plus pertinent, le but étant d'attirer un maximum de visiteurs et de faire tourner le plus de bannières (même si les bannières ne rapportent presque plus rien).

La recherche se fait sur le mot exact et entier.  Si je recherche BEAUREGAR*, je vais trouver BEAUREGAR seulement, mais Google va me proposer d'essayer BEAUREGARD.

Le bouton "J'ai de la chance" prendra le premier résultat de la recherche et affichera directement la page trouvée.  Il n'apparaît que depuis la page d'accueil de Google.

Google offre 5 types de recherche en ce moment:
Selon le site utilisé, vous pouvez faire des recherches dans une langue précise (sauf l'anglais) ou dans le pays visé.  Dans google.ca et google.fr, on peut donc limiter la recherche aux pages francophones.  Dans google.ca, on peut préciser des pages sur des serveurs canadiens et dans google.fr, des pages sur des serveurs français.  Il faut préciser que le pays est celui de la machine physique (donc, si on utilise un serveur situé en Allemagne avec une adresse légale en France et un nom de domaine en .qc.ca, la page serait trouvée en Allemagne, les autres paramètres étant ignorés).

Notez la présence de la recherche avancée, des préférences (comme le nombre de résultats par page), et des outils linguistiques (comme un traducteur).

4.2.2. Variation des résultats

La recherche est un processus complexe utilisant un grand nombre d'ordinateurs.  Les résultats d'une même recherche peuvent varier durant la mise à jour de ces ordinateurs.  En effet, votre recherche peut se faire sur l'ordinateur A qui vient d'être mis à jour, mais dans 5 secondes, elle se ferait sur l'ordinateur B qui n'est pas encore mis à jour.  Une recherche donnant 100 résultats pourrait n'en montrer que 95 quelques minutes plus tôt ou plus tard.

Ce n'est pas tout.  Des milliards de pages sont changées et évaluées (les pages ont un poids dans le cadre d'une recherche et ce poids peut changer selon le nombre de liens qui pointent vers cette page) de façon à peu près continue.  L'ordre des résultats peut donc changer si vous essayez à partir de zéro 5 minutes ou un mois plus tard.

Le nombre réel de résultats n'est pas affiché.  Disons que je recherche le nom de mon site en ce 1er octobre 2004.  Avant de faire cet exemple, il faut aller dans "Recherche avancée" et choisir 100 résultats par page.  Dans les exemples plus bas, j'utiliserai seulement la réponse brute et au moment où la recherche a été effectuée.

Date
Réponse brute Pages avec résultats Cliquer sur la dernière page Cliquer en bas, sur les pages ignorées
2004-10-01
Environ 3 770 9 (donc, pas plus de 900 possibles) Résultats 501 - 591 (le nombre a fondu !) On pourra voir un maximum de 1000 résultats

4.2.3. Recherche d'une personne

Si j'inscris seulement un prénom et un nom de famille, les pages trouvées contiendront quelque part ce prénom et ce nom de famille (et pas toujours).  Mais si j'ajoute des guillemets, ce sera le nom exact de la personne, à moins que les mots se suivent dans une page.  Par exemple (2004):

Nom
Prénom Nom
"Prénom Nom" "Nom Prénom"
Observations
Archange Godbout (en 2004) 849 642 123
Archange étant un prénom rare, il est probable que les personnes trouvées soient bien le célèbre généalogiste fondateur de la SGCF.
Archange Godbout (en 2006) 845 1430
198

Cyprien Tanguay
2 010
703
663
Quand un auteur est cité dans une bibliographie, son nom est souvent inversé.
Denis Beauregard (en 2004)
43 000 3 130 488 Ici, l'effet des guillemets est plus évident.  La participation aux forums de discussion et la présence de pages web augmentent le nombre de résultats.  
Denis Beauregard (en 2006) 243 000 15 600 271
René Jetté
42 400
845
608
Ici, l'effet des guillemets est plus évident.
Stephen A White
7 520 000
889
460

Céline Dion 1 100 000 1 070 000 71 400
Une célébrité a beaucoup de pages à son nom.
Abraham Martin
1 040 000
13 000
5 170
Certains ancêtres sont des vedettes !
Jean Guyon
71 500
987
2 360

Louis Hébert
115 000
14 200
1 630

Zacharie Cloutier (en 2004)
2 530 601 1 140 On voit ici l'importance de faire un essai en inversant les mots en généalogie.
Zacharie Cloutier (en 2006)
18 000
3 160
836

 
Comme on voit, sauf pour les vedettes, le nom d'une seule personne n'est pas toujours suffisant pour identifier un ancêtre.  Il est préférable d'ajouter le nom du conjoint.  Reprenons notre recherche en ajoutant les noms des conjoints.

Nom
Prénom Nom
"Prénom Nom" "Nom Prénom"
Couple
"Pr Nom"

Couple
"Nom Pr"

généalogie
Observations
"Abraham Martin"
"Marguerite Langlois"
1 040 000
13 000
5 170
1 470
286
87

"Jean Guyon"
"Mathurine Robin"
71 500
987 (sic)
2 360
1 860
356
87
Bizarrement, Jean Guyon seul apparaît moins souvent que si on ajoute le nom de son épouse.
"Louis Hébert"
"Marie Rollet"
115 000
14 200
1 630
794
159
69
792 au lieu de 794 avec Hebert au lieu de Hébert.
"Louis Hébert"
"Marie Rolet"



418
31
6
Légère variation
"Zacharie Cloutier"
"Sainte Dupont"
2 530 601 1 140 1 130
120
39
On voit ici l'importance de faire un essai en inversant les mots en généalogie.

On peut améliorer un peu la précision de la recherche en ajoutant "généalogie", ce qui permet de préciser que l'on se limite aux sites de généalogie ou aux pages avec le mot généalogie (avant-dernière colonne, avec prénom et nom des deux conjoints).

Le moteur Google tient aussi compte de la popularité d'un site, donc des liens entrants (ou pointant vers le site), ainsi que du texte de ces liens.  En d'autres mots, la page trouvée peut ne pas contenir le texte recherché.  Un exemple est le fameux "mouton insignifiant".

4.2.4. Autres astuces

La recherche peut se limiter à un site si on précise: site:  Par exemple, chicoutimi site:sgcf.com permet de recherche le mot Chicoutimi sur le site de la SGCF.  À l'inverse, on peut rechercher les sites qui pointent vers un autre site, avec link:  Ainsi, link:www.sgcf.com permet de trouver les sites avec un lien pointant vers le site de la SGCF.  En choisissant 2 ou 3 sites spécialisés, vous devriez pouvoir trouver des listes de liens.

Les accents ont une faible influence sur le résultat.  Ainsi, selon que l'on utilise ou pas les accents, le nombre de pages trouvées peut varier, ainsi que leur ordre de présentation, mais la différence sera faible, parfois nulle.

Les majuscules ou minuscules n'ont pas d'important pour la recherche.

Google conserve les pages durant un certain temps.  Si le site a disparu récemment, il est possible de consulter la page en cache.

Le serveur www.archive.org contient aussi des copies partielles d'anciens sites. Voici ce qu'on trouve pour quelques sites:

Année
Site 1998 1999 2000 2001 2002 2003
Nombre de pages sgcf.com 4 11 18 15 17 3


genealogie.com

0

8

18

23

18

4


francogene.com

0

0

9

18

16

4

Notes: genealogie.com est mon ancien site et francogene.com le nouveau.  En réalité, il y a beaucoup plus de pages et il faut aussi rechercher parmi les répertoires du site archivé.

4.3. Autres moteurs généraux

Il y a un grand nombre de moteurs de recherche.  Leur popularité respective est difficile à évaluer parce qu'ils offrent souvent d'autres services.. 

WebCrawler a été, je pense, un des premiers moteurs populaires.  Il retourne une recherche combinée dans plusieurs autres moteurs.

Altavista a été longtemps très populaire.  Il avait été développé par un Français chez DEC et comprend Babelfish, un traducteur qui offre sans doute le plus grand nombre de langues traduisibles depuis ou vers le français (7 langues).  La version 2004 permet de préciser les recherches avec des guillemets.  On peut aussi rechercher des fichiers audio et vidéo.

Lycos fut un autre site très populaire, associé pendant un certain temps à Sympatico.ca.

Yahoo et MSN seraient les principaux aspirants pour prendre la place de Google.

La liste pourrait continuer ainsi longtemps, vu le grand nombre de sites.

http://www.searchengineworld.com/engine/partners.htm indique la liste des principaux moteurs en 2000 et leurs relations.  Beaucoup de sites utilisent des données d'autres sites, soit en échangeant les bases de données, soit en cumulant les recherches dans d'autres moteurs de recherche.

4.4. Sites spécialisés

Si vous recherchez les parents d'une personnalité, Google devrait vous aider.  Mais, il y a aussi un certain nombre de sites couvrant un sujet précis.  Quelques exemples:

4.4.1. Sites de biographies

La liste ne peut pas être complète.  Vous devriez pouvoir en trouver d'autres assez facilement.

4.4.2. Bottins téléphoniques

4.4.3. Annuaires

Un annuaire est une liste de sites classés par thème.

4.4.4. Outils d'étude de sites web

Plusieurs sites sont interreliés.  D'un côté, il existe une certaine convergence.  Par exemple, Ancestry.com a acheté Rootsweb.com qui avait Genealogy.org, puis a acheté Genealogy.com.  Donc, les gros sites américains ont un propriétaire unique.  Un phénomène similaire pourrait arriver en France, les regroupements se faisant en ce moment sous 3 joueurs: Geneanet, NotreFamille.com (qui a les domaines Genealogie.com et Genealogie.fr, a acheté le site Prenoms.com et possède Gedlink.com) et Alsyd (qui a réuni plusieurs entreprises sous Geneaguide.com).

Pour savoir où un site est hébergé, il suffit de faire la commande TRACERT domaine dans la fenêtre DOS ou Ligne de commande de Windows, ou traceroute dans un Xterm de Linux.  Cela affichera les serveurs intermédiaires entre votre ordinateur (le client) et le domaine en question.  On peut aussi regarder le Whois, qui est une base de données reliée aux registraires des noms de domaines.  Les registraires vendent les noms de domaine et les enregistrent dans une base de données centrale (chaque TLD ou 1er niveau des domaines a un registre central).  Certains whois couvrent un grand nombre de sortes de domaine.  En général, l'hébergeur fournit le premier DNS, ce qui permet de l'identifier.  Par exemple:

Adresse du serveur
Registraire
Domaines concernés
www.iana.org/gtld/gtld.htm
IANA Liste des registraires principaux
http://www.internic.net/whois.html
Internic
Registraires non régionaux
www.gandi.net/whois?l=fr
Gandi
.COM, .NET, .ORG, .INFO, .BIZ, .BE, ou .NAME
www.cira.ca/fr/home.html
ACEI
.CA
www.allwhois.com/
Allwhois environ 60 séries
www.uwhois.com/cgi/domains.cgi?User=NoAds
UWhois
Tous les registraires régionaux ?
whois.iana.org/
IANA
.INT

Les adresses IP permettent aussi de connaître le fournisseur d'un site.  Si vous recevez un message et que vous voulez savoir d'où il vient réellement, vous verrez au début de l'en-tête (commande H dans plusieurs logiciels) un champ comme le suivant:

From: "Technical Assistance" <zwsozgvpzagjjzb-nvsawbj@news.msn.com>
Received: from smtp812.mail.ukl.yahoo.com (smtp812.mail.ukl.yahoo.com [217.12.12.202])
by mon.hebergeur.com (8.11.6+Sun/8.11.6) with SMTP id i91Mskn26759
for <denis.b@francogene.com>; Fri, 1 Oct 2004 15:54:46 -0700 (PDT)

Le message, envoyé par un virus, vient du serveur situé à 217.12.12.202 même s'il prétend venir de Microsoft (msn.com).  Le whois de Ripe nous apprend que l'adresse appartient à Yahoo Europe.

Les IP sont attribués par région.  Les bases suivants servent à les identifier.  Seul ARIN vous dira quel autre base il faut examiner si l'information n'est pas locale.

Base
Nom du service
Région
www.arin.net/ ou www.arin.net/whois/index.html
ARIN
Amérique du Nord
lacnic.net/cgi-bin/lacnic/whois
LACNIC
Amérique latine
www.ripe.net/perl/whois
RIPE
Europe et Afrique
www.apnic.net/apnic-bin/whois.pl
APNIC
Asie et Pacifique