Internet et généalogie - Pages web

2. Pages web

La plupart des services que l'on utilise sont sur des pages web. 

2.1 Historique

Les pages web existent depuis 1994 environ.  C'est du moins cette année-là que paraissait le premier site web de généalogie.  Le premier site en français (mes pages web) date de 1995.  Au début, les pages étaient de conception assez simple, avec un minimum d'images, une couleur de fond uniforme (le plus souvent celle par défaut: gris pâle), une présentation se limitant à marquer les titres et sous-titres. 

Au début, une page comprenait essentiellement du texte et une mise en page simple: gras, italique, listes numérotées ou à puce. 

Peu à peu, d'autres éléments ont été ajoutés, comme:
Vers 2000, Microsoft, qui avait déjà un quasi-monopole en informatique, a voulu s'emparer du web et a lancé les ActiveX.  Il s'agit d'un artifice permettant certaines animations.  Le concept permet aussi de faire du code malicieux et surtout, il ne roule que dans les navigateurs de Windows et que sur des PC.  Autour de 2000, Microsoft a lancé une opération qui consistait à payer les concepteurs de pages pour qu'ils placent des ActiveX dans leurs pages et l'opération a tellement bien réussi que MSIE est rapidement devenu le navigateur le plus utilisé, puis a occupé autour de 95% du marché.  Mais, les ActiveX peuvent être malicieux et il y a beaucoup de virus qui utilisent les ActiveX pour se propager.  Après avoir inondé Internet de virus, Microsoft a finalement accepté de retirer les ActiveX à partir de MSIE 6 SP2 (la version 6 d'Internet Explorer de septembre 2004).  Beaucoup d'internautes utilisaient MSIE parce que certains sites ne fonctionnent qu'avec ce logiciel, mais avec le retrait des ActiveX, quand les internautes seront informés du laxisme de Microsoft, la compétition pourrait reprendre le dessus.  De toutes façons, MSIE est un mauvais produit avec des milliers de failles de sécurité et s'en servir est toujours risqué.  Quand les PC Internet de la SGCF ont MSIE bien en vue, ils se remplissent de virus en quelques jours, mais quand MSIE est caché (on ne peut pas l'enlever), les virus n'apparaissent plus.

Le navigateur à la hausse en 2004 est FireFox.  Il est basé sur l'engin Gecko, comme Mozilla et Netscape 7, mais est plus petit.  Il est distribué par le site Mozilla.org, dont la version française est http://frenchmozilla.org/.  FireFox comprend seulement le navigateur, alors que Mozilla ajoute un éditeur de pages web et la messagerie.  Thunderbird est un autre outil de la même et est utilisé pour le courriel.

2.2 Une adresse de page web

Voici comment lire les adresses des pages web.  Ceci devrait vous aider à retrouver une adresse si vous l'avez mal recopiée.  Prenons le serveur de la SGCF comme exemple.

Vous tapez ceci:
Le navigateur transforme l'adresse ainsi:
Le serveur vous retournera la page
La page est appelée
sgcf.com
http://sgcf.com
http://sgcf.com/index.php http://sgcf.com/
SGCF.COM
http://SGCF.COM
http://sgcf.com/index.php http://sgcf.com/
http://sgcf.com http://sgcf.com http://sgcf.com/index.php http://sgcf.com/
www.sgcf.com http://www.sgcf.com http://www.sgcf.com/index.php http://www.sgcf.com/
http://www.sgcf.com http://www.sgcf.com http://www.sgcf.com/index.php http://www.sgcf.com/
francogene.com
http://francogene.com
http://www.francogene.com/index.php
http://www.francogene.com/index.php

Analyse d'une adresse de page web : http://sgcf.com/zacharie/reponse.php?Auteurs=&Titre=&Cote=&Sujet=internet

Élément
Signification
Requis ?
http://
Protocole
Optionnel, http:// par défaut.  Les protocoles que vous rencontrerez le plus souvent sont:
  • http: page web ordinaire
  • https: page web sécurisée.  Le contenu de la page est encrypté avant son envoi dans Internet, ce qui permet de cacher le numéro de votre carte de crédit.
  • ftp: site ftp ou sorte de disque dur distant contenant un certain nombre de fichiers pour téléchargement.  Il existe aussi des clients ftp comme FileZilla.
sgcf.com
nom du serveur
Requis.  Le "www." est parfois requis (www.sgcf.com), parfois optionnel et c'est parfois autre chose.  Exemples:
  • membres.lycos.fr
  • pages.infinit.net
  • archiver.rootsweb.com
  • 150.178.42.2
  • homepage.mac.com
L'utilisation de majuscules ou minuscules est sans importance.
/zacharie/ nom du répertoire sur le serveur
Requis, mais le répertoire peut être la racine, ou "/".  Donc, "sgcf.com/" ira chercher le fichier à la racine du serveur.

Serveur de type Unix ou Linux: il faut respecter les majuscules et minuscules.  Zacharie et zacharie sont différents.
Serveur de type Windows: on ne s'occupe pas des majuscules ou minuscules.  Zacharie et zacharie donnent la même page.
reponse.php nom de la page
Optionnel.  Si on ne fournit pas de page, c'est le serveur qui va réagir:
  • nom par défaut: index.htm ou index.html, parfois d'autres noms comme index.php par exemple
  • si le serveur est protégé: un message disant que la page n'est pas trouvée.

    Not Found

    The requested URL was not found on this server.
    Apache Server at sgcf.com

  • si le serveur n'est pas protégé: la liste des pages du serveur.
    Index of /
     Name                    Last modified       Size  Description
    

    [DIR] Parent Directory 21-Sep-2004 20:12 -
    [   ] 20040926.sxc 27-Sep-2004 08:18 10k
    [TXT] 20040926.txt 27-Sep-2004 08:21 2k
    [TXT] descr.txt 27-Sep-2004 08:20 2k
    [DIR] docbook-dsssl/ 21-Sep-2004 20:04 -
    [TXT] index.htmlx 22-Sep-2004 13:14 1k
    [TXT] lspci.txt 23-Sep-2004 11:46 2k

    Apache/1.3.31 Server at 192.168.0.0 Port 80

:80
Numéro de port
Optionnel.  Dans certains cas, un numéro de port suit l'adresse.  C'est une précision dont le serveur a besoin pour acheminer votre requête.  Par défaut, le port 80 est utilisé, mais pour différentes raisons, on peut utiliser d'autres numéros.  C'est souvent le cas pour des bases de données ou des services spécialisés.
?Auteurs=&Titre=&Cote=&Sujet=internet
Arguments
Optionnel.  Dans certains cas, on envoie des arguments ou paramètres au serveur.  Par exemple, si vous faites une recherche, il faut bien que le moteur de recherche sache ce que vous cherchez.  Parfois, il est permis de jouer avec les arguments et parfois, le serveur ne fonctionnera pas.  Voici comment se décomposent les arguments utilisés pour Zacharie, dans la version de 2004:
  • ? Ce n'est pas un argument, mais le début des arguments
    Auteurs= Nom des auteurs pour la recherche d'un livre
    & Séparateur d'arguments.  Chaque argument est séparé des autres par une éperluette.  Si un argument contient une éperluette, celle-ci est remplacée par %26.  En fait, dans Internet, si certains caractères ont une fonction spéciale, il y a toujours une valeur de remplacement.
    Titre= Titre du livre
    Cote= Cote du livre
    Sujet=internet Sujet du livre
Il est rare que les arguments soient utilisés pour des adresses de sites, mais cela arrive dans certains cas.  Par exemple, un message dans un site de messagerie public (webforum) ou une entrée dans une base de données.

Les moteurs de recherche ignorent parfois les arguments alors que d'autres (comme google) en tiennent compte.

Si une page web a disparu, on peut tenter de remonter dans les répertoires du site en question. 

Première méthode: partir du dernier élément.

Si le site a une adresse comme www.serveur.com/~client/genealogie/page12/ligne15.htm, on commence par éliminer le dernier élément en essayant avec:
www.serveur.com/~client/genealogie/page12/, puis
www.serveur.com/~client/genealogie/, puis
www.serveur.com/~client/

En théorie, le tilde ~ ("alt-gr ;" sur certains claviers) indique un compte de particulier chez un hébergeur ancien.  Donc, si on remonte encore, on tombe sur l'hébergeur et non sur le site qui nous intéresse.  Si rien n'apparaît, c'est que le site est déménagé.

Deuxième méthode: partir de google, site non déplacé

À partir du moteur de recherche de google (www.google.fr), on peut faire une recherche dans un site.  Pour l'exemple ci-haut, on pourrait rechercher:

site:www.serveur.com/~client famille
où famille est le mot-clé recherché.  Essayez avec des mots comme index, généalogie, table, liste, etc.

Exemple interactif:  
Google



Troisième méthode: partir de google, site déplacé

Google conserve une image des pages indexées durant plusieurs mois.  On peut utiliser le lien "En cache" sous le résultat de la recherche:

Société Généalogique Canadienne-Française
... La SGCF administre la Maison de la Généalogie, le plus important centre de recherches
concernant l'histoire et la généalogie des Canadiens français. ...
www.sgcf.com/ - 14k - 26 sep 2004 - En cache - Pages similaires

D'un côté, les données sont en cache, donc consultables durant un certain table.  D'un autre côté, quand un site est déplacé, on conserve souvent la même présentation.  Il suffit de saisir un bout de phrase significatif et de faire une nouvelle recherche dans google (en utilisant des guillemets).  Souvent, la description est même suffisante.  Par exemple, pour la SGCF, on pourrait reprendre la phrase de la description:  "La SGCF administre la Maison de la Généalogie"