Après quelques péripéties sur la sauvegarde, voici quelques réflexions….
1/La sauvegarde permet de s’assurer de la cohérence des données. Si la sauvegarde complète du SI fonctionne, cela est déjà très positif! Car cela indique que toutes les données éparpillées partout sont lisibles.
2/L’évolution du temps de sauvegarde indique une tendance. S’il vous faut de plus en plus de temps pour sauvegarder un volume de données à peu près identique, cela indique une baisse de forme du SI. La sauvegarde peut être un exercice intense, car il s’agit de transférer un maximum de données en un minimum de temps. Cela test donc à la fois la capacité de lecture des différentes sources (SAN, AS/400…) et le backbone réseau.
On peut comparer la sauvegarde à une course de vitesse, où les dépôts de données sont les muscles et le réseau le sang circulant dans les veines. En cas de baisse de forme, il convient de diagnostiquer en détail ce qui ralentit. La fragmentation des disques durs est une raison fréquente, mais le service pack 2 de Windows 2003 a quelques effets sur les performances réseaux à ne pas négliger..
3/ L’expérience tend à montrer qu’une des premières briques du SI à se dégrader est la sauvegarde. Cela commence par une augmentation de la fenêtre de sauvegarde, puis des avertissements sur des fichiers non sauvegardés. Et là, alors que vous ne voulez toujours pas vous occuper de ces trop nombreux avertissements, une partition du serveur de fichiers principal lâche, d’un coup d’un seul… Enfin, c’est ce que l’on pense au début..Car on se rend compte que la sauvegarde se plaint depuis 15 jours de ne plus pouvoir sauvegarder des fichiers, de façon de plus en plus nombreux. Seulement voilà, il est trop tard, là où vous aviez un seul caillou dans la chaussure, vous avez d’un coup un menhir! Si je résume:
T0: tout va bien…
T1:tout va bien sauf quelques avertissements sur quelques fichiers, vous passez votre chemin..
T2:de plus en plus de fichiers non sauvegardés, mais bon « ce n’est qu’un avertissement » (laisser mariner 15 jours la situation…)
T3: Toute la partition est corrompue!
Sauf que maintenant, vous avez 15 jours de sauvegardes aussi complets qu’un emmental. Alors qu’il suffirait normalement de restaurer les données de la veille, ces données ne valent rien. Expliquer à son DSI et plus haut qu’une panne fait perdre une journée de travail, c’est déjà dur, mais lui expliquer que c’est 15 jours qui sont perdus…Pas la même histoire.
On peut alors se poser la question « pourquoi ne pas avoir traité ces avertissements? »
Sur un SI un peu évolué, avec une centaine de serveurs, il est très difficile d’avoir toutes les sauvegardes de tous les serveurs sans aucun avertissement. Il y a toujours un serveur pour faire parler de lui le matin au rapport d’exploitation. D’une part, les personnes en charge prenne l’habitude de voir quelques avertissements qui vont et viennent. Ils ne se formalisent plus en dessous du mot « échec ». Je pense que le terme « avertissement » n’est pas approprié est amène les administrateurs à penser que cela va suffisamment bien pour ne pas s’inquiéter.
La sauvegarde est un sujet ingrat, comme un vaccin. Il n’intéresse personne jusqu’à ce qu’il y en ait besoin. Et là personne ne comprends que la sauvegarde de la veille n’ait pas fonctionné, sans chercher plus en détail les causes profondes du maux.
Quelques conseils pour une DSI++:
- Ne rien lâcher, traiter les avertissements comme un échec. Ne rien laisser entraver le bon déroulement de la sauvegarde. Arrêter cette ancienne application tous les soirs s’il le faut.
- Historier tous les temps de sauvegardes (et volumétrie). Générer un rapport mensuel sur les performances des 6 derniers mois.
- Faire un test de restauration au moins tous les mois, toujours sur un élément différent.
La sauvegarde est la dernière chose à fonctionner, et la première à tomber.
Bien heureux de voir un peu d’activité ici !
Merci pour ce post et ce point de vue intéressant.