Trouble à bord d'Apollo XIII
Reprinted from The New Rational Manager, by Charles H. Kepner and Benjamin B. Tregoe
Princeton Research Press, NJ, 1991, 1997
La meilleure utilisation de l'analyse de problèmes est celle qui fonctionne le mieux. Il n'y a pas de vertu particulière à adhérer servilement à chaque étape de l'ensemble du processus si une utilisation brève et informelle des idées peut révéler la cause du problème. En fait, plus les gens utilisent l'analyse de problèmes, plus ils deviennent habiles à distinguer les fragments du processus qui s'appliquent aux types de problèmes auxquels ils sont confrontés chaque jour. Lorsque les gens commencent à poser des questions telles que "Le moment de cette opération a-t-il changé dernièrement ?" ou "A quel stade se trouvait ce processus juste avant que vous ne remarquiez le problème ?", ils ont fait la transition entre une appréciation académique des techniques d'Analyse des problèmes et l'intériorisation de leur rôle pratique dans la résolution des problèmes quotidiens.
La grande majorité des analyses de problèmes ne voient jamais le papier et le crayon.
Ceci est particulièrement vrai pour l'application abrégée du processus. La gravité d'un problème ne détermine pas nécessairement la longueur ou la complexité de l'analyse requise pour le résoudre. Certains problèmes extrêmement graves ont été résolus par des utilisations abrégées du processus. Ils étaient si pauvres en données qu'une utilisation complète ne pouvait être entreprise. Il a fallu se fier à des fragments du processus et les combiner à des spéculations éclairées pour parvenir à la cause la plus probable.
Apollo XIII était en route pour la lune.
Cinquante-quatre heures et cinquante-deux minutes après le début de la mission, à 205 000 miles de la terre, tout allait bien. Puis John L. Swigert, Jr., commandant en service à l'époque, a fait un rapport : "Houston, nous avons un problème ici..... Nous avons eu une sous-tension du bus principal B." C'était une manière interne de dire que la tension électrique du deuxième des deux systèmes de production d'énergie avait chuté et qu'un voyant lumineux était apparu. Un moment plus tard, le courant est revenu. Swigert a rapporté : "La tension est bonne. Et nous avons eu une assez grosse détonation associée à l'avertissement et à la mise en garde là." Trois minutes plus tard, alors que les dimensions du problème devenaient plus claires, il a rapporté : "Ouais, on a une sous-tension sur le bus principal A aussi..... Il affiche environ 25½. Le bus principal B n'indique rien pour le moment."
Apollo XIII, qui transportait trois personnes vers la lune à une vitesse incroyable, perdait rapidement de la puissance et pourrait bientôt devenir un cadavre. Une catastrophe s'est produite dans l'espace et personne n'est sûr de ce qui s'est passé.
Les ingénieurs de la NASA mettent l'analyse des problèmes au travail.
Sur le terrain à Houston, les ingénieurs de la NASA ont immédiatement mis en pratique le questionnement sur l'analyse des problèmes. Ils ont commencé à élaborer une spécification de l'écart à partir des informations fournies en réponse à leurs questions et des données affichées sur leurs équipements de surveillance.
Des mesures d'urgence sont prises.
Dans le même temps, ils ont lancé un certain nombre de mesures d'urgence pour réduire l'utilisation de l'énergie électrique à bord d'Apollo XIII. Treize minutes après le premier rapport, Swigert a signalé : " Notre réservoir d'O2 Cryo numéro deux affiche zéro... et il me semble, en regardant par l'écoutille, que nous évacuons quelque chose... dans l'espace... c'est une sorte de gaz. "
Ce qui avait commencé comme un problème électrique - une perte de tension - est devenu une perte soudaine d'oxygène dans le deuxième des deux réservoirs, avec une perte d'oxygène plus progressive dans le premier. L'oxygène étant utilisé dans la production d'électricité ainsi que directement dans les systèmes de survie, la situation ne pouvait guère être plus grave.
Les ingénieurs trouvent la cause et prennent des mesures.
Bien que personne à l'époque n'ait pu concevoir ce qui aurait pu causer l'éclatement du réservoir, "Rupture du réservoir d'oxygène cryogénique numéro deux" expliquerait la soudaine perte de tension et la perte de pression qui s'en est suivie.
D'autres mesures ont été prises pour économiser l'oxygène et l'électricité. Un certain nombre de questions "EST...PEUT-ÊTRE mais N'EST PAS" ont été posées pour obtenir des données supplémentaires, et une série de contrôles du système a été entreprise pour vérifier la cause. Finalement, il a été déterminé que le réservoir numéro 2 avait éclaté et évacué tout son oxygène, ainsi qu'une grande partie du gaz du réservoir numéro 1, à travers une valve endommagée et dans l'espace.
Les trois hommes sont revenus sur Terre avec succès, mais seulement par la plus petite des marges. Si la cause était restée inconnue très longtemps, ils n'auraient pas eu assez d'oxygène pour survivre.
Alors, quelle était la cause profonde ?
Il a fallu des semaines avant que la cause profonde de ce problème ne soit établie par des tests et des expériences au sol. Deux semaines avant le lancement, une équipe au sol avait introduit de l'oxygène liquide dans les réservoirs lors d'une démonstration du compte à rebours. Après le test, ils ont eu des difficultés à faire sortir l'oxygène du réservoir numéro 2. Ils ont activé un réchauffeur à l'intérieur du réservoir pour vaporiser une partie de l'oxygène liquide, créant ainsi une pression pour le faire sortir. Ils avaient laissé le chauffage allumé pendant huit heures, soit plus longtemps qu'il n'avait jamais été utilisé auparavant. Bien qu'un interrupteur de protection ait été prévu pour éteindre le chauffage avant qu'il ne devienne trop chaud, l'interrupteur a fondu en position ON parce que l'équipe au sol l'avait connecté à une alimentation de 65 volts au lieu de l'alimentation de 28 volts utilisée dans Apollo XIII. Plus tard, en vol, l'équipage a allumé brièvement l'appareil de chauffage pour obtenir une lecture précise de la quantité. L'interrupteur à fusible a créé un arc électrique qui a surchauffé l'oxygène dans le réservoir, augmenté énormément la pression interne et fait exploser le dôme et une grande partie des tuyaux de raccordement dans l'espace.
La NASA de Houston n'avait pas le temps de dresser une liste complète de toutes les distinctions et de tous les changements qu'elle pouvait observer. Au lieu de cela, ils ont demandé : "Quel changement traumatique pourrait causer la défaillance soudaine et totale de la production d'électricité ?" La coupure du flux d'oxygène vers les piles à combustible aurait cet effet. Ils ont su quelles piles à combustible étaient hors service lorsque Swigert a signalé que le réservoir numéro deux affichait zéro.
En utilisant ce qui était connu pour tester la cause.
Ils ont testé la cause - la rupture du réservoir numéro deux - et ont constaté que cela expliquerait la soudaineté et la totalité décrites dans la spécification. Cela expliquerait également la détonation signalée au moment de la première indication de sous-tension, le tremblement d'Apollo XIII ressenti par les membres de l'équipage et l'évacuation de "quelque chose... dans l'espace". Cela expliquait à la fois les données IS qu'ils avaient accumulées et les informations IS NOT qui provenaient de leurs activités de surveillance. Plus important encore, elle expliquait une défaillance soudaine et totale du système.
Pour les ingénieurs de la NASA de Houston, cette cause était difficile à accepter.
Ils avaient une confiance illimitée dans l'équipement d'Apollo, sachant que c'était le meilleur qui pouvait être conçu. L'idée qu'un réservoir d'oxygène puisse éclater dans les profondeurs de l'espace n'était pas crédible. Tout cela était justifié par leur expérience. Sans le cafouillage qui s'était produit au sol deux semaines avant le lancement, le réservoir serait allé sur la Lune et en serait revenu, comme il avait été conçu et construit pour le faire. Cependant, les ingénieurs de Houston se sont tenus au processus d'analyse des problèmes malgré leur incrédulité, persuadés que le test de la cause qu'ils avaient effectué avait fourni la bonne réponse. En fait, ils ont prouvé cette cause en un temps record. Ce qui leur a sauvé la mise, c'est leur connaissance des systèmes d'Apollo XIII et de ce qui pouvait produire le type exact de panne soudaine qui s'était produite.
Une approche analytique des problèmes critiques de l'entreprise.
Dans un cas comme celui-ci, l'analyse du problème est rendue difficile par deux facteurs : les effets secondaires et la panique. Une défaillance soudaine dans un système complexe entraîne généralement d'autres déviations qui peuvent masquer la déviation initiale. Le choc d'une défaillance soudaine précipite souvent la panique, ce qui rend encore plus difficile un examen et une utilisation minutieux des faits. Une enquête disciplinée et systématique est difficile dans tous les cas, mais la discipline devient essentielle lorsqu'une recherche de cause à toute vitesse est entreprise et qu'il n'y a aucune possibilité d'amasser toutes les données qui seraient optimales dans l'enquête.
Dans l'incident de la NASA, la présence d'une approche systématique a permis à une équipe de personnes de travailler ensemble comme une seule unité, même si elles étaient séparées de la déviation par près d'un quart de million de kilomètres. Pour les ingénieurs de la NASA à Houston, cette cause était difficile à accepter.