Une utilisation abrégée de l'analyse des problèmes

Trouble à bord d'Apollo XIII

Reprinted from The New Rational Manager, by Charles H. Kepner and Benjamin B. Tregoe

Princeton Research Press, Princeton, NJ, 1991,  1997.

La meilleure utilisation de l'analyse de problèmes est celle qui fonctionne le mieux. Il n'y a pas de vertu particulière à adhérer servilement à chaque étape de l'ensemble du processus si une utilisation brève et informelle des idées peut révéler la cause du problème. En fait, plus les gens utilisent l'analyse de problèmes, plus ils deviennent habiles à distinguer les fragments du processus qui s'appliquent aux types de problèmes auxquels ils sont confrontés chaque jour. Lorsque les gens commencent à poser des questions telles que "Le moment de cette opération a-t-il changé récemment ?" ou "A quel stade se trouvait ce processus juste avant que vous ne remarquiez le problème ?", ils ont fait la transition entre une appréciation académique des techniques de l'Analyse des problèmes et l'intériorisation de leur rôle pratique dans la résolution des problèmes quotidiens.

La grande majorité des analyses de problèmes ne voient jamais le papier et le crayon.

This is especially true of the abbreviated application of the process. The seriousness of a problem does not necessarily determine the length or complexity of the analysis required to resolve it. Some extremely serious problems have been solved through abbreviated  uses of the process. They were so data-poor that full use could not be undertaken. Fragments of the process had to be relied on and combined with educated speculation to arrive at a most likely cause.

Apollo XIII était en route pour la lune.

Fifty-four hours and fifty-two minutes into the mission—205,000 miles from earth—and  all was well. Then John L. Swigert,  Jr., duty commander at the time, reported: “Houston, we’ve got a problem here…. We’ve had a Main Buss B undervolt.”  This was an insider’s way of saying that electrical voltage on the second of two power generating systems had fallen off and a warning light had appeared. A moment later the power came up again. Swigert reported: “The voltage is looking good. And we had a pretty large bang associated with the caution and warning  there.” Three minutes later, as the dimensions of the problem became clearer, he reported: “Yeah, we got a Main Buss A undervolt too….It’s reading about 25½. Main B is reading zip right now.”

Apollo XIII, qui transportait trois personnes vers la lune à une vitesse incroyable, perdait rapidement de la puissance et pourrait bientôt devenir un cadavre. Une catastrophe s'est produite dans l'espace et personne n'est sûr de ce qui s'est passé.

Les ingénieurs de la NASA mettent l'analyse des problèmes au travail.

Sur le terrain à Houston, les ingénieurs de la NASA ont immédiatement mis en pratique le questionnement sur l'analyse des problèmes. Ils ont commencé à élaborer une spécification de l'écart à partir des informations fournies en réponse à leurs questions et des données affichées sur leurs équipements de surveillance.

Des mesures d'urgence sont prises.

Dans le même temps, ils ont lancé un certain nombre de mesures d'urgence pour réduire l'utilisation de l'énergie électrique à bord d'Apollo XIII. Treize minutes après le premier rapport, Swigert a signalé : " Notre réservoir d'O2 Cryo numéro deux affiche zéro... et il me semble, en regardant par l'écoutille, que nous évacuons quelque chose... dans l'espace... c'est une sorte de gaz. "

Ce qui avait commencé comme un problème électrique - une perte de tension - est devenu une perte soudaine d'oxygène dans le deuxième des deux réservoirs, avec une perte d'oxygène plus progressive dans le premier. L'oxygène étant utilisé dans la production d'électricité ainsi que directement dans les systèmes de survie, la situation ne pouvait guère être plus grave.

Les ingénieurs trouvent la cause et prennent des mesures.

Bien que personne à l'époque n'ait pu concevoir ce qui aurait pu causer l'éclatement du réservoir, "Rupture du réservoir d'oxygène cryogénique numéro deux" expliquerait la soudaine perte de tension et la perte de pression qui s'en est suivie.

Further actions were taken to conserve both oxygen and electricity. A number of “IS…COULD  BE but IS NOT” questions were asked to get further data, and a series of system checks was undertaken to verify cause. In the end it was determined that the Number Two Tank had burst and vented all its oxygen, plus a large portion of the gas from the Number One Tank, through a damaged valve and out into space.

Les trois hommes sont revenus sur Terre avec succès, mais seulement par la plus petite des marges. Si la cause était restée inconnue très longtemps, ils n'auraient pas eu assez d'oxygène pour survivre.

Alors, quelle était la cause profonde ?

It was weeks before the root cause of this problem  was established through on-the-ground testing and experimentation. Two weeks before the launch, a ground crew had piped liquid oxygen into the tanks in a countdown  demonstration. After the test they had had difficulty getting the oxygen out of the Number Two Tank. They had activated a heater inside the tank to vaporize some of the liquid oxygen,  thus providing  pressure to force it out. They had kept the heater on for eight hours, longer than it had ever been used before. Although a protective switch was provided to turn off the heater before it became too hot, the switch was fused in the ON position because the ground crew had connected it to a 65-volt power supply instead of the 28-volt supply used in Apollo XIII. Later, in flight, the crew turned the heater on briefly to get an accurate quantity reading. The fused switch created an arc that overheated  the oxygen in the tank, raised the internal pressure tremendously, and blew the dome and much of the connecting piping off into space.

La NASA de Houston n'avait pas le temps de dresser une liste complète de toutes les distinctions et de tous les changements qu'elle pouvait observer. Au lieu de cela, ils ont demandé : "Quel changement traumatique pourrait causer la défaillance soudaine et totale de la production électrique ?" La coupure du flux d'oxygène vers les piles à combustible aurait cet effet. Ils ont su quelles piles à combustible étaient hors service lorsque Swigert a signalé que le réservoir numéro deux affichait zéro.

En utilisant ce qui était connu pour tester la cause.

Ils ont testé la cause - la rupture du réservoir numéro deux - et ont constaté que cela expliquerait la soudaineté et la totalité décrites dans la spécification. Cela expliquerait également la détonation signalée au moment de la première indication de sous-tension, le tremblement d'Apollo XIII ressenti par les membres de l'équipage et l'évacuation de "quelque chose... dans l'espace". Cela expliquait à la fois les données IS qu'ils avaient accumulées et les informations IS NOT qui provenaient de leurs activités de surveillance. Plus important encore, elle expliquait une défaillance soudaine et totale du système.

Pour les ingénieurs de la NASA de Houston, cette cause était difficile à accepter.

They had unbounded faith in Apollo equipment, knowing that it was the best that could be devised. The idea of an oxygen tank bursting open in the depths of space was not credible. All this was justified from their experience. Without the bungling that had occurred on the ground two weeks before the launch, the tank would have gone to the moon and back just as it was designed and built to do. However, the Houston engineers stuck to the Problem Analysis process despite their incredulity, believing  that the test for cause they had carried out had provided  the correct answer. In fact, they proved  this cause in record time. What saved the day was their knowledge of Apollo XIII’s systems and of what could produce the exact kind of sudden failure that had occurred.

Une approche analytique des problèmes critiques de l'entreprise.

In a case such as this, Problem Analysis is rendered difficult by two factors: secondary effects and panic. Sudden failure in a complex  system usually causes other deviations  that may obscure the original deviation. The shock of a sudden failure often precipitates panic, making a careful review and use of the facts even more difficult. A disciplined and systematic investigation is difficult in any case, but discipline becomes essential when a top-speed search for cause is undertaken and there is no possibility of amassing all the data that would be optimal in the investigation.

Dans l'incident de la NASA, la présence d'une approche systématique a permis à une équipe de personnes de travailler ensemble comme une seule unité, même si elles étaient séparées de la déviation par près d'un quart de million de kilomètres. Pour les ingénieurs de la NASA à Houston, cette cause était difficile à accepter.

Download Case Study