Introduction
Mesurer son impact signifie-t-il qu’il faut prouver qu’on a généré un impact ? Si oui, comment fait-on pour établir un lien de causalité ? La complexité des interactions au sein d’une société fait en sorte qu’il est souvent bien difficile d’attribuer, c’est-à-dire de « confirmer une relation causale entre les changements observés (ou que l’on s’attend à observer) et une action spécifique » (OECD, 2002). Pour cette raison, on recourt souvent à diverses méthodes qui permettent plus modestement d’établir une relation de contribution, soit de dire que « à la lumière des multiples facteurs ayant une influence sur le résultat, l’intervention a eu un effet perceptible » (Mayne, 2012).
La causalité, l’attribution et l’essai randomisé contrôlé
La notion de causalité désigne un « lien qui unit une cause à un effet » (Hutchinson, 2018). Pour McDavid et Hawthorn, trois conditions doivent être respectées pour établir une relation de causalité :
- « [l’intervention] précède le résultat observé,
- la présence ou l’absence du résultat observé est corrélée avec celle de [l’intervention],
- il n’y a pas d’autres facteurs explicatifs rivaux plausibles pour expliquer la corrélation entre [l’intervention] et le résultat. [1] » (2006, p. 25).
L’utilisation d’un « contrefactuel » permet d’établir un lien de causalité en respectant ces trois conditions (Menzies, 2014).
On peut résumer cette approche de la manière suivante :
L’idée de l’analyse contrefactuelle (quasi) expérimentale est que la situation d’un groupe de participants (qui reçoit des avantages / qui est affecté par une intervention) est comparée au fil du temps avec la situation d’un groupe de comparaison équivalent qui n’est pas affecté par l’intervention. (Leeuw et Vaessen, 2009, p.22)
Concrètement, cette approche s’opérationnalise via la mise en place d’expériences de type « essai randomisé contrôlé », de l’anglais randomized controlled trial (RCT). Cette technique consiste à sélectionner de façon aléatoire, à partir d’une population admissible, un groupe expérimental qui bénéficiera d’une intervention et un groupe contrôle qui servira de point de comparaison afin d’évaluer l’effet de cette intervention (White, Sabarwal et Thomas, 2014, p. 1).
Le défi de cette approche, c’est justement d’estimer un contrefactuel, la « situation ou condition dans [laquelle] se trouveraient les personnes, les organisations ou les groupes concernés si [l’intervention] n’existait pas » (OECD, 2002), et qui, par définition, n’est pas observée, car il y a eu une intervention. Il faut donc simuler cette situation d’une manière ou d’une autre. Plusieurs techniques sont employées pour tenter de relever ce défi. Pour en savoir plus, consultez la fiche sur le RCT.
Précisons qu’il est possible d’attribuer un effet à une cause sans dire que l’effet est 100 % attribuable à cette cause. Il faut alors être en mesure non seulement d’établir un lien de causalité, mais aussi d’estimer dans quelle mesure le résultat observé est dû à une intervention donnée.
Le problème d’attribution est souvent considéré comme le problème central de l’évaluation d’impact. La question centrale est de savoir dans quelle mesure les changements des résultats qui nous intéressent peuvent être attribués à une intervention particulière. L’attribution fait référence à la fois au fait d’isoler et d’estimer précisément la contribution particulière d’une intervention et de s’assurer que la causalité agit de l’intervention jusqu’au résultat. [2] (Leeuw et Vaessen, 2009, p. 21)
L’exercice d’attribuer un lien de cause à effet crédible, en recourant à une étude (quasi) expérimentale, est particulièrement difficile dans les domaines de l’intervention sociale pour des raisons méthodologiques et pragmatiques qui sont étroitement liées.
Du point de vue méthodologique, une étude qui cherche à prouver (et souvent quantifier) un lien de causalité doit notamment respecter les conditions suivantes :
- L’intervention doit être homogène dans le temps et pour chaque participant (par exemple, le parcours offert par une entreprise d’insertion doit être le même d’une année à l’autre et d’un participant à l’autre).
- Il faut avoir la capacité de tenir compte du contexte, des facteurs externes et des variations entre les participants et d’isoler l’efficacité du traitement de ces autres facteurs (par exemple, si certains participants reçoivent plus ou moins de soutien de la part de leur famille, il faut utiliser cette variable pour nuancer l’analyse de la performance du parcours d’insertion).
- Il faut accepter de se concentrer sur une définition assez réductrice du succès ou de la performance de l’intervention (par exemple, il faut regarder si un participant à un parcours d’insertion est en emploi après 6 mois, sans tenir compte des compétences et du réseau social qu’il pourrait avoir développé ni de l’effet de son parcours sur ses proches).
Du point de vue pragmatique, les conditions à respecter sont si exigeantes qu’elles sont très rarement réunies :
- Il faut avoir la capacité de mettre en place l’étude afin de générer les données pertinentes. Cela coûte parfois très cher, jusqu’à 25 % du budget total du programme selon Zandniapour et Vicinanza (2013).
- Il faut être en mesure de contrôler au maximum l’environnement pour éviter les nombreuses variations externes. Or c’est presque impossible en dehors d’un laboratoire, de telle sorte que même une très bonne étude de type RCT sera peu généralisable dans un autre contexte que celui dans lequel l’expérience a été réalisée (faible validité externe).
- Il ne faut pas qu’il y ait d’enjeux éthiques à faire bénéficier certains participants d’une intervention et pas les autres. C’est parfois un obstacle important lorsque l’intervention étudiée est considérée comme un droit garanti par l’État (par exemple accéder à des soins de santé ou à une éducation de qualité).
En somme, les conditions nécessaires pour attribuer un changement à une intervention sont très difficiles à réunir. Pour certains, il s’agit d’un défi à relever, et le RCT, même s’il n’est jamais parfaitement appliqué, servira de référence – d’où l’expression de gold standard qui lui est associée – afin de comparer la rigueur des autres méthodes qui seront alors employées dans les faits (design quasi expérimental). Pour d’autres, certaines difficultés sont insurmontables et font en sorte qu’ils et elles s’opposent à une utilisation accrue de cette technique et de cette manière de penser dans le champ du social.
- Texte de Cupitt (2015)
- Texte de Labrousse (2016)
- Texte de Ravallion (2018)
- Texte de Leeuw et Vaessen (2009)
L’analyse de la contribution et la théorie du changement
Afin de surmonter la difficulté importante d’attribuer un effet à une cause, des chercheurs, comme John Mayne du Centre de recherches pour le développement international (CRDI), ont développé une approche basée sur l’analyse de la contribution (Mayne, 2001). Selon Mayne, une part de la confusion dans ces discussions vient du fait que la notion de « causalité » peut être utilisée pour décrire plusieurs types de liens qui peuvent être nécessaires, suffisants, ou pas. Le tableau suivant présente divers cas de figures accompagnés d’exemples liés au domaine de la santé (Mayne, 2012, p. 275)[3].
Ainsi, s’il est relativement simple d’attribuer un lien de cause à effet dans des contextes où le lien de causalité est nécessaire, la grande majorité des cas étudiés dans les domaines qui nous intéressent (liés à l’économie sociale) impliquent des relations de causalité qui ne sont ni nécessaires ni suffisantes. Il s’agit alors de causes contributives. Afin d’établir un lien de contribution, ce qu’on appelle « l’analyse de la contribution », Mayne recommande de développer une solide théorie du changement en respectant les étapes suivantes :
- Déterminer la relation de cause à effet qui doit être étudiée ;
- Développer une théorie du changement qui inclut des risques, des facteurs externes et des explications rivales ;
- Recueillir les données existantes sur cette théorie du changement ;
- Évaluer la force du lien de causalité présumé ainsi que des objections potentielles ;
- Chercher des preuves additionnelles ;
- Réviser et renforcer le récit qui explique le lien de contribution. (Mayne, 2012, p. 272)
Ces étapes sont décrites de manière plus détaillée sur le site de Better Evaluation (Better Evaluation, 2016)
Pour Smutylo (2001, p. 1), il est très important de ne pas être obsédé par l’impact (outcomes), car celui-ci est en dehors du contrôle des organismes et ne peut pas être raisonnablement prouvé.
L’impact se produit souvent loin en aval et peut avoir une forme différente de celle qu’on avait imaginée. L’impact dépend de la capacité de réaction à des facteurs spécifiques au contexte, ce qui engendre une diversité au sein des initiatives. La valeur et la durabilité des résultats dépendent généralement du degré et de l’ampleur de la participation de nombreuses parties prenantes. Ces caractéristiques font qu’il est difficile pour les organisations externes : a) de déterminer et d’attribuer des impacts spécifiques à des composantes spécifiques de leurs programmes ; et b) de regrouper et de comparer les résultats de différentes initiatives. [4] (Smutylo, 2001, p. 1)
Terry Smutylo soutient même cet argument en chanson:
L’analyse de la contribution invite donc les organisations et les personnes qui les évaluent à faire davantage appel à des méthodes qualitatives. Ce discours n’a pas été inventé par le CRDI au début des années 2000. Dans les faits, la plupart des intervenants en évaluation au Québec, en France (Branger, Gardin, Jany-Catrice et Pinaud, 2014 ; Duclos, 2007) et ailleurs (Scriven, 1998 ; Patton, 2008) prônent depuis longtemps une évaluation participative et flexible, mais tout de même rigoureuse.
Bien que le pragmatisme soit un motif puissant dans la décision de recourir à des méthodes qualitatives ou mixtes plutôt qu’à un devis expérimental (Pluye et al., 2009, p. 123), ce n’est pas le seul. En effet, la partie qualitative d’une évaluation est la seule qui peut fournir « des descriptions détaillées des phénomènes complexes fondées empiriquement sur un contexte spécifique […] une meilleure compréhension du développement de programmes complexes […] et une compréhension approfondie des raisons pour lesquelles ces programmes fonctionnent (Pluye et al., 2009, p. 125). Autrement dit, l’un des principaux apports des approches évaluatives, comme l’analyse de la contribution, est d’ouvrir la « boite noire » en cherchant à expliquer comment une intervention contribue à un effet, plutôt que d’uniquement chercher à estimer si un effet est attribuable à une cause (Leeuw, 2012, p. 353).
En conclusion, même si la plupart des définitions de l’impact incluent la notion d’attribution, il est souvent plus honnête et réaliste – plutôt que de chercher à prouver hors de tout doute un lien de causalité entre une action et un effet – de parler d’une association plausible de sorte « qu’une personne raisonnable serait d’accord pour dire, à partir des preuves et des arguments, que [l’intervention] a contribué de manière importante au résultat observé » (Mayne, 2012, p. 273).
Précisions cependant que ces deux approches sont, au final, relativement proches. Une bonne analyse de la contribution est compatible avec les critères nécessaires à la démonstration d’un lien de causalité énoncés plus tôt. En effet, une théorie qui explique un lien de cause à effet est formulée puis confrontée à la réalité, à travers différentes démarches de collecte de données (observation, revue de littérature, sondage, entrevue, etc.). Si les facteurs contextuels sont pris en compte, puis les explications rivales écartées, on peut alors parler d’un lien de contribution plausible.
En somme, les nuances entre attribution et contribution sont importantes, mais il ne faudrait pas pour autant se perdre dans ce débat dans la mesure où, comme le souligne le blogue Aid Leap, chaque approche reconnaît qu’il y a plusieurs facteurs et se pose fondamentalement la même question : qu’est-ce que l’intervention a produit et que serait-il arrivé sans elle ?
- Édition spéciale de la revue Evaluation qui porte sur l’analyse de la contribution (volume 18, numéro 3, juillet 2012)
- Article de BetterEvaluation sur l’analyse de la contribution
- 20_48. (2010). « À propos de l’attribution de cause à effet », p. 11-13
Clarifier les attentes et choisir une méthode adaptée au contexte
La première section de l’espace web dit que la mesure d’impact désigne « l’évaluation des effets découlant d’une intervention », mais elle précise également que « les techniques permettant de mesurer l’impact peuvent impliquer un niveau de formalisation ou de “rigueur scientifique” variable, allant de brèves études basées sur les perceptions de quelques participants à des études longitudinales avec des groupes contrôles sélectionnés aléatoirement (essai randomisé contrôlé) ».
Ainsi, lorsque l’on s’engage dans une démarche de mesure d’impact, le défi n’est pas tant de définir ce qu’est une mesure d’impact et ce qui ne l’est pas, mais bien ce qui est attendu par vous et vos parties prenantes (administrateurs, membres, employés, financeurs et autres destinataires). C’est la correspondance entre la démarche réalisée et ces attentes qui déterminera le succès de votre initiative.
Pour nous guider dans cette conversation, des organismes comme la Fondation Nesta ont proposé des niveaux de preuve (standards of evidence), en suggérant, par exemple, qu’une étude avec groupe témoin est supérieure à une étude qui mesure seulement les changements entre le début et la fin de l’intervention, ou encore que plusieurs études menées avec groupes témoins sont meilleures qu’une seule !
Si cette hiérarchie est valide en théorie ou dans un contexte scientifique extrêmement contrôlé (par exemple dans un laboratoire), il faut la nuancer en fonction du contexte et des attentes qui peuvent réellement être formulées à l’égard de la mesure d’impact de l’économie sociale (ÉS). Une version plus réaliste contiendrait donc les mises en garde et commentaires suivants :
La meilleure étude n’est donc pas forcément celle qui mobilisera le plus de groupes témoins, mais bien celle qui sera la plus utile à l’organisation qui la mène. Cette utilité dépend des objectifs fixés initialement par ceux et celles qui mettent en œuvre l’évaluation, tel qu’évoqué dans la section « Pourquoi évaluer ? » et le niveau de preuve attendu est proportionnel aux moyens disponibles et au degré de maturité de la solution mise en oeuvre.
- Communagir. (2018). Une évaluation utile et mobilisatrice, est-ce possible ?
- Ontario Nonprofit Network. (2016). Learning Together: Five Important Discussion Questions to Make Evaluation Useful.
- Better Evaluation. (2012). Utilization-Focused Evaluation.
- NPC (2016). Balancing act: A guide to proportionate evaluation.
Better Evaluation. (2016). Contribution Analysis. Better Evaluation.
Branger, V., Gardin, L., Jany-Catrice, F. et Pinaud, S. (2014). Évaluer l’utilité sociale de l’économie sociale et solidaire. Projet Corus-ESS (Connaissance et reconnaissance de l’utilité sociale en ESS).
Cupitt, S. (2015, mai). Randomised controlled trials – gold standard or fool’s gold? The role of experimental methods in voluntary sector impact assessment. The National Council for Volountary Organisations (NCVO).
Duclos, H. (2007). Évaluer l’utilité sociale de son activité: Conduire une démarche d’auto-évaluation. Paris (167 rue du Chevaleret, 75013) : Agence de valorisation des initiatives socio-économiques (AVISE).
Hutchinson, K. (2018). Evaluation Glossary. Community Solutions Planning & Evaluation. Repéré à http://communitysolutions.ca/web/evaluation-glossary-2/
Labrousse, A. (2016). Apprendre des expérimentations aléatoires, Promesse de scientificité, complications pratiques, expériences historiques. La Vie des idées. Repéré à http://www.laviedesidees.fr/Apprendre-des-experimentations-aleatoires.html
Leeuw, F. L. (2012). Linking theory-based evaluation and contribution analysis: Three problems and a few solutions. Evaluation, 18(3), 348–363.
Leeuw, F. L. et Vaessen, J. (2009). Impact evaluations and development: NONIE guidance on impact evaluation. Network of networks on impact evaluation.
Mayne, J. (2001). Addressing attribution through contribution analysis: using performance measures sensibly. The Canadian journal of program evaluation, 16(1), 1.
Mayne, J. (2012). Contribution analysis: Coming of age? Evaluation, 18(3), 270–280.
McDavid, J. C. et Hawthorn, L. R. (2006). Program evaluation & performance measurement: An introduction to practice. Atlanta : Sage.
Menzies, P. (2014). Counterfactual Theories of Causation. Dans E. N. Zalta (dir.), The Stanford Encyclopedia of Philosophy (Spring 2014 Edition).
OECD. (2002). Glossaire des principaux termes relatifs à l’évaluation et la gestion axée sur les résultats.
Patton, M. Q. (2008). Utilization-focused evaluation (4e éd.). Sage publications.
Pluye, P., Nadeau, L., Gagnon, M.-P., Grad, R., Johnson-Lafleur, J. et Griffiths, F. (2009). Les méthodes mixtes. Dans V. Ridde et C. Dagenais (dir.), Approches et pratiques en évaluation de programme (p. 123‑141). Montréal, QC : Les Presses de l’Université de Montréal.
Puttick, R. et Ludlow, J. (2013, octobre). Standards of evidence: An approach that balances the need for evidence with innovation. Nesta.
Ravallion, M. (2018). Should the Randomistas (Continue to) Rule? Repéré à https://www.cgdev.org/publication/should-randomistas-continue-rule
Scriven, M. (1998). Minimalist theory: The least theory that practice requires. American Journal of Evaluation, 19(1), 57–70.
Smutylo, T. (2001). Crouching Impact, Hidden Attribution: Overcoming Threats to Learning in. Repéré à http://www.alnap.org/pool/files/117274.pdf
White, H., Sabarwal, S. et Thomas, de H. (2014). Essais contrôlés randomisés (ECR). Florence : Centre de recherche Innocenti.
Zandniapour, L. et Vicinanza, N. (2013). Budgeting for Rigorous Evaluation: Insights from the Social Innovation Fund. Washington, D. C. : Corporation for National and Community Service, Office of Research and Evaluation.
[1] Traduction libre de : « to establish a causal relationship between a program and an observed outcome: (1) the program has to precede the observed outcome, (2) the presence or absence of the program has to be correlated with the presence or absence of observed outcome, and (3) there cannot be any other plausible rival explanatory factors that could account for the correlation between the program and the outcome. »
[2] Traduction libre de : « The attribution problem is often referred to as the central problem in impact evaluation. The central question is to what extent changes in outcomes of interest can be attributed to a particular intervention. Attribution refers to both isolating and estimating accurately the particular contribution of an intervention and ensuring that causality runs from the intervention to the outcome. »
[3] Traduction libre de : « Necessary but not sufficient. A person must be infected with HIV before they can develop AIDS. HIV is therefore a necessary cause of AIDS; however, since every person with HIV does not contract AIDS, it is not sufficient.
Sufficient but not necessary. Decapitation is sufficient to cause death; however, people can die in many other ways.
Both necessary and sufficient. A gene mutation associated with Tay-Sachs is a both necessary and sufficient cause for the development of the disease, since everyone with the mutation will eventually develop Tay-Sachs and no-one without the mutation will ever have it.
Neither necessary nor sufficient – a contributory cause. Smoking heavily is a contributory cause of lung cancer – it is not a necessary cause since there are other sources of lung cancer, nor is it a sufficient cause since not all smokers suffer from lung cancer. »
[4] Traduction libre de : « Outcomes often occur a long way downstream and may not take the form anticipated. Outcomes depend on responsiveness to context specific factors, creating diversity across initiatives. The value and sustainability of outcomes usually depend on the depth and breadth of involvement by many stakeholders. These characteristics make it difficult for external agencies: a) to identify and attribute specific outcomes to specific components of their programs; and b) to aggregate and compare results across initiatives. »
[5] Traduction libre de : « a reasonable person would agree from the evidence and argument that the program has made an important contribution to the observed result. »