Meta-analyse over de psychometrische eigenschappen van enkele veelgebruikte projectieve technieken
Door Lic. Peeters, Tim; Cayenberghs, Karen; Debock, Karel; Schouten, Ben en Wilderjans, Tom
© December 2002.
INHOUDSOPGAVE
-
Algemene inleiding
1.1 Inleiding projectieve technieken
1.2 Inleiding methodologische aspecten
-
Wetenschappelijke status van de Rorschach test
2.1 Inleiding
2.2 Wetenschappelijke status van het Comprehensive systeem
2.2.1 Inleiding
2.2.2 Normering
2.2.3 Betrouwbaarheid
2.2.4 R-probleem
2.2.5 Validiteit
2.3 Besluit
-
Wetenschappelijke status van de TAT
3.1 Inleiding: de TAT algemeen
3.1.1 Achtergrond
3.1.2 Vorm en afname
3.2 De TAT psychometrisch
3.2.1 Introductie
3.2.2 Indeling volgens scoringsschema
3.2.3 Behoeftescoring
3.2.4 SCORS
3.2.5 DMM
3.2.6 Conclusie naar scoringsschema toe
3.3 Besluit
-
Wetenschappelijke status van tekentesten
4.1 Inleiding
4.2 Betrouwbaarheid
4.2.1 Interbeoordelaarsbetrouwbaarheid
4.2.2 Test hertest betrouwbaarheid
4.3 Validiteit
4.3.1 Constructvaliditeit
4.3.2 Gelijktijdige validiteit
4.3.3 Incrementele validiteit
4.4 Bruikbaarheid
4.5 Normering
4.6 Besluit
-
Conclusie
-
Referenties
-
Algemene inleiding
1.1 Inleiding projectieve technieken
In de psychodiagnostiek wordt gebruik gemaakt van twee soorten technieken. Naast vragenlijsten worden projectieve technieken veelvuldig toegepast om een diagnostisch oordeel te maken. In deze paper gaan we dieper in op projectieve technieken, hun eigenschappen, hun pluspunten en tekortkomingen.
Projectieve technieken maken een aparte groep uit in het psychodiagnostisch arsenaal. Ze kunnen negatief gedefinieerd worden door ze te contrasteren met de overige diagnostische technieken, b.v. de vragenlijsten (De Boeck, 1999). Lilienfeld, Wood en Garb (2000) daarentegen geven een beschrijvende definitie wanneer zij projectieve technieken omschrijven als een geheel van ambigue stimuli waarbij gevraagd wordt om deze stimulus te verduidelijken (b.v. het vertellen van een verhaal, antwoorden geven op open vragen…).
De projectieve hypothese vormt de bestaansreden van de projectieve technieken. Volgens deze hypothese projecteren mensen aspecten van hun persoonlijkheid in hun ‘(test-) gedrag’ wanneer hen gevraagd wordt ongestructureerde stimuli te verduidelijken / interpreteren. Door de gedragingen die gesteld worden te analyseren, kunnen allerlei inferenties over iemands persoonlijkheid gemaakt worden. De term ‘projectie’ is afkomstig van S. Freud (1911) waarmee hij een defensiemechanisme omschreef waardoor patiënten hun negatieve persoonlijkheidseigenschappen op een onbewuste wijze in andere personen konden plaatsten. Binnen de context van de projectieve technieken heeft de term ‘projectie’ een veel ruimere betekenis gekregen. Projectie duidt hier niet meer op het defensiemechanisme maar op een algemeen onderliggend mechanisme in iedere mens.
De projectieve methode kan dus omschreven worden als een psychodiagnostische methode, waarbij de onderzochte in het vervullen van de opdracht een grote mate van vrijheid krijgt, zodat bepaalde affectieve en conatieve aspecten van zijn persoonlijkheid op indirecte wijze uit zijn of haar gedrag en resultaten blijken (de Zeeuw, 1995). De projectieve techniek is dan als het ware een scherm waarop de mensen hun ‘gevoelens’ kunnen projecteren waardoor de onderzoeker inzicht kan verschaffen in de ‘de dark side’ van de persoonlijkheid. De onderliggende assumptie luidt dat er zo een globale beoordeling inzake de onderliggende persoonlijkheid van de onderzochte gemaakt wordt. Een betere term dan ‘projectietechnieken’ is ‘expressietechnieken (De Zeeuw, 1995).
De verschillende projectieve technieken hebben vier gemeenschappelijke kenmerken.Ten eerste zijn de aangeboden stimuli zijn vaag en ambigu. Daarnaast is de respons van de onderzochte op de stimuli is ongestructureerd. Vervolgens is er ook sprake van vermomming van de doelstellingen van de techniek. De geteste persoon weet niet wat er gemeten wordt, waardoor er geen sociaal wenselijk gedrag optreedt. Daarom wordt het geheel van projectieve technieken ook wel een indirecte methode genoemd, in tegenstelling tot de vragenlijsten die eerder op een directe manier pijlen naar de angsten, wensen en verlangens van de ondervraagde. Tenslotte geven Lilienfeld et al. (2000) aan dat zo bewuste verdedigingsmechanismen bij het antwoorden omzeild worden.
Alle projectieve technieken baseren zich op een interpretatief proces om betekenis te geven aan het geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het scoren niet evenveel projectie aanwezig is als in de gegeven antwoorden van de proefpersonen (tegenoverdracht).
Hiermee kan de link gelegd worden met het onderscheid dat er gemaakt wordt tussen een kwantitatieve en een kwalitatieve benadering van de verschillende technieken Bij een kwantitatieve benadering probeert men de bekomen antwoorden op het materiaal op een formeel-systematische en kwantificerende manier te omschrijven en vervolgens te interpreteren. Bij de kwalitatieve benadering poogt men op een systematische wijze een inhoudelijke interpretatie te maken (Groth-Marnat, 1999; Laroche & Corveleyn, 1986).
In navolging van Lindzey (1959) zullen de we een onderscheid maken tussen verschillende soorten van projectieve technieken, nl. (1) associatie b.v. de Rorschach-vlekkentest, (2) de constructie b.v. Draw a Person van Machover, (3) de aanvulling b.v. de Zinaanvullingstest van Rotter, (4) de expressie b.v TAT en tenslotte (5) de rangschikking en selectie b.v. Color Test van Luscher. Deze classificatie is gebaseerd op de verschillende typen van antwoorden.
In deze paper zullen we ons focussen op de belangrijkste projectieve technieken: (a) de Rorschach-vlekkentest, (b) de TAT en (c) de Human Figure Drawings. Er zijn twee redenen waarom we ons beperken tot deze drie technieken. Het zijn de meest gebruikte projectieve technieken. Een onderzoek naar 21 projectieve methoden, gemeten aan de aantallen researchpublicaties in tien belangrijke Amerikaanse tijdschriften (Crenshaw, 1968) wijst uit dat de Rorschach-vlekkentest en de TAT de meest beschreven methoden uit de projectieve technieken waren. Daarnaast is er in de huidige literatuur het meest te vinden over deze drie methoden wat betreft methodologische aspecten. We focussen ons op de methologische aspecten van de projectieve technieken. We beginnen met een korte omschrijving van de verschillende projectieve technieken en geven daarbij hun psychometrische eigenschappen. Tenslotte geven we een samenvatting over de wetenschappelijke status van de technieken en enkele opmerkingen
1.2 Inleiding methodologische aspecten
We gaan eventjes kort ingaan op de methodologische criteria die gehanteerd worden bij het nagaan van de wetenschappelijke status van projectieve technieken.
Eén van de belangrijkste criteria is dat van de validiteit, hetgeen verband houdt met de vraag ‘Wat onderzoekt deze projectieve techniek?’ Indien we niet een redelijk juist antwoord op deze vraag kunnen geven, zal de projectieve methode waardeloos zijn voor de clinici die streven om iets zinnigs over mensen te weten te komen. De validiteit is het allerbelangrijkste punt bij het opstellen en toepassen van alle soorten tests. Deze geldigheid van een test wordt uitgedrukt in een validiteitcoëfficiënt.
Er zijn verschillende categorieën binnen validiteit.
Eerst en vooral heeft men constructvaliditeit of begripsvaliditeit, hetgeen een analyse is van attributen die met het testresultaat in verband staan, of zij nu behoren tot het bedoelde of het niet – bedoelde. Dit onderzoek loopt via de correlaties die testvariabele heeft met andere variabelen. Men bekomt een netwerk van correlaties. Er zijn twee strategieën: (1) een nomologisch netwerk (Cronbach & Meehl, 1955) en (2) een multitrek – multimehode matrix (Campbell & Fiske, 1959).
Bij bespreking van testen kan men soms ook vinden dat nieuwe testen worden gevalideerd tegen de resultaten van soortgelijke reeds bestaande testen. Dit noemt men de congruente validiteit. Ook wordt er gezocht naar hun ongelijksoortigheid, dit is dan de concurrente validiteit.
Voorts spreekt men ook van incrementele validiteit, dit heeft te maken met het toenemen van de validiteit (increment is aangroei of toename). Voegt de test nog extra toe?
Bij inhoudsvaliditeit wordt de mate nagegaan waarin testinhoud of testgedrag representatief is voor een breed domein.
Predictieve validiteit of voorspellende validiteit wordt nagegaan wanneer een test in hoofdzaak gebruikt wordt om te kunnen voorspellen.
De uiterlijke validiteit (face validity) is eigenlijk louter een gevoelskwestie. Testen worden gelanceerd die voor het gevoel van de ontwerper een bepaald facet onderzochten, omdat zij daar uiterlijk overeenkomsten mee hadden, zonder dat de validiteit echt nader wordt onderzocht.
Op de tweede plaats in orde van belangrijkheid komt de betrouwbaarheid. We kunnen hierbij opnieuw ingaan van een vraagstelling, namelijk ‘Hoe nauwkeurig of hoe consequent meet een projectieve techniek datgene wat zij meet?’ Wanneer iemand een test aflegt, kunnen immers tal van omstandigheden zijn score beïnvloeden, die geheel los staan van de vaardigheid of de persoonlijke eigenschap waarvoor de test is ontworpen.
Er zijn net zoals bij validiteit verschillende soorten van betrouwbaarheid te onderscheiden. Dé betrouwbaarheid op zich bestaat niet, er zijn verschillende types van betrouwbaarheid. De betrouwbaarheid wordt uitgedrukt in een correlatiecoëfficiënt.
Zo heeft men interbeoordelaarsbetrouwbaarheid (interscorerbetrouwbaarheid), dit is de mate van objectiviteit bij scoring van de test en de onderling gelijke wijze waarop testafnemers hun taak verrichten.Vooral bij projectieve testen en observatietesten is deze coëfficiënt van belang. Hij moet tenminste het niveau van r=.90 hebben.
Men kan ook de betrouwbaarheid opvatten als de validiteit van de test t.o.v zichzelf. Dit is de stabiliteit van de test of de test – hertest betrouwbaarheid.
Zeer frequent als schatting van de testbetrouwbaarheid is het gebruik van de coëfficiënt van interne consistentie. Er zijn twee maten: de Kuder – Richardson voor nominaal niveau en de Cronbach alpha voor intervalniveau. Deze interne consistentie geeft aan in hoeverre de items homogeen of consistent zijn. Dit wordt niet uitgedrukt in een correlatiecoëfficiënt.
Voor de praktijk van het testonderzoek is het ook vereist dat een test voorzien moet zijn van normen. De individuele testprestaties worden beoordeeld in relatie tot de resultaten van andere personen van de populatie, waartoe de onderzochte moet behoren. De normen moeten zodanig zijn dat een ondubbelzinnige kwantificering of kwalificering van het testresultaat mogelijk is. Dit heeft tot doel om de subjectiviteit van de onderzoeker zoveel mogelijk te reduceren.
Het is in het algemeen een langdurige en moeilijke opgave om de wetenschappelijke status na te gaan van testen.
-
Wetenschappelijke status van de Rorschach Inkblot Test
2.1 Inleiding
De Rorschach Inkblot Test (1921), die volgens de indeling van Lindsey tot de associatietechnieken behoort (Lilienfeld et al., 2000), had oorspronkelijk de bedoeling om de fantasie van kinderen te onderzoeken. Het is pas door toedoen van S. Hens, die met een eenvoudige vlekkentest psychiatrische patiënten onderzocht, dat Rorschach zijn Inkblot Test ontwikkeld heeft tot een algemene persoonlijkheidstest (de Zeeuw, 1995).
De Rorschach Inkblot Test maakt gebruik van 10 kartonnen kaarten waarop tegen een witte achtergrond een inktvlek, die ongeveer symmetrisch is, afgedrukt staat. 5 vlekken zijn enkel in zwart-wit weergegeven, terwijl de andere 5 vlekken ook kleur bevatten. De 10 kaarten worden na elkaar aangeboden en bij elke kaart wordt aan de onderzochte gevraagd ‘wat dit zou kunnen zijn’.[1][1] De antwoorden van de onderzochte worden nauwkeurig genoteerd (d.i. het protocol).[2][2] Vervolgens worden de antwoorden geformaliseerd in categorieën en gescoord met speciale lettersymbolen (d.i. signeren). Tenslotte volgt er een kwantificering (de Zeeuw, 1995).
Alhoewel de vereiste leeftijd 5 jaar bedraagt, wordt in de klinische praktijk de test nauwelijks gebruikt voor kinderen jonger dan 14 jaar. Lilienfeld et al. (2000) vermelden dat de afnameprocedure ongeveer 45 minuten in beslag neemt en dat ongeveer 2 uur besteed wordt aan het scoren en interpreteren van de antwoorden. De afnameprocedure kan meer of minder tijd in beslag nemen naargelang de toestand van de onderzochte en zijn neiging om veel of weinig antwoorden te geven. Ook de aanwezigheid van een bepaalde soort pathologie kan de afnametijd beïnvloeden. De afname gebeurt individueel tussen de patiënt en de afnameleider.
Verschillende benaderingen tegenover de ‘Rorschach technique’ (Aronow, Reznikow & Moreland, 1995) kunnen beschreven worden. Opvallend hierbij is het gebruik van het woord ‘Technique’ in plaats van ‘Test’ (zie verder). Aronow et al. (1995) beschrijven drie benaderingen die ontstaan door een combinatie van twee assen nl. de ideografisch-nomothetisch as en de perceptueel-inhoud as. De drie benaderingen zijn[3][3]: de perceptueel-nomothetische, de inhoud-nomothetische en de inhoud-ideografische. De nomothetische benadering heeft als doel het ontdekken van algemeen geldige wetten. De ideografische benadering daarentegen legt de nadruk op een grondige studie van de (relatieve) unieke kwaliteiten van het individu. Bij de perceptueel-inhoud as legt de perceptueel benadering de nadruk op hoe een subject de verschillende aspecten zoals locatie, vorm en determinanten waarneemt. De inhoud benadering neemt wat het subject waarneemt als het cruciale element.
De perceptueel-nomothetische benadering heeft zijn grondvesten in de visie van Hermann Rorschach. Aronow et al. (1995) citeren zijn werk Psychiadiagnostik (1912, 1942): “In scoring the answers given by subjects, the content is considered last. It is more important to study the function of perception and apperceptionâ€. De jaren na zijn publicatie neemt Rorschach echter een meer inhoudsgericht en projectief psycho-analytisch standpunt in. De scholen in Amerika daarentegen bleven nog lang trouw aan de oorspronkelijk perceptueel-nomothetische benadering.
De inhoud-nomothetische benadering beschrijven Aronow et al. (1995) in het kader van een enorme groei in het gamma van de inhoudsschalen voor scoring van de Rorschach rond 1940. Dit leidde tot een ‘boom’ van onderzoek op dit gebied in de jaren zestig en zeventig. Aronow et al. (1995) verwijzen hierbij naar hun eigen review (Aronow & Reznikoff, 1976). Deze verwijzing wordt hen niet in dank afgenomen door Ritzler (1995) omdat in de review geconcludeerd wordt dat scores op basis van inhoudsschalen krachtiger zijn dan perceptuele scores.
De inhoud-ideografische benadering tenslotte legt de focus op de inhoud van de antwoorden en bijkomende verbale informatie. Dit wordt dan beschouwd als toegangspoort tot de unieke wereld van het individu en in het bijzonder tot het zelfconcept van dat individu.
Aronow et al. (1995) nemen naast de beschrijving ervan, tegenover deze verschillende benaderingen een duidelijk standpunt in. De inhoud-ideografische benadering is volgens hen het meest consistent aan de visie van de Rorschach Inkblot Test als een projectieve techniek. Ze vinden dat deze benadering het meest tegemoet komt aan de ‘strenghts’ van de Rorschach. Daarom verkiezen ze in tegenstelling tot H. Rorschach zelf, de term ‘Technique’ in plaats van ‘Test’. In het licht van conceptuele helderheid reserveren ze de term ‘Test’ voor instrumenten die nomothetisch van aard zijn, terwijl ‘Technique’ volgens hen gebruikt wordt bij ideografisch georiënteerde instrumenten zoals de Rorschach.
Dit uitdrukkelijke standpunt werd echter onder vuur genomen. Ritzler (1995) schrijft dat deze inhoudsgerichte benadering onvoldoende de nadruk legt op het belang van informatie die verkregen wordt via een empirisch gefundeerde en gekwantificeerde methode van interpretatie van de Rorschach. Ook het argument dat de Rorschach in de eerste plaats een projectieve techniek is, wordt door Ritzler (1995) weerlegd.
Na Rorschach hebben anderen gepoogd een eigen scoringssysteem uit te werken.[4][4] Volgens Lilienfeld et al. (2000) echter werd de Rorschach Inkblot Test (1921) tijdens het midden van de vorige eeuw geregeld bestookt met wetenschappelijke kritieken. Deze kritieken verweten de Rorschach Inkblot Test (1921) een gebrek aan gestandaardiseerde afnameprocedures. Tevens beweerden deze kritieken dat de normen van de Rorschach Inkblot Test (1921) niet adequaat waren en dat enige sluitende evidentie voor de betrouwbaarheid en validiteit totaal ontbrak. Het is binnen deze context dat J.E. Exner zijn The Rorschach: A Comprehensive System (1974) ontwikkeld heeft. Exner had met zijn ‘Comprehensive System’ de bedoeling om de Rorschach Inkblot Test (1921) van een stevige wetenschappelijke en psychometrische basis te voorzien.
Belangrijk hierbij is de positie die Exner innam tegenover de Rorschach Inkblot Test. In tegenstelling tot Hermann Rorschach, bleef Exner trouw aan de aanvankelijke perceptueel-nomothetische benadering. Exner (vermeld in Aronow et al., 1995) beoordeelt de Rorschach Inkblot Test als ‘niet geschikt voor het verzamelen van projectieve data’. Volgens hem kan de Rorschach Inkblot Test bezwaarlijk een projectief instrument genoemd worden. Een logisch scenario bij deze houding, zou een poging zijn om het instrument om te vormen tot een zo objectief mogelijke test. Dit is juist wat ‘The Comprehensive System’ heeft proberen te verwezenlijken, aldus Aronow et al. (1995).
Om een goed beeld te krijgen van de wetenschappelijke status van de Rorschach Inkblot Test (1921) lijkt het ons dus aangewezen om de wetenschappelijke en psychometrische kwaliteiten van dit meest verbreide scoringssysteem te onderzoeken, nl. Exners Comprehensive System.
2.2 Wetenschappelijke status van het Comprehensive System
Volgens Lilienfeld et al. (2000) heeft Exners Comprehensive System de Rorschach voorzien van gedetailleerde (gestandaardiseerde) regels voor afname en scoring. Tevens heeft Exner ervoor gezorgd dat normeringstabellen voor kinderen en volwassenen voorhanden zijn. Tenslotte bestaat Exners bijdrage in het rapporteren van positieve resultaten van verschillende betrouwbaarheids- en validiteitsstudies.
Ondanks deze inspanningen van Exner blijven verschillende auteurs overtuigd van de lage psychometrische kwaliteiten van de Rorschach Inkblot Test (1921). In wat volgt bekijken en analyseren we de discussie tussen de voor- en tegenstanders van Exners Comprehensive System. Hierbij bespreken we de adequaatheid van de normen, de betrouwbaarheid en de validiteit. Tevens worden enkele hete hangijzers uit het onderzoek grondig besproken.
2.2.1 Normering
Opdat een testscore op een wetenschappelijke manier zou kunnen geïnterpreteerd worden, moet deze vergeleken worden met de scores van een referentiegroep. Bij de traditionele Rorschach Inkblot Test (1921) ontbreken dergelijke normeringsgegevens totaal. Exner heeft de Rorschach Inkblot Test (1921) voorzien van normeringsgegevens op basis van zijn eigen scoringssysteem voor Amerikaanse volwassenen en kinderen die geen deel uitmaken van de klinische patiëntenpopulatie. Verder heeft Exner ook statistische tabellen berekend voor verschillende klinische referentiegroepen, b.v. patiënten met schizofrenie.[5][5]
In de literatuur echter zijn deze normeringsgegevens van Exner onderwerp geweest van hevige kritiek. Op de eerste plaats opperen sommige auteurs het verwijt dat deze normeringsgegevens achterhaald zijn en dat ze gebaseerd zijn op een eerder kleine steekproef in vergelijking met gevestigde psychologische instrumenten zoals b.v. de WAIS en de MMPI-2. Een fundamenteler verwijt bestaat erin dat onderzoek aangewezen heeft dat de normeringsgegevens van Exner niet representatief zijn voor de Amerikaanse bevolking en dat ze de neiging tot overpathologisering vertonen, d.w.z. verschillende volwassenen die als normaal gepercipieerd worden, zijn buitengewoon pathologisch wanneer ze vergeleken worden met de normeringsgegevens van Exner.[6][6] In de literatuur omtrent de Rorschach Inkblot Test (1921) wordt hiervoor geen plausibele verklaring gegeven (Lilienfeld et al., 2000).
In de literatuur wordt ook melding gemaakt van het probleem van de culturele generaliseerbaarheid van Exners normeringsgegevens. Alhoewel voorstanders van de Rorschach Inkblot Test (1921) beweren dat deze test geschikt is voor het onderzoeken van Amerikaanse minderheden en niet-Amerikanen, kan er in de literatuur nauwelijks onderzoeksevidentie voor deze hypothese teruggevonden worden. Onderzoeksevidentie daarentegen die tegen de hypothese ingaat is massaal aanwezig. Tevens bestaat er zo goed als geen onderzoek naar de differentiële validiteit van Rorschach indexes over verschillende raciale en culturele groepen (Lilienfeld et al., 2000).
2.2.2 Betrouwbaarheid
Bij de studie van de betrouwbaarheid van Exners Comprehensive System maken we een onderscheid tussen interscorerbetrouwbaarheid (interrater reliability) en test-hertest-betrouwbaarheid. Onderzoek naar de homogeniteit of interne consistentie wordt bij de Rorschach Inkblot Test niet uitgevoerd (de Zeeuw, 1995).
2.2.2.1 Interscorerbetrouwbaarheid
Een voorwaarde om op een wetenschappelijk verantwoorde manier gebruik te maken van de Rorschach Inkblot Test bestaat erin dat verschillende codeerders tot dezelfde coderingen en conclusies moeten komen bij het signeren van eenzelfde protocol.
Lilienfeld et al. (2000) vermelden onderzoeksliteratuur waarin beweerd wordt dat de interscorerbetrouwbaarheid van de variabelen van het Comprehensive System uniform boven de 0.85 gelegen is. Deze gegevens worden ondersteund door verschillende tabellen die terug te vinden zijn in Exners boek uit 1993[7][7] waarin de interscorerbetrouwbaarheid berekend wordt in de vorm van percentage van overeenkomst (Wood, Nezworski & Stejskal, 1996a). Volgens de Zeeuw (1995) is Exner in zijn boek erg nauwgezet in het geven van gedetailleerde aanwijzingen voor de scoringen en lange lijsten met scoringsvoorbeelden. De auteur besluit dat mede hierdoor de interscorerbetrouwbaarheidsindices hoog zijn (0.90 en hoger voor de diverse variabelen). De auteur voegt er wel aan toe dat dit enkel geldt wanneer de Rorschach Inkblot Test (1921) afgenomen wordt door zeer geoefende diagnosten. De enorme complexiteit van Exners scoringssysteem wordt hier ter verantwoording ingeroepen.
Volgens Lilienfeld et al. (2000) echter bestaan er verschillende recente studies die aantonen dat slechts de helft van de variabelen van het Comprehensive System een interscorerbetrouwbaarheid, berekend d.m.v. kappa-coëfficiënten of intra-klasse-correlaties (zie later), bezitten van 0.85 of hoger. Tevens tonen deze studies aan dat de interscorerbetrouwbaarheidsindices van verschillende vaak gebruikte CS-variabelen, v.b. SCZI (indicator voor schizofrenie), Adjusted D (indicator voor zelfcontrole onder stress) en X-% (indicator voor perceptuele en mentale vervorming), eerder laag is.
Wood, Nezworski en Stejskal (1996a) hebben enkele fundamentele kritieken ten aanzien van Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen.
Als eerste kritiek opperen zij dat verschillende auteurs reeds aangetoond hebben dat het percentage overeenkomst in sommige gevallen een inadequate en misleidende maat is voor interscorerbetrouwbaarheid. Deze betrouwbaarheidsmaat maakt immers geen correctie voor overeenkomst bij toeval, wat soms kan leiden tot een overschatting van de ware interscorerbetrouwbaarheid. Het kan m.a.w. in sommige gevallen, b.v. bij een extreme basiskans van voorkomen van een variabele, voorkomen dat beoordelaars een vrij hoog percentage van overeenkomst bereiken, alhoewel ze een protocol totaal op toeval gecodeerd hebben.[8][8] Wood, Nezworski en Stejskal (1996a) raden dan ook aan om meer geschikte statistieken te gebruiken, zoals b.v. kappa-coëfficiënten, phi, Spearman’s rho of Pearson’s r, bij het berekenen van interscorerbetrouwbaarheidsindices.
De reacties op deze stelling gaan in drie richtingen. Een eerste reactie komt van Exner (1996) die stelt dat het probleem van het op toeval correct, d.w.z. de 2 beoordelaars onderkennen in een antwoord eenzelfde variabele, coderen enorm gereduceerd wordt door het feit dat ieder antwoord altijd gecodeerd wordt op tenminste vijf categorieën, dat iedere categorie uit verschillende variabelen bestaat en dat verschillende variabelen binnen één categorie gecodeerd kunnen worden voor een antwoord.
Een tweede reactie komt van Meyer (1997a) die erkent dat het percentage overeenstemming in sommige gevallen een inadequate maat voor interscorerbetrouwbaarheid is omdat deze maat de mate van geobserveerde overeenkomst niet corrigeert voor de mate van overeenkomst die puur op toeval kan verwacht worden. Volgens Gronnerod (1999) vertoont het percentage overeenkomst de neiging om, onafhankelijk van het werkelijke niveau van overeenkomst, te stijgen wanneer de basiskans van voorkomen daalt. Meyer (1997a) is het echter niet eens met de definitie van overeenkomst op toeval die Wood et al. (1996a) huldigen. Deze definitie is afgeleid van de kansdefinitie die gebruik wordt bij het berekenen van kappa-coëfficiënten, nl. de mate van overeenkomst die geobserveerd zou worden wanneer twee codeerders op toeval een reeks antwoorden zouden coderen voor een reeks variabelen waarvan men de basiskans op voorkomen kent. Het gebruik van kappa-coëfficiënten wordt echter door Meyer (1997a) op tweevoudige wijze bekritiseerd. Ten eerste stelt de auteur dat de codeerders meestal de basiskans van voorkomen van een variabele niet kennen. Wanneer twee codeerders nu onafhankelijk van elkaar tot het besluit komen dat een bepaalde variabele een extreem hoge of lage basiskans van voorkomen heeft dan wordt hun hoge mate van overeenkomst door de kappa-coëfficiënt als bijna volledig toevallig geïnterpreteerd. De kappa-coëfficiënt m.a.w. straft de codeerders door gebruik te maken van de extreme basiskans van voorkomen die zij onafhankelijk van elkaar zijn bekomen bij het coderen. Ten tweede haalt Meyer (1997a) het feit aan dat wanneer de basiskans van voorkomen zich verwijdert van 0.50, d.i. het punt van maximale variantie, eenzelfde kleine graad van niet-overeenkomst tussen codeerders de kappa-coëfficiënt sterker doet dalen. Wanneer er m.a.w. met een extreme basiskans van voorkomen gewerkt wordt, kan de kappa-coëfficiënt nooit een hoge interscorerbetrouwbaarheid aangeven. Wood, Nezworski en Stejskal (1997) verdedigen zich tegen Meyers aantekeningen door te wijzen op het feit dat er in de statistische literatuur een universele consensus bestaat dat het percentage overeenkomst geen correctie voor overeenkomst op toeval bevat, waardoor deze maat als index voor betrouwbaarheid inferieur is aan de kappa-coëfficiënt. Meyer (1997b) repliceert hierop door te stellen dat in sommige gevallen interscorerbetrouwbaarheidsschattingen op basis van de kappa-coëfficiënt inadequaat zijn. Volgens Gronnerod (1999) tenslotte is het belangrijk dat men bij de keuze van de maat voor het schatten van de interscorerbetrouwbaarheid rekening houdt met het type van data waarvan men de interscorerbetrouwbaarheid wil berekenen. Volgens hem is voor Rorschach data het percentage overeenkomst de meest gebruikelijke schattingsmethode. Deze maat kampt echter met het probleem van een extreme basiskans van voorkomen. Een switch naar de kappa-coëfficiënt is te overwegen, maar ook deze maat kampt met problemen, nl. sensitiviteit voor een lage basiskans van voorkomen. De auteur raadt aan om met correlaties, b.v. intra-klasse-correlaties, te werken.
Een derde reactie van Exner (1996) poogt de kritiek van Wood et al. te omzeilen door te argumenteren dat de methode die hij gebruikt heeft om de interscorerbetrouwbaarheidsindices te berekenen beter ‘percentage correct’ in plaats van ‘percentage overeenkomst’ zou genoemd worden. Wood, Nezworski en Stejskal (1996b) reageren hierop door te stellen dat het percentage correct, d.i. de mate van overeenkomst tussen een codeerder en de correcte coderingen, een maat is voor de accuraatheid van de codering en dat deze maat niet als evidentie kan aangebracht worden voor de interscorerbetrouwbaarheid. Zij concluderen dan ook dat, als Exner werkelijk het percentage correct heeft berekend i.p.v. percentage overeenkomst, de werkelijke interscorerbetrouwbaarheid van het Comprehensive System nog steeds onbekend is.
Een tweede kritiek van Wood, Nezworski en Stejskal (1996a) op Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen betreft het feit dat Exner primair percentages overeenkomst voor individuele antwoorden, b.v. het coderen van een bepaalde variabele op één antwoord, vermeldt i.p.v. totalen, b.v. het aantal malen dat een bepaalde variabele gecodeerd is geworden binnen één protocol. Het is immers op basis van deze totalen dat de Rorschach Inkblot Test klinisch geïnterpreteerd wordt. Volgens Meyer (1997a) echter is het belangrijker dat de interscorerbetrouwbaarheid van individuele antwoorden aangetoond wordt. Het doel van de interscorerbetrouwbaarheid bestaat er immers in om aan te tonen dat het Comprehensive System een systematisch en consequent coderingssysteem is. Vermits de coderingen toegekend worden op het niveau van individuele antwoorden is het erg belangrijk om interscorerbetrouwbaarheid te berekenen op dit niveau van individuele antwoorden. Meyer (1997a) beweert verder dat totalen niets meer zijn dan samengetelde coderingen van individuele antwoorden. Vermits toevallige coderingsfouten de tendens vertonen om gecompenseerd te worden wanneer zij worden samengesteld, kan aangenomen worden dat totalen per definitie meer betrouwbaar zijn dan coderingen voor individuele antwoorden. Wanneer men zich dus bij het berekenen van de interscorerbetrouwbaarheid enkel op totalen baseert, bekomt men een overschatting van de interscorerbetrouwbaarheid van de coderingen. Wood, Nezworski en Stejskal (1997) daarentegen beweren dat er geen enkel psychometrisch artikel of geen enkele gepubliceerde demonstratie bestaat waarin aangetoond wordt dat de interscorerbetrouwbaarheid van totalen noodzakelijk hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden. De reactie van Meyer (1997b) hierop is kort en krachtig, nl. er bestaan wel degelijk studies die aantonen dat de interscorerbetrouwbaarheid van totalen hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden.
Wood, Nezworski en Stejskal (1996a) wijzen erop dat er een onderscheid moet gemaakt worden tussen de ideale interscorerbetrouwbaarheid van een test en de veldinterscorerbetrouwbaarheid, d.i. de interscorerbetrouwbaarheid die aangetoond wordt door mensen in de praktijk. De auteurs halen een studie van Exner aan waarin de veldinterscorerbetrouwbaarheden verontrustend laag zijn. Exner (1996) reageert hierop door te stellen dat de resultaten van zijn onderzoek de aanleiding waren voor het verbeteren van de scoringscriteria voor bepaalde categorieën in latere werken. Een analoog onderzoek wees uit dat de percentages overeenkomst voor deze categorieën opmerkelijk verbeterd waren voor deze categorieën. Meyer (1997a) merkt verder op dat een lage veldinterscorerbetrouwbaarheid niet noodzakelijk betekent dat het coderingssysteem van het Comprehensive System onbetrouwbaar is. Er zijn immers verschillende factoren, die niets met de betrouwbaarheid van het scoringssysteem te maken hebben, die een lage veldinterscorerbetrouwbaarheid kunnen veroorzaken, b.v. slecht getrainde afnameleiders. Wood, Nezworski en Stejskal (1997) voegen hier echter ironisch aan toe dat het waar is dat men op basis van slecht afgenomen tests geen valide conclusies kan trekken m.b.t. de (ideale) interscorerbetrouwbaarheid van de test. Een valide conclusie, volgens deze auteurs, is wel dat de test, wanneer deze gebruikt wordt in een klinische setting, meer schade dan goed kan berokkenen.
2.2.2.2 Test-hertest-betrouwbaarheid
Volgens Lilienfeld et al. (2000) beweren voorstanders van de Rorschach Inkblot Test dat de test-hertest-betrouwbaarheid van verschillende variabelen van het Comprehensive System excellent is. In de literatuur echter kunnen er slechts voor 40% van de CS-variabelen studies teruggevonden worden waarin schattingen vermeld worden van de test-hertest-betrouwbaarheid van deze CS-variabelen.
Meyer (1997a) verwijt Wood et al. dat zij hun oordeel omtrent de interscorerbetrouwbaarheid van het Comprehensive System enkel baseren op twee, volgens Wood et al. (1996a) weinig overtuigende, interscorerbetrouwbaarheidsstudies. Volgens Meyer (1997a) heeft Exner in zijn boek voldoende overtuigende empirische argumenten aangehaald, in de vorm van test-hertest-coëfficiënten (bereik van 0.30 tot 0.90 en mediaanwaarde rond de 0.80), om de hypothese te ontkrachten dat codering met het CS op toeval verloopt. De kritiek op deze stelling van Exner loopt in twee richtingen.
Ten eerste beweert Lilienfeld et al. (2000) dat andere onderzoekers dan Exner steeds test-hertest-coëfficiënten voor CS-variabelen vinden die substantieel lager zijn dan deze van Exner. Lilienfeld et al. (2000) besluiten dat, wegens methodologische beperkingen i.v.m. test-hertest studies, de enige valide conclusie die men kan trekken is dat de test-hertest-betrouwbaarheid van de meeste CS-variabelen nog steeds een open vraag is die enkel kan opgelost worden d.m.v. verder onderzoek.
Ten tweede opperen Wood, Nezworski en Stejskal (1997) dat de gegevens, d.i. test-hertest-coëfficiënten, die Meyer aanhaalt op geen enkele wijze hun kritieken op de interscorerbetrouwbaarheid weerleggen. Hoge test-hertest-coëfficiënten kunnen immers niet als bewijs dienen voor hoge interscorerbetrouwbaarheidsindices omdat deze coëfficiënten niet de overeenkomst tussen codeerders onderzoeken. Meyer (1997b) stemt in met de opmerking dat test-hertest-coëfficiënten niet noodzakelijk gerelateerd zijn aan interscorerbetrouwbaarheidsindices. Lage test-hertest-coëfficiënten kunnen het gevolg zijn van zowel inconsiste scoring als van de natuur van het construct, d.i. sommige CS-variabelen kunnen veranderen over de tijd. Volgens de auteur echter vertonen de meeste studies dat de test-hertest-betrouwbaarheid van CS-variabelen excellent is. Vermits nu accurate codering deel uitmaakt van een retest-design, is het onmogelijk om hoge test-hertest-coëfficiënten te bekomen zonder reeds hoge interscorerbetrouwbaarheidsindices te hebben.
2.2.3 R-probleem
Lilienfeld et al. (2000) wijzen erop dat verschillende auteurs de afgelopen decennia aangetoond hebben dat R, d.i. het totale aantal antwoorden dat één onderzochte geeft op alle vlekken, gerelateerd is aan het totaal aantal keren dat een bepaalde CS-variabele in het protocol voorkomt. Vermits deze totalen de basis vormen voor klinische inferenties, hebben mensen met een hoge R meer kans om b.v. als agressief of depressief bestempeld te worden. Lilienfeld et al. (2000) voegen hier nog aan toe dan R hoger is in bepaalde culturele en educationele groepen en dat R positief gecorreleerd is met intelligentie. Hieruit concluderen deze auteurs dat bepaalde groepen van mensen een hoger totaal op bepaalde CS-variabelen en daardoor een hogere score voor bepaalde CS-indices van psychopathologie behalen, enkel omdat ze geneigd zijn meer antwoorden te geven op de aangeboden vlekken.
Lilienfeld et al. (2000) merken op dat sommige psychologen beweren dat men het R-probleem in het Comprehensive System kan elimineren door totalen te corrigeren voor R of door met ratio’s te werken. Wood, Nezworski en Stejskal (1996a) reageren hierop door te stellen dat er voor de meeste klinisch relevante scores en indices in het CS er niet, of slechts ten dele, gecorrigeerd wordt voor R (zie ook de bespreking van validiteit).
Volgens Lilienfeld et al. (2000) zijn er in de literatuur verschillende pogingen terug te vinden om het R-probleem op te lossen, b.v. het gebruiken van 45 inktvlekken en de onderzochte verplichten slechts één antwoord te geven of het houden bij de 10 oorspronkelijke inktvlekken en per inktvlek de onderzochte verplichten om juist 2 antwoorden te geven. Beide voorstellen echter werden maar met weinig succes in de literatuur onthaald. De meeste onderzoekers naar de Rorschach Inkblot Test en clinici immers blijken vol te houden dat het R-probleem niet bestaat, dat het geen belangrijke praktische gevolgen met zich meebrengt en dat het niet de moeite loont om oplossingen te zoeken voor het probleem (Lilienfeld et al., 2000).
2.2.4 Validiteit
Lilienfeld et al. (2000) onderscheiden voor het nagaan van de validiteit van de Rorschach Inkblot Test verschillende niveaus van benadering. Op deze verschillende niveaus is ook onze indeling voor de bespreking van validiteit gebaseerd. We beschrijven globale meta-analyses, specifieke meta-analyses, relaties met diagnoses en zelfrapporteringsgegevens, incrementele validiteit en tenslotte de factorstructuur van de Rorschach Inkblot Test.
2.2.4.1 Globale meta-analyses
Deze meta-analyses vergelijken de gemiddelde validiteit van verschillende tests. Meestal wordt de gemiddelde validiteit van de Rorschach Inkblot Test vergeleken met die van de MMPI (Minnesota Multiphasic Personality Inventory) en de WAIS (Wechsler Adult Intelligence Scale). In de literatuur (Garb, Florio & Grove, 1998, 1999; Hiller, Rosenthal, Bornstein, Berry & Brunell-Neuleib, 1999; Parker, Hanson & Hunsley, 1988) is een stevige discussie terug te vinden m.b.t. de methodologische aanpak en het trekken van conclusies bij de vergelijking van de validiteit van deze drie instrumenten.
Lilienfeld et al. (2000) formuleren vijf opmerkingen m.b.t. deze meta-analyses waarin ze de belangrijkste issues van de discussie in de literatuur weergeven. Ten eerste is de methodologische aanpak van deze meta-analyses erg zwak. Ten tweede wordt opgemerkt dat elk van deze meta-analyses uitsluitend zijn gebaseerd op gepubliceerde onderzoeken. Het probleem hierbij is dat gepubliceerde studies vaak veel grotere effecten rapporteren dan de niet gepubliceerde studies. Dit fenomeen staat bekend als het file drawer effect. Een derde -en in het kader van het spreken over validiteit- erg belangrijk probleem dat wordt vermeld is het feit dat globale meta-analyses of analyses per test weinig waarde hebben voor de klinisch toepassing, m.a.w. de validiteit van specifieke delen van een test of de validiteit van een specifieke toepassing kan met deze meta-analyses niet achterhaald worden (zie verder). Een vierde opmerking betreft de gemiddelde validiteitscoëfficiënten. In de globale meta-analyse van verschillende gepubliceerde studies convergeren de validiteitscoëfficienten van de Rorschach Inkblot Test op 0.30 (met een afwijking van plus of min 0.05). Dit zou er op kunnen wijzen dat enkele Rorschach indexen een matige validiteit hebben. Toch suggereren Lilienfeld et al. (2000) dat deze gemiddelde validiteitscoëfficiënt een overschatting is, te wijten aan de eerder besproken methodologische zwakheden en het file drawer effect. Als laatste wordt vermeld dat in het algemeen de gevonden gemiddelde validiteit van de Rorschach Inkblot Test lager is dan die van de WAIS. Andere meta-analyses suggereren bovendien dat de gemiddelde validiteit van de Rorschach Inkblot Test in het algemeen ook lager is dan voor de MMPI, hoewel de verschillen in dit geval niet erg groot zijn en in sommige studies zelfs niet statistisch significant. Opnieuw waarschuwen Lilienfeld et al. (2000) hier voor het uitsluitend gebruik van gepubliceerde studies en de verschillende methodologische tekortkomingen.
2.2.4.2 Specifieke meta-analyses
Zoals eerder reeds werd vermeld kunnen globale meta-analyses de validiteit van specifieke Rorschachscores voor specifieke doeleinden niet nagaan. In dit kader zijn de specifieke meta-analyses van belang. Hierbij concentreert men zich op de validiteit van de Rorschach Inkblot Test of een deel ervan bij gebruik in een specifieke context. Om begripsverwarring te voorkomen lijkt het ons daarom erg belangrijk om dit niet uit het oog te verliezen. Voor een instrument als de Rorschach Inkblot Test zou discussie in de literatuur veel efficiënter kunnen verlopen als er woorden worden gewisseld over dezelfde validiteit in dezelfde toepassing.
Strikt gesproken is het onjuist om te vragen of het Comprehensive System valied is of niet. Het systeem brengt een hele reeks percentages, ratio’s en scores voort en de validiteit zou moeten nagegaan worden voor elk apart. Geen enkel artikel kan de validiteit van alle scores in het systeem nagaan (Wood, Nezworski & Stejskal, 1996a).
Het is dus belangrijk om bij het onderzoek naar validiteit te focussen op een bepaalde subset van variabelen. Bij Wood et al. (1996a) ligt die focus op een aantal belangrijke klinische gegevens zoals psychologische symptomen of stoornissen, graad van functioneren of graad van stress omdat de validiteit van deze deelgebieden erg belangrijk is als je weet dat de Rorshach Inkblot Test in heel wat klinische settings als een diagnostisch instrument wordt gehanteerd. Zonder in te gaan op de betekenis van de afzonderlijke indexen vermelden we hier dat Wood et al. (1996a) concluderen dat zij voor The Egocentricity Index, Adjusted D, Depression Index en The Suïcide Constellation weinig of geen empirische evidentie voor validiteit hebben gevonden. Nochtans hebben deze scores allemaal een directe invloed op het nemen van beslissingen in een klinische context als de Rorschach Inkblot Test als een diagnostisch instrument wordt gebruikt.
Lilienfeld et al. (2000) vatten andere specifieke meta-analyses van de afgelopen decennia samen. Ook hun conclusies zijn weinig bemoedigend. Uit de convergentie van verschillende specifieke meta-analyses blijkt dat er uiteindelijk nog vier succesvolle scores kunnen worden gedistilleerd, nl. TDIR (Thought Disorder Index), SCZI (Schizophrenia Index), RPRS (Rorschach Prognostic Rating Scale) en ROD (Rorschach Oral Dependency Scale). Toch worden hierbij ook vier opmerkingen geformuleerd. Enkel de SCZI behoort tot het scoringssysteem van het Comprehensive System. De validiteit van de drie overblijvende scores doet dus feitelijk niet ter zake in onze bespreking van ‘The Comprehensive System’. Ten tweede is de methodologische kwaliteit van de onderzoeken die steun geven voor de validiteit van de ROD erg zwak. Ten derde worden er vragen gesteld bij de klinische praktijk. De RPRS bijvoorbeeld maakt gebruik van erg moeilijk te hanteren of omslachtige regels. Bij onderzoek naar de validiteit van de TDIR werd slechts gebruik gemaakt van op audiocassette opgenomen Rorschachsessies. Ten slotte zijn de normen voor de TDIR, de RPRS en de ROD niet representatief of recent genoeg. De hantering van de huidige normen voor de SCZI zorgt voor een onacceptabel hoog aantal vals positieven, vooral bij kinderen. Ondanks de bemoedigende hermeneutische en kwantitatieve reviews over deze indexen blijven er dus toch problemen met de toepassing in de klinische praktijk.
2.2.4.3 Relaties met diagnoses en zelfrapporteringsgegevens
Lilienfeld et al. (2000) beschrijven de nood aan degelijke wetenschappelijke literatuur als reactie op de contradicties van enkele voorstanders van de Rorschach. Weiner (1997) bijvoorbeeld beweerde nog dat de Rorschach Inkblot Test degelijke empirisch gevalideerde indexen bevat voor het diagnosticeren van bepaalde psychopathologieën. In zijn conclusie schrijft Weiner (1997) zelfs dat ondanks het ruime gebruik en de validering door clinici en onderzoekers, de Rorschach Inkblot Test nog steeds niet het welverdiende respect heeft gekregen als degelijk psychometrisch instrument.
Twee jaar later schrijft Weiner, (1999) in Lilienfeld et al. (2000) echter dat de Rorschach Inkblot Test geen diagnostische test is, dat ze niet ontworpen is als diagnostische test en in feite niet werkt als diagnostische test, zeker niet als met een diagnose een DSM diagnose bedoeld wordt.
Lilienfeld et al. (2000) citeren letterlijk de ‘abstract’ van een eigen artikel (Wood, Lilienfeld, Garb & Nezworski, 2000a) en concluderen dat ondanks enkele positieve bevindingen, de Rorschach Inkblot Test als diagnostisch instrument weinig blijk geeft van validiteit. De positieve bevindingen zijn dat voor een aantal DSM diagnosen een relatie gevonden werd met de uitkomst van de Rorschach.[9][9] De negatieve bevindingen zijn dat afwijkende bewoordingen gerelateerd worden aan schizofrenie of een bipolaire stoornis zodat deze diagnosen vaak worden gesteld terwijl dit met andere diagnostische instrumenten niet het geval zou zijn.
Wat betreft de indexen voor zelfrapportering besluiten Lilienfeld et al. (2000) dat ook hier geen consistente relaties met de Rorschach Inkblot Test kunnen gevonden worden. Sommige voorstanders van de Rorschach zoals bijvoorbeeld Stricker en Gold (1999) in Lilienfeld et al. (2000) argumenteren in zo’n geval dat overeenkomst niet zinvol of wenselijk is. Met zo’n argumentatie kan aldus Lilienfeld et al. (2000) elke negatieve bevinding over de Rorschach Inkblot Test afgewimpeld worden.
Ze besluiten dat het uitblijven van correlaties tussen de Rorschach Inkblot Test met diagnoses of indexen van zelfrapportering twijfel zaait over de validiteit van de Rorschach voor de meeste doeleinden.
2.2.4.3.1 2.2.4.3.1 Incrementele validiteit
Voor alle duidelijkheid vermelden we hier kort wat we in dit geval onder incrementele validiteit verstaan. De incrementele validiteit van een test is de informatie of validiteit die een test kan toevoegen aan reeds bestaande informatie. Een concrete vraag in een diagnostische setting zou bijvoorbeeld kunnen zijn: Is het nuttig de Rorschach Inkblot Test af te nemen naast de andere diagnostische instrumenten die we ter beschikking hebben? Aangezien de tijdrovende afname, scoring en interpretatie van de Rorschach Inkblot Test, zou men toch een zekere incrementele validiteit verwachten.
Ook hier geven Lilienfeld et al. (2000) een degelijk overzicht van verricht onderzoek ter zake. Ze maken hier een onderscheid tussen klinische beoordeling en statistische predictie. Bij de klinische beoordeling waren er zelfs enkele studies waarin de validiteit daalde als de Rorschach Inkblot Test werd toegegoegd. Lilienfeld et al. (2000) vinden het verantwoord te concluderen dat er weinig steun is voor het gebruik van de Rorschach Inkblot Test in klinische settings, zeker als andere beoordelingsinstrumenten beschikbaar zijn.
Wat de statistische predictie betreft wordt er voor enkele Rorschach scores steun voor incrementele validiteit gevonden. Lilienfeld et al. (2000) sommen zes gebieden op waarin er statistisch significant betere predicties kunnen worden gedaan als de Rorschach Inblot Test of bepaalde indexen ervan worden toegevoegd aan andere instrumenten. Toch wordt hierbij opgemerkt dat zulke statistische incrementele validiteit enkel klinische relevantie heeft als hierbij exclusief en heel precies de uitkomst van de statistische predictieregels wordt gevolgd. Dit gebeurt echter maar heel zelden. Bovendien is het gros van de Rorschach scores niet onderzocht.
Lilienfeld et al. (2000) concluderen dat voor bijna alle Rorschach scores en de CS scores er geen evidentie is voor incrementele validiteit bij vergelijking met andere psychometrische informatie.
2.2.4.4 De factorstructuur van de Rorschach scores
Factoranalyse helpt te zoeken naar verschillende dimensies die te onderscheiden zijn in de relaties tussen scores. Op deze manier kan worden nagegaan of deze dimensies dan ook overeenkomen met een patroon dat door de theorie voorspeld wordt. Lilienfeld et al. (2000) verwijzen naar vijf reviews en rapporteren in het kader van validiteit twee erg belangrijke bevindingen.
Ten eerste blijkt dat zeker de grootste factor en misschien ook de tweede grootste een hoge lading hebben op R. Deze bevinding bevestigt zoals eerder vermeld dat R een sterke invloed heeft op een groot deel van de Rorschach scores. Meyer (1989,1991) in Lilienfeld et al. (2000) stellen dat dit in sterke mate de validiteit van de Rorschach Inkblot Test compromitteert. Ze gaan zelfs zo ver dat ze elk onderzoek op het gebied van de Rorschach in vraag stellen omdat de meeste studies deze variabele R niet in rekening brengen.
Een tweede problematische bevinding is dat de verschillende Rorschach scores niet samenhangen of intercorreleren zoals op basis van de testtheorie of op basis van de kennis in de klinische praktijk zou verwacht worden.
2.3 Besluit
Het was de bedoeling van Rorschach om zijn Inkblot Test uit te werken tot een perceptueel-nomothetisch instrument waarmee persoonlijkheidskarakteristieken konden opgespoord worden. Volgens psychometrici echter bezit de Rorschach Inkblot Test niet de (psychometrische) capaciteiten om aan deze doelstelling te kunnen voldoen. Het Comprehensive System van Exner probeert, d.m.v. gedetailleerde regels voor afname en scoring, normeringsgegevens en studies omtrent validiteit en betrouwbaarheid, de psychometrische kwaliteiten van de Rorschach Inkblot Test te verbeteren. Deze poging van Exner wordt echter in de literatuur op een ambigue wijze onthaald.
De normeringsgegevens die Exner presenteert zijn, volgens verschillende auteurs, achterhaald, niet representatief en ze vertonen de neiging tot overpathologisering. Tevens beweren verschillende auteurs dat deze normeringsgegevens totaal niet generaliseerbaar zijn naar andere samenlevingen dan deze van de Amerikanen.
Verschillende auteurs hebben kritiek op de wijze waarop Exner zijn interscorerbetrouwbaarheidsindexen voor CS-variabelen berekende, nl. d.m.v. percentage overeenkomst. Zij stellen dat kappa-oëfficiënten en intra-klasse-correlaties betere maten zijn voor een schatting van de interscorerbetrouwbaarheid. De discussie tussen voor- en tegenstanders van het percentage overeenkomst als maat voor de schatting van de interscorerbetrouwbaarheid is echter nog steeds volop aan de gang. Tevens zijn er auteurs die beweren dat de interscorerbetrouwbaarheid van de totalen, i.p.v. de afzonderlijke coderingen, moet nagegaan worden. Ook op dit vlak is er nog steeds discussie. Tenslotte wijzen sommige auteurs op het onderscheid dat moet gemaakt worden tussen (ideale) interscorerbetrouwbaarheid en veldinterscorerbetrouwbaarheid.
Voor de hoge test-hertest-betrouwbaarheidindexen van verschillende CS-variabelen, zoals Exner deze vermeldt, wordt er in de literatuur nauwelijks evidentie gevonden. Uit onderzoek blijkt enerzijds dat slechts voor 40% van de CS-variabelen test-hertest-betrouwbaarheidsindexen berekend zijn en anderzijds dat andere auteurs dan Exner steeds schattingen voor de test-hertest-betrouwbaarheid van CS-variabelen bekomen die significant lager zijn dan deze van Exner.
Verschillende auteurs halen studies aan die aantonen dat de meeste CS-totalen gecorreleerd zijn met R. Vermits R significant hoger is in bepaalde groepen en positief gecorreleerd is met intelligentie hebben verschillende groepen van mensen een grotere kans om als pathologisch bestempeld te worden enkel omdat ze de neiging vertonen om meer antwoorden te geven op de aangeboden vlekken. Alhoewel er in de literatuur verschillende pogingen terug te vinden zijn om het R-probleem op te lossen, doen de meeste clinici en Rorschach-onderzoekers alsof het R-probleem niet bestaat.
Net zoals voor het wetenschappelijk onderzoek naar de betrouwbaarheid geldt ook voor het onderzoek naar de validiteit dat er in de literatuur heel wat discussies tussen voor- en tegenstanders van de Rorschach Inkblot Test te vinden zijn. Het problematische in dergelijke discussies is vaak het feit dat niet steeds dezelfde definities gehanteerd worden. Om dit probleem in deze paper te omzeilen, hebben we voor de bespreking van de validiteit van de Rorschach Inkblot Test een onderscheid tussen verschillende niveaus van benadering gemaakt. Globale meta-analyses stellen het probleem dat de validiteit van het instrument voor een specifiek doeleinde niet kan onderzocht worden. Ze vergelijken enkel de gemiddelde validiteit en tonen daarbij doorgaans lagere waarden dan de WAIS en de MMPI. Wegens grote methodologische tekortkomingen en het file drawer effect, moeten de resultaten van deze globale meta-analyses echter met een korreltje zout genomen worden.
Specifieke meta-analyses houden wel rekening met een bepaalde subset van variabelen en het gebruik in een specifieke context. Toch wordt hier besloten dat ondanks enkele schaarse positieve bevindingen m.b.t. de validiteit van een subset van variabelen er toch problemen blijven met de klinische toepassing. Het uitblijven van correlaties met diagnoses en zelfrapporteringsgegevens zaait bovendien ook twijfel over de validiteit van de Rorschach Inkblot Test. Wat de incrementele validiteit betreft, wordt geconcludeerd dat hiervoor tot nu toe nog geen empirische evidentie gevonden werd. Bij de bespreking van de factorstructuur tenslotte maakten we melding van vragen die gesteld worden bij de waarde van het onderzoek dat tot nu toe verricht werd naar de validiteit van de Rorschach Inkblot Test. Op R lijkt de grootste factor te laden en de verschillende variabelen van het instrument lijken onderling niet samen te hangen zoals voorspeld wordt door de theorie of de klinische praktijk.
3 Wetenschappelijke status van de Thematic Apperception Test (TAT)
3.1 Inleiding : De TAT algemeen
3.1.1 Achtergrond
De TAT is een constructietechniek ontwikkeld door H. Murray en C. Morgan in 1935. Een andere benaming is de plaatjes – interpretatie methode. Wanneer we een verhaal lezen, leren we niet alleen iets over de fictieve personages, maar ook iets over de auteur zelf. Deze observatie leidde Murray en Morgan tot de ontwikkeling van de TAT.
Murray ontwikkelde de TAT met een bepaalde persoonlijkheidstheorie in gedachten, namelijk dat het menselijk gedrag het resultaat is van psychobiologische factoren en omgevingsaspecten. Murray gaat er dus vanuit dat gedrag bepaald wordt door de combinatie van twee factoren. De gedragsreactie van een organisme kan steeds toegeschreven worden aan een hypothetische kracht, behoefte of nood (Eng. : need) binnen het organisme. Naast deze noden situeert Murray een aantal significante gedragsdeterminanten in de omgeving (Eng. : press). Een individu kent op elk moment een complexe integratie van needs en presses. De centrale notie in de dynamische persoonlijkheidstheorie van Murray is de need–press combination of het thema.
Er zijn volgens Murray 2 algemene psychische tendenties die leiden tot de mogelijkheid van dergelijk plaatjes/methode – onderzoek. Ten eerste is er de neiging van de mens om ambigue menselijke situaties te interpreteren in overeenstemming met zijn vroegere ervaringen. Ten tweede is er de tendentie om bij het schrijven of vertellen van een verhaal te putten uit ervaringen, hierdoor komen de onbewuste gevoelens en wensen aan de oppervlakte bovendrijven. Er wordt dus gereflecteerd over de behoeften, emoties, conflicten, … van de proefpersoon op bewust en op onbewust niveau. Men beweert ook dat de TAT info bezit over de denkorganisatie, emotionele responsiviteit, interpersoonlijke relaties, zelfconcept, coping mechanismen, … .
De eerste stap die in het analyse–systeem van Murray wordt gedaan, is het opsporen van de held in het verhaal. De volgende stap in de analyse is het opsporen in detail wat de helden op de verschillende platen voelen, denken, wensen of doen. Vervolgens gaat men op zoek naar de behoeften (needs b.v. dominantie, prestatie, hostiliteit…) van deze protagonisten. Er wordt hierbij een lijst van 28 aandriften gebruikt. Men moet dan de sterkte van de aandriften beoordelen in een zespuntsschaal. Op dezelfde manier wordt er gekeken naar de druk (Eng. : pressure) vanuit de omgeving op de held.
Er zijn enkele modificaties geweest tot in 1943 de huidige test met handleiding verscheen. De TAT is na de Rorschachtest de meest gebruikte projectietest. De TAT heeft weinig voorgeschiedenis. Er zijn ook veel varianten op de TAT ontstaan, o.a de Child Apperception Test, de Blacky Pictures Test, de Gerontological Apperception Test, … .
3.1.2 Vorm en afname
Men kan drie modificaties onderscheiden: (1) modificaties waarbij de oorspronkelijke TAT – platen van Murray worden gebruikt; (2) modificaties waarbij de afbeeldingen op één enkel principieel punt zijn gewijzigd; (3) modificaties waarbij alleen de hoofdinhoud van de bepaalde platen is behouden. De platen zijn in hoge mate polyinterpretabel. Het zijn immers ambigue afbeeldingen. De testopdracht is “Wat was de aanleiding tot de afgebeelde situatie, wat stelt deze voor, wat ging eraan vooraf en hoe loopt dit verder af ?â€.
De test bestaat uit 30 afbeeldingen en 1 blanco kaart. De afbeeldingen zijn deels ontleend aan tijdschriften, deels reproducties van bestaande schilderijen en deels tekeningen die speciaal zijn ontworpen voor de test (o.a door C. Morgan). Sommige platen kunnen aan alle proefpersonen voorgelegd worden, andere zijn meer geschikt voor bepaalde proefpersonen. Voor elke leeftijd en geslacht is er een reeks van 20 platen beschikbaar. De TAT is bruikbaar vanaf 7 jaar en vanaf 15 jaar kan men de platen voor mannen en vrouwen aanbieden. Niet al de 31 afbeeldingen zijn dus voor één individu bestemd, men gebruikt slechts enkele van de platen, omdat een volledige afneming zeer veel tijd kan vergen, de test moet immers mondeling worden afgenomen. De interpretatie is ook tijdrovend. Schriftelijke afneming is ook mogelijk. Behoudens bepaalde waardevolle observatiegegevens vb. stotteren, lange pauzes … levert dit dezelfde resultaten op als de mondelinge afneming.
De TAT wordt zeer veel gebruikt in klinische settings. Er is echter ook zeer veel kritiek op gekomen vanuit methodologisch onderzoek.
3.2. De TAT psychometrisch
3.2.1 Introductie
3.2.1.1 Problemen eigen aan de TAT
Het statuut van projectieve technieken in de kliniek is dus een fel bediscussieerde, hoewel op grote schaal toegepast werd erg veel kritiek geuit op hun psychometrische eigenschappen (zie ook supra). De Thematic Apperception Test (TAT) behoort, samen met ondermeer de Rorschach, tot de meest door klinische psychologen toegepaste instrumenten, zodat een grondige invraagstelling van de wetenschappelijke status een vereiste is.
In deze paragraaf beperken we ons tot de TAT, omdat deze test erg bekend is en enigszins als voorbeeld kan dienen, hoewel generaliseren delicaat zoniet onmogelijk is : tussen de diverse technieken onderling duiken er grote verschillen op qua bijvoorbeeld constructvaliditeit. Illustratief ter duiding van de ongelijkheden kan de taxonomische indeling van Lindzey zijn (Lindzey, 1959), die 5 subtypes onderscheidt in de projectieve technieken, waarbij de TAT hoort onder de categorie der constructie-technieken (Lindzey, 1959). Andere, naast constructvaliditeit, hier voorname factoren zijn predictieve validiteit, betrouwbaarheid (incorporeert test-hertest betrouwbaarheid, interbeoordelaarsbetrouwbaarheid en interne consistensie, zie verder onder ‘Betrouwbaarheid’), incrementele validiteit (in hoeverre levert een instrument extra informatie op, naast andere informatie afkomstig van b.v. zelf-rapportering?), en nut voor de behandeling (Lilienfeld et al., 2000).
Twee belangrijke bemerkingen bij dit alles: (a) Als men als methode een meta-analyse uitvoert, zal de zgn. publicatie-bias meespelen - er bestaat een selectieve tendens om negatieve bevindingen niet te publiceren, en de effectgrootte van gepubliceerde artikels is opmerkelijk groter dan die van ongepubliceerde. (b) In de klinische praktijk wordt zelden een standaard stimulusset gehanteerd, en hetzelfde geldt voor het gebruikte scoringssysteem. Dit gegeven is erg belangrijk, en zal het noodzakelijk maken om bij de psychometrie-bespreking een indeling volgens scoringsschema aan te houden. Alvarado (1994) geeft het belang aan van potentiële invloeden van kaart-inhoud, presentatievolgorde der kaarten, en vorm van de instructies. Daarom zouden onderzoekers steeds moeten nagaan of hun resultaten toe te schrijven zijn aan subjectkarakteristieken dan wel aan louter artefact zijn van de experimentele procedure. Verder vermelden Lilienfeld et al. (2000) het “Walter Mitty†effect en het inhibitie-effect, die inhouden dat respectievelijk hoge en lage niveau’s op een zeker attribuut kunnen te wijten zijn aan een bepaalde mate van fantaseren dat men een attribuut erg bezit (hoog) of een onderdrukken van de expressie van een attribuut (laag). In beide gevallen wordt het waarheidsgehalte van het door het subject verhaalde verlaagd. Daartegenover kunnen we in navolging van Cramer (1999) benadrukken dat de TAT narratief van aard is, en dat het verhaal van de verteller een constructie van de realiteit is, en niet louter een reconstructie.
3.2.1.2 Klinische validiteit versus onderzoeksvaliditeit
Ondanks de kritiek wordt de TAT nog veel toegepast, en wordt hij onder clinici als nuttig ervaren. Men zou kunnen zeggen dat afdoende empirische ondersteuning van de ‘klinische validiteit’ (Alvarado, 1994) nog moet gerealiseerd worden, maar dat de test daarentegen wel reeds een soort subjectieve validiteit heeft verworven, in de mate dat de TAT bruikbare informatie oplevert over de emotionele responsen van subjecten op afbeeldingen van bepaalde conventionele menselijke situaties. De kracht van de TAT zou dan schuilen in wat hij aan verborgen materiaal openbaart, gegevens die men via meer directe methodes niet zou kunnen of willen mededelen.
Voor onderzoeksdoeleinden kan de TAT beschouwd worden als een vorm van observationeel gedrag, en scoringssystemen moeten dan bijvoorbeeld toelaten op gedrag gebaseerde vergelijkingen tussen groepen te maken.
3.2.2 Indeling volgens scoringsschema
Zoals reeds vermeld, zijn de gehanteerde scoringsschema’s, voorzover ze überhaupt gebruikt wórden, heel uiteenlopend. De meeste clinici interpreteren de TAT op een impressionistische wijze, zich baserend op klinische beoordeling en intuïtie. Daarom is het goed volgens enige representatieve scoringstechnieken in te gaan op psychometrische bevindingen. Er zijn een drietal aanpakken ter systematische TAT-scoring die veelbelovend zijn gebleken : (1) behoeftescoring schema’s, (2) nagaan van objectrelaties, en (3) nagaan van defensiemechanismen (vb. Cramer: de Defense Mechanisms Manual, 1991).
Het standaardiseren van de TAT, wat ondermeer het gebruik van voorgeschreven scoringsschema’s inhoudt, lijkt geen prioriteit te zijn in het werkveld. Nochtans, o.m. Garb (1998) wijst op het gegeven dat zogenaamde experten vaak niet accurater zijn in hun gestelde intuïtieve diagnoses dan andere beoordelaars. De auteur benadrukt dan ook de nood aan een volwaardiger TAT-training in psychologie-opleidingen, teneinde een betere integratie van wetenschap en praktijk te verwezenlijken. De resultaten van empirisch onderzoek zouden het onderricht in de afname en scoring van de TAT moeten sturen, en meer éénvormigheid zou normatieve data mogelijk maken.
Hoezeer bij onderzoek (in de pracktijk is de situatie nog schrijnender) bij afname aangewende sets platen van elkaar kunnen verschillen werd overtuigend geïllustreerd door Keiser & Prather (1990), die alle TAT-artikels over een tijdspanne van 10 jaren heen verschenen in het vaktijdschrift ‘Psychological Abstracts’ nakeken (69 stuks waren beschikbaar voor het onderzoek) : slechts 26 studies specifieerden de Murray-kaarten met nummer, bij de andere ontbrak deels informatie daarover, of er werden andere platen gehanteerd. Bijna één derde der studies vermeldde helemaal niets dienaangaande.
3.2.3 Behoeftescoring
Het bekendste scoreschema gericht op behoeftescoring is dat van McClelland, Atkinson, Clarke en Lowell (1953), om prestatiebehoefte (Eng. : need for achievement) na te gaan. De geschreven verhalen van de respond