NWO doet dubbelblind onderzoek naar beoordelingsprocedure Open Competitie ENW-M
De beoordelingsprocedure die NWO hanteert binnen de Open Competitie van het wetenschapsdomein Exacte en Natuurwetenschappen (hierna: ENW-M) is integer. Dat is de conclusie van een wetenschappelijk gefundeerd onderzoek betreffende het ENW-M programma binnen de Open Competitie.
De beoordelingsprocedure die NWO hanteert binnen de Open Competitie van het wetenschapsdomein Exacte en Natuurwetenschappen (hierna: ENW-M) is integer. Dat is de conclusie van een wetenschappelijk gefundeerd onderzoek betreffende het ENW-M programma binnen de Open Competitie. NWO ziet in de resultaten geen aanleiding voor grote aanpassingen in het beoordelingsproces van het betreffende programma, maar wel mogelijkheden het beoordelingsproces op punten verder te verbeteren.
Als wetenschapsfinancier heeft NWO de taak om via competitie het beste onderzoek in Nederland te selecteren. Wetenschappers en onderzoeksinstellingen kunnen een aanvraag indienen voor financiering van onderzoeksprojecten zodra NWO een oproep publiceert om onderzoeksvoorstellen in te dienen. Bij het toekennen van onderzoeksbeurzen is kwaliteit altijd doorslaggevend: de financier laat de kwaliteit van het onderzoeksvoorstel en de verwachte wetenschappelijke of maatschappelijke impact beoordelen. Dit gebeurt op uitnodiging van NWO door een externe wetenschappelijke commissie, bestaande uit experts op het thema. Er is daarbij ook de mogelijkheid om aanvullende externe experts – zogenaamde referenten – te vragen om een oordeel te vellen. Uit de beoordelingsprocedure volgt een rangschikking, waarbij de beste onderzoeksvoorstellen worden gehonoreerd. Jaarlijks worden zo’n 8.000 onderzoeksvoorstellen beoordeeld, waarbij duizenden wetenschappers als beoordelaar betrokken zijn.
Dubbelblind onderzoek
Aanleiding van het onderzoek naar de beoordelingsprocedure van ENW-M binnen de Open Competitie was een herbeoordeling van een ronde van dit programma, omdat de oorspronkelijke beoordeling ongeldig was verklaard. Na de herbeoordeling bleek een aantal verschillen tussen de prioriteringen van de nieuwe en de oude beoordelingscommissie groter dan verwacht. Dit was voor ENW aanleiding om naar het deel van de beoordelingsprocedure waarbij de commissie betrokken is te kijken op basis van een wetenschappelijk gefundeerde onderzoeksmethode. Eind 2024 is dit onderzoek afgerond.
Het doel van het onderzoek was om te onderzoeken in hoeverre de beoordelingsprocedure door commissies in dit programma leidt tot een reproduceerbare uitkomst. Er is een dubbelblind onderzoek opgezet, waarbij dezelfde set onderzoeksvoorstellen en referentenrapporten door twee verschillende commissies is beoordeeld. De uitkomsten van elke set van twee commissies zijn volgens verschillende methodes en uitgangspunten vergeleken en geanalyseerd om te bepalen hoe betrouwbaar de commissies de aanvragen prioriteren. In samenwerking met onderzoekers van TU Delft (prof. dr. Geurt Jongbloed en collega’s) is daarnaast op basis van historische data een statistisch model ontwikkeld om te achterhalen welke mate van overeenstemming in prioriteringen verwacht mag worden bij verschillende beoordelingen; het is immers mensenwerk. Tot slot is samen met de betrokken commissieleden ook een inhoudelijke analyse van de verschillen in prioriteringen gemaakt.
Uitkomsten
Dit alles leidde tot de volgende uitkomsten:
De verschillende ranglijsten (voortkomend uit de dubbelblinde beoordelingen) met prioriteringen van de beste tot de slechtste onderzoeksvoorstellen laten verschillen zien, maar hebben ook redelijke overeenkomst in de belangrijkste secties. De 20% van de voorstellen die als beste en de 20% die als slechtste worden beoordeeld, zijn vrij consistent geïdentificeerd. De verschillen die zich voordoen, manifesteren zich vooral in het middelste deel van de ranglijst.
Het statistische model van de TU Delft laat zien dat de waargenomen verschillen tussen de prioriteringen over het algemeen in lijn der verwachting liggen. Verder bewijst het model dat de overeenstemming tussen de commissies uit het dubbelblind onderzoek in alle gevallen beter is dan de overeenstemming tussen twee willekeurige rangschikkingen.
De verschillen in prioritering door commissieleden zijn veelal gebaseerd op een verschil in interpretatie van commissieleden, bijvoorbeeld over concepten zoals high-risk/high-gain, of op een verschil in waardering van het weerwoord.
De waargenomen verschillen in de rangschikking zijn veelal al terug te vinden in de voorlopige prioriteringen die gebaseerd zijn op de initiële individuele scores, voordat de commissies bijeenkwamen. Slechts in een enkel geval lijkt groepsdynamiek binnen de commissie, bijvoorbeeld één dominant commissielid in de discussie, een doorslaggevende rol gespeeld te hebben.
Op basis van het onderzoek is vast te stellen dat de reproduceerbaarheid van de beoordeling door commissies hoog genoeg is. De procedure van beoordeling door commissies binnen ENW-M kan daarmee als integer beschouwd worden. NWO ziet in de resultaten geen aanleiding voor ingrijpende aanpassingen in het beoordelingsproces van het betreffende programma, maar onderkent dat er ruimte is om de betrouwbaarheid verder te optimaliseren. NWO erkent dat beoordelingsprocedures door commissies gepaard gaan met moeilijke keuzes over toe- en afwijzingen van aanvragen, waarvan wordt uitgegaan dat deze volledig objectief zijn. Echter, het beoordelen van aanvragen blijft uiteindelijk mensenwerk waar een bepaalde mate van willekeur in kan zitten.
NWO zet op basis van de uitkomsten van het rapport in op optimalisatie van de instructies voor de beoordelingscommissies en zal meer heldere definities van de beoordelingscriteria formuleren. Daarnaast zal NWO verkennen of het gebruik van score-rubrics, in eerste instantie specifiek voor ENW-M, bij kan dragen aan het verminderen van interpretatieverschillen en definitiekwesties ten aanzien van de criteria. Rubrics zijn hulpmiddelen bij de beoordeling door een commissie waarbij een commissielid op een duidelijke manier per aspect van het beoordelingscriterium diens oordeel kan aangeven en zo tot een totale beoordeling van het criterium kan komen. NWO zal de komende maanden aan de slag gaan met deze aanpassingen.