Validatieprotocol: STOPP-NL V2

Versie 1.0.0 -- mei 2026

1. Doel

Klinische validatie (pilot) van de STOPP-NL V2 analyse in Remedice: bevestigen dat de software potentieel ongeschikte medicatie bij ouderen correct identificeert, vergeleken met het oordeel van een klinisch apotheker.

2. Type studie

Fase 1: Encoding verificatie (100% review van de criteria-database) Fase 2: Klinische pilot-validatie (retrospectief cohort)

3. Fase 1 - Encoding verificatie

3.1 Methode

Twee onafhankelijke klinisch apothekers reviewen alle criteria in stop-v2.json tegen de gepubliceerde STOPP-NL V2 paper (O'Mahony et al., 2015, Nederlandse adaptatie door Ephor).

3.2 Beoordelingscriteria per criterium

Zijn de juiste ATC-prefixen opgenomen?
Is de logica (AND/AND_NOT/leeftijd) correct geimplementeerd?
Komt de beschrijving overeen met het gepubliceerde criterium?
Zijn er criteria die ontbreken in de JSON?

3.3 Procedure

Apotheker A en B ontvangen elk een overzicht van alle criteria in stop-v2.json naast de gepubliceerde STOPP-NL V2 criteria
Beide beoordelen onafhankelijk; per criterium: markering als correct, fout, of ontbrekend
Discrepanties worden besproken tot consensus
Alle bevindingen worden gedocumenteerd in een reviewformulier
Gevonden fouten worden gecorrigeerd voor Fase 2

3.4 Acceptatiecriterium

100% concordantie na correctie. Alle gevonden fouten worden gecorrigeerd voor Fase 2.

4. Fase 2 - Klinische pilot-validatie

4.1 Studiedesign

Retrospectief cohort (pilot). Vergelijking van Remedice STOPP-NL V2 output met handmatige beoordeling door een klinisch apotheker (gold standard).

4.2 Populatie

Inclusiecriteria: patiënten >= 65 jaar, >= 5 chronische geneesmiddelen (polyfarmacie), beschikbaar medicatieprofiel uit AIS
Exclusiecriteria: Onleesbare of onvolledige medicatieprofielen
Werving: Geanonimiseerde medicatieprofielen uit een deelnemende apotheek

4.3 Steekproefgrootte

n = 60 patiënten

4.3.1 Analyseniveau

De primaire analyse vindt plaats op criterium-patient niveau: elke combinatie van een STOPP-criterium en een patient is een observatie-eenheid. Dit is de gangbare methode in STOPP/START-validatiestudies (Gallagher et al., 2011; Lang et al., 2010) en levert een aanzienlijk groter aantal observaties op dan een patient-niveau analyse.

4.3.2 Verwachte aantallen (literatuuronderbouwing)

Parameter	Schatting	Bron
Prevalentie >= 1 STOPP-trigger per patient	50-65%	Gallagher et al. (2011), Ryan et al. (2009)
Gemiddeld aantal triggers per patient (bij trigger)	2.5-4.0	O'Mahony et al. (2015), Hill-Taylor et al. (2013)
Totaal verwachte triggers (60 patiënten)	90-180	60 * 0.55 * 3.0 = 99 (conservatief)

Bij 60 patiënten met polyfarmacie (>= 5 medicijnen, 65+) is de verwachting:

~33-39 patiënten met ten minste 1 STOPP-trigger (55-65%)
~100-180 criterium-patient triggers in totaal (conservatieve schatting: 120)

4.3.3 Precisieberekening (primair)

De steekproefgrootte is gebaseerd op een precisie-benadering: het 95%-betrouwbaarheidsinterval rond de geschatte sensitiviteit moet smal genoeg zijn om klinisch betekenisvolle conclusies te trekken.

Op criterium-patient niveau (n_eff = ~120 positieve observaties):

Waargenomen sensitiviteit	95% BI (Clopper-Pearson)	Ondergrens	Conclusie t.o.v. drempel 85%
108/120 (90.0%)	[83.2%, 94.7%]	83.2%	Ondergrens dicht bij drempel
114/120 (95.0%)	[89.4%, 98.1%]	89.4%	Ondergrens > drempel
102/120 (85.0%)	[77.3%, 90.9%]	77.3%	Ondergrens < drempel -- niet aangetoond

Bij een werkelijke sensitiviteit van 90% (verwacht voor een deterministisch systeem met geverifieerde encoding) is de ondergrens van het 95% BI (83.2%) dicht bij de acceptatiedrempel van 85%. Bij 95% sensitiviteit ligt de ondergrens ruim boven de drempel.

Op patient-niveau (n_eff = ~36 patiënten met triggers):

Waargenomen sensitiviteit	95% BI (Clopper-Pearson)	Ondergrens
33/36 (91.7%)	[77.5%, 98.2%]	77.5%
34/36 (94.4%)	[81.3%, 99.3%]	81.3%

Het patient-niveau BI is breder (inherent aan kleinere n) en wordt als secundaire analyse gerapporteerd.

4.3.4 Powerberekening (secundair)

Ter aanvulling een formele powerberekening voor een eenzijdige exacte binomiale toets op criterium-patient niveau:

H0: sensitiviteit <= 0.70 (klinisch onacceptabel)
H1: sensitiviteit = 0.90 (verwacht op basis van deterministisch systeem + geverifieerde encoding)
Alpha: 0.05 (eenzijdig)
n_eff: 120 positieve observaties

Bij n = 120 en alpha = 0.05 (eenzijdig) is het kritieke aantal k = 92 (P(X >= 92 | n=120, p=0.70) = 0.044). De power om H0 te verwerpen bij werkelijke sensitiviteit van 0.90 is P(X >= 92 | n=120, p=0.90) > 0.99.

Zelfs bij een conservatievere werkelijke sensitiviteit van 0.85 is de power P(X >= 92 | n=120, p=0.85) = 0.93.

Conclusie: Met ~120 verwachte positieve observaties is de power om een klinisch onacceptabele sensitiviteit (<= 70%) uit te sluiten zeer hoog (> 99% bij werkelijke sensitiviteit 90%; > 93% bij 85%).

4.3.5 Clustereffect-overweging

De criterium-patient observaties zijn niet volledig onafhankelijk: meerdere triggers uit dezelfde patient delen hetzelfde medicatieprofiel en dezelfde comorbiditeiten. Bij een conservatief geschat intra-cluster correlatiecoefficient (ICC) van 0.05 en gemiddeld 3 triggers per patient met trigger is het design-effect DE = 1 + (3-1) * 0.05 = 1.10. De effectieve steekproef daalt daarmee van ~120 naar ~109 positieve observaties. Dit heeft een marginaal effect op de BI-breedte en wijzigt de conclusies uit sectie 4.3.3 en 4.3.4 niet substantieel. De effectieve steekproef wordt meegenomen in de rapportage.

4.3.6 Onderbouwing als pilot

Ondanks de adequate power op criterium-patient niveau, wordt deze studie als pilot gepositioneerd vanwege:

Per-criteriumgroep analyse: Met ~120 triggers verdeeld over de ~55 criteria in stop-v2.json zijn er onvoldoende observaties per individueel criterium voor betrouwbare per-criterium sensitiviteitsschattingen. Dit vereist een grotere steekproef in post-market surveillance.
Enkele bron: De patiënten komen uit een enkele apotheek. Generalisatie naar andere populaties/AIS-systemen vereist uitbreiding.
Regulatory context: Voor een Klasse IIa medisch hulpmiddel (MDR) is een pilot-validatie met post-market uitbreidingsplan een geaccepteerde route bij eerste marktintroductie (conform MDCG 2020-1 en MEDDEV 2.7/1 rev. 4).

De uitbreiding van de steekproef is opgenomen in het post-market surveillance plan.

4.4 Gold standard

Apotheker A beoordeelt alle 60 medicatieprofielen handmatig op STOPP-NL V2 criteria, zonder kennis van de Remedice-output (geblindeerd). Dit is de primaire gold standard.
Apotheker B beoordeelt een willekeurige subset van 30 profielen (eveneens geblindeerd) voor inter-rater reliability. Subset opgehoogd van 20 naar 30 (versie 1.2) om kappa-BI te verkleinen; bij verwacht ~3 triggers per patient met trigger levert dit ~50-60 criterium-patient observaties op.
Inter-rater agreement wordt zowel op patient-niveau (binaire uitkomst per patient) als op criterium-patient niveau (elke trigger is een observatie) gerapporteerd. De criterium-patient analyse is statistisch krachtiger.
Discrepanties tussen A en B op de subset worden besproken tot consensus en gedocumenteerd.

4.5 Uitvoering

Medicatieprofielen worden ingevoerd in Remedice
Per patient wordt de Remedice STOPP-output geregistreerd (lijst van getriggerde criteria)
Per patient wordt de gold standard geregistreerd
Vergelijking op criterium-niveau en op patient-niveau

4.6 Meetpunten

Meetpunt	Definitie
Overall sensitiviteit	TP / (TP + FN) over alle criterium-patient combinaties
Overall specificiteit	TN / (TN + FP)
Positief voorspellende waarde (PPV)	TP / (TP + FP)
Inter-rater agreement	Cohen's kappa op de 30-subset (Apotheker A vs. B)

4.7 Acceptatiecriteria

Criterium	Drempel
Overall sensitiviteit	>= 85%
Overall specificiteit	>= 70%
PPV	>= 70%
Inter-rater agreement (kappa)	>= 0.70 (substantieel)

De specificiteitsdrempel van 70% voorkomt dat het systeem klinisch acceptabel wordt verklaard op basis van hoge sensitiviteit alleen. Bij een decision-support tool is overcalling (lagere specificiteit) minder kritisch dan undercalling (lagere sensitiviteit), maar een specificiteit onder 70% zou leiden tot signaal-moeheid bij de apotheker en daarmee de bruikbaarheid ondermijnen.

Bij niet-halen: oorzaakanalyse per fout-negatief/fout-positief, correctie, en hertest op de betreffende cases.

4.8 Pre-gespecificeerde afwijkingscategorieen

Elke fout-positief en fout-negatief uit Fase 2 wordt verplicht aan een van de volgende categorieen toegewezen. Deze categorieen worden vooraf vastgelegd zodat de oorzaakanalyse niet ad-hoc verloopt en zodat patronen tussen V-studies vergelijkbaar blijven.

Categorie	Definitie
Encoding-fout	Het criterium in `stop-v2.json` wijkt af van de gepubliceerde STOPP-NL V2 paper (ATC-prefix verkeerd, leeftijdsgrens onjuist, AND/AND_NOT verkeerd ingesteld). Te corrigeren in Fase 1 of bij hervalidatie.
Parser-fout (V1b root cause)	De medicatieregel waarop het criterium had moeten triggeren is niet of incorrect geparseerd. Het probleem ligt in V1b en niet in V2.
Klinische context ontbreekt	Het criterium vereist informatie die niet in het medicatieprofiel staat (bv. "vallen in anamnese"). Structurele beperking; geen software-fout.
Interpretatieverschil	Apotheker en algoritme komen tot verschillende klinische interpretatie van een grensgeval. Niet noodzakelijk fout; documenteer en bespreek tot consensus.
Software-bug	De code in `analyses/start_stop.py` past de logica niet correct toe ondanks correcte encoding. Hoogste prioriteit voor fix.
Labwaarde ontbreekt	Criterium met labwaarde-vereiste; data niet beschikbaar in de invoer. Patient is voor dit criterium niet-evalueerbaar (zie 4.9).

4.9 Bekende beperkingen

STOPP-criteria met labwaarde-vereiste: Criteria die nierfunctie of andere labwaarden vereisen, kunnen alleen worden geevalueerd als deze labwaarden beschikbaar zijn in de invoer. patiënten zonder beschikbare labwaarden worden voor deze criteria als "niet-evalueerbaar" geclassificeerd en apart gerapporteerd.
Criteria met klinische context: Sommige STOPP-criteria vereisen informatie die niet uit het medicatieprofiel afleidbaar is (bijv. "vallen in anamnese"). Deze worden gedocumenteerd als structurele beperkingen.
Inter-rater subset: Apotheker B beoordeelt 30 van de 60 profielen (50%). De kappa-schatting heeft daardoor een redelijke precisie op criterium-patient niveau (~50-60 observaties); uitbreiding van inter-rater data volgt in post-market surveillance.
Pilot-omvang: De steekproef is te klein voor betrouwbare per-criteriumgroep analyse. Uitbreiding volgt in post-market surveillance.

5. Rapportage

Het resultatenrapport bevat:

Demografische kenmerken (leeftijd, aantal medicijnen)
2x2 kruistabel overall
Sensitiviteit, specificiteit, PPV met 95% betrouwbaarheidsintervallen
Analyse van fout-negatieven en fout-positieven met oorzaak
Lijst van structurele beperkingen
Conclusie: voldoet/voldoet niet aan acceptatiecriteria
Aanbevelingen voor post-market surveillance (uitbreiding steekproef, tweede beoordelaar)

Automatisering

Het structurele deel van Fase 1 (encoding-integriteit: unieke ids, categorie, omschrijving, geldige ATC/ICPC-velden) is geautomatiseerd in backend/features/medicatiebeoordeling/tests/test_validation_v2_stopp_encoding.py; het rapport landt in tests/validation_reports/V2-fase1.md. De inhoudelijke 100%-encoding-review en de klinische pilot (Fase 2) blijven een beoordeling door twee onafhankelijke klinisch apothekers. De bijbehorende statistiek (sensitiviteit/specificiteit met Clopper-Pearson, Cohen's kappa) staat klaar in tests/clinical_scoring.py.