Validatieprotocol: STOPP-NL V2
Versie 1.0.0 -- mei 2026
1. Doel
Klinische validatie (pilot) van de STOPP-NL V2 analyse in Remedice: bevestigen dat de software potentieel ongeschikte medicatie bij ouderen correct identificeert, vergeleken met het oordeel van een klinisch apotheker.
2. Type studie
Fase 1: Encoding verificatie (100% review van de criteria-database) Fase 2: Klinische pilot-validatie (retrospectief cohort)
3. Fase 1 - Encoding verificatie
3.1 Methode
Twee onafhankelijke klinisch apothekers reviewen alle criteria in stop-v2.json tegen de gepubliceerde STOPP-NL V2 paper (O'Mahony et al., 2015, Nederlandse adaptatie door Ephor).
3.2 Beoordelingscriteria per criterium
- Zijn de juiste ATC-prefixen opgenomen?
- Is de logica (AND/AND_NOT/leeftijd) correct geimplementeerd?
- Komt de beschrijving overeen met het gepubliceerde criterium?
- Zijn er criteria die ontbreken in de JSON?
3.3 Procedure
- Apotheker A en B ontvangen elk een overzicht van alle criteria in
stop-v2.jsonnaast de gepubliceerde STOPP-NL V2 criteria - Beide beoordelen onafhankelijk; per criterium: markering als correct, fout, of ontbrekend
- Discrepanties worden besproken tot consensus
- Alle bevindingen worden gedocumenteerd in een reviewformulier
- Gevonden fouten worden gecorrigeerd voor Fase 2
3.4 Acceptatiecriterium
100% concordantie na correctie. Alle gevonden fouten worden gecorrigeerd voor Fase 2.
4. Fase 2 - Klinische pilot-validatie
4.1 Studiedesign
Retrospectief cohort (pilot). Vergelijking van Remedice STOPP-NL V2 output met handmatige beoordeling door een klinisch apotheker (gold standard).
4.2 Populatie
- Inclusiecriteria: Patienten >= 65 jaar, >= 5 chronische geneesmiddelen (polyfarmacie), beschikbaar medicatieprofiel uit AIS
- Exclusiecriteria: Onleesbare of onvolledige medicatieprofielen
- Werving: Geanonimiseerde medicatieprofielen uit een deelnemende apotheek
4.3 Steekproefgrootte
n = 60 patienten
4.3.1 Analyseniveau
De primaire analyse vindt plaats op criterium-patient niveau: elke combinatie van een STOPP-criterium en een patient is een observatie-eenheid. Dit is de gangbare methode in STOPP/START-validatiestudies (Gallagher et al., 2011; Lang et al., 2010) en levert een aanzienlijk groter aantal observaties op dan een patient-niveau analyse.
4.3.2 Verwachte aantallen (literatuuronderbouwing)
| Parameter | Schatting | Bron |
|---|---|---|
| Prevalentie >= 1 STOPP-trigger per patient | 50-65% | Gallagher et al. (2011), Ryan et al. (2009) |
| Gemiddeld aantal triggers per patient (bij trigger) | 2.5-4.0 | O'Mahony et al. (2015), Hill-Taylor et al. (2013) |
| Totaal verwachte triggers (60 patienten) | 90-180 | 60 * 0.55 * 3.0 = 99 (conservatief) |
Bij 60 patienten met polyfarmacie (>= 5 medicijnen, 65+) is de verwachting:
- ~33-39 patienten met ten minste 1 STOPP-trigger (55-65%)
- ~100-180 criterium-patient triggers in totaal (conservatieve schatting: 120)
4.3.3 Precisieberekening (primair)
De steekproefgrootte is gebaseerd op een precisie-benadering: het 95%-betrouwbaarheidsinterval rond de geschatte sensitiviteit moet smal genoeg zijn om klinisch betekenisvolle conclusies te trekken.
Op criterium-patient niveau (n_eff = ~120 positieve observaties):
| Waargenomen sensitiviteit | 95% BI (Clopper-Pearson) | Ondergrens | Conclusie t.o.v. drempel 85% |
|---|---|---|---|
| 108/120 (90.0%) | [83.2%, 94.7%] | 83.2% | Ondergrens dicht bij drempel |
| 114/120 (95.0%) | [89.4%, 98.1%] | 89.4% | Ondergrens > drempel |
| 102/120 (85.0%) | [77.3%, 90.9%] | 77.3% | Ondergrens < drempel -- niet aangetoond |
Bij een werkelijke sensitiviteit van 90% (verwacht voor een deterministisch systeem met geverifieerde encoding) is de ondergrens van het 95% BI (83.2%) dicht bij de acceptatiedrempel van 85%. Bij 95% sensitiviteit ligt de ondergrens ruim boven de drempel.
Op patient-niveau (n_eff = ~36 patienten met triggers):
| Waargenomen sensitiviteit | 95% BI (Clopper-Pearson) | Ondergrens |
|---|---|---|
| 33/36 (91.7%) | [77.5%, 98.2%] | 77.5% |
| 34/36 (94.4%) | [81.3%, 99.3%] | 81.3% |
Het patient-niveau BI is breder (inherent aan kleinere n) en wordt als secundaire analyse gerapporteerd.
4.3.4 Powerberekening (secundair)
Ter aanvulling een formele powerberekening voor een eenzijdige exacte binomiale toets op criterium-patient niveau:
- H0: sensitiviteit <= 0.70 (klinisch onacceptabel)
- H1: sensitiviteit = 0.90 (verwacht op basis van deterministisch systeem + geverifieerde encoding)
- Alpha: 0.05 (eenzijdig)
- n_eff: 120 positieve observaties
Bij n = 120 en alpha = 0.05 (eenzijdig) is het kritieke aantal k = 92 (P(X >= 92 | n=120, p=0.70) = 0.044). De power om H0 te verwerpen bij werkelijke sensitiviteit van 0.90 is P(X >= 92 | n=120, p=0.90) > 0.99.
Zelfs bij een conservatievere werkelijke sensitiviteit van 0.85 is de power P(X >= 92 | n=120, p=0.85) = 0.93.
Conclusie: Met ~120 verwachte positieve observaties is de power om een klinisch onacceptabele sensitiviteit (<= 70%) uit te sluiten zeer hoog (> 99% bij werkelijke sensitiviteit 90%; > 93% bij 85%).
4.3.5 Clustereffect-overweging
De criterium-patient observaties zijn niet volledig onafhankelijk: meerdere triggers uit dezelfde patient delen hetzelfde medicatieprofiel en dezelfde comorbiditeiten. Bij een conservatief geschat intra-cluster correlatiecoefficient (ICC) van 0.05 en gemiddeld 3 triggers per patient met trigger is het design-effect DE = 1 + (3-1) * 0.05 = 1.10. De effectieve steekproef daalt daarmee van ~120 naar ~109 positieve observaties. Dit heeft een marginaal effect op de BI-breedte en wijzigt de conclusies uit sectie 4.3.3 en 4.3.4 niet substantieel. De effectieve steekproef wordt meegenomen in de rapportage.
4.3.6 Onderbouwing als pilot
Ondanks de adequate power op criterium-patient niveau, wordt deze studie als pilot gepositioneerd vanwege:
- Per-criteriumgroep analyse: Met ~120 triggers verdeeld over de ~55 criteria in
stop-v2.jsonzijn er onvoldoende observaties per individueel criterium voor betrouwbare per-criterium sensitiviteitsschattingen. Dit vereist een grotere steekproef in post-market surveillance. - Enkele bron: De patienten komen uit een enkele apotheek. Generalisatie naar andere populaties/AIS-systemen vereist uitbreiding.
- Regulatory context: Voor een Klasse IIa medisch hulpmiddel (MDR) is een pilot-validatie met post-market uitbreidingsplan een geaccepteerde route bij eerste marktintroductie (conform MDCG 2020-1 en MEDDEV 2.7/1 rev. 4).
De uitbreiding van de steekproef is opgenomen in het post-market surveillance plan.
4.4 Gold standard
- Apotheker A beoordeelt alle 60 medicatieprofielen handmatig op STOPP-NL V2 criteria, zonder kennis van de Remedice-output (geblindeerd). Dit is de primaire gold standard.
- Apotheker B beoordeelt een willekeurige subset van 30 profielen (eveneens geblindeerd) voor inter-rater reliability. Subset opgehoogd van 20 naar 30 (versie 1.2) om kappa-BI te verkleinen; bij verwacht ~3 triggers per patient met trigger levert dit ~50-60 criterium-patient observaties op.
- Inter-rater agreement wordt zowel op patient-niveau (binaire uitkomst per patient) als op criterium-patient niveau (elke trigger is een observatie) gerapporteerd. De criterium-patient analyse is statistisch krachtiger.
- Discrepanties tussen A en B op de subset worden besproken tot consensus en gedocumenteerd.
4.5 Uitvoering
- Medicatieprofielen worden ingevoerd in Remedice
- Per patient wordt de Remedice STOPP-output geregistreerd (lijst van getriggerde criteria)
- Per patient wordt de gold standard geregistreerd
- Vergelijking op criterium-niveau en op patient-niveau
4.6 Meetpunten
| Meetpunt | Definitie |
|---|---|
| Overall sensitiviteit | TP / (TP + FN) over alle criterium-patient combinaties |
| Overall specificiteit | TN / (TN + FP) |
| Positief voorspellende waarde (PPV) | TP / (TP + FP) |
| Inter-rater agreement | Cohen's kappa op de 30-subset (Apotheker A vs. B) |
4.7 Acceptatiecriteria
| Criterium | Drempel |
|---|---|
| Overall sensitiviteit | >= 85% |
| Overall specificiteit | >= 70% |
| PPV | >= 70% |
| Inter-rater agreement (kappa) | >= 0.70 (substantieel) |
De specificiteitsdrempel van 70% voorkomt dat het systeem klinisch acceptabel wordt verklaard op basis van hoge sensitiviteit alleen. Bij een decision-support tool is overcalling (lagere specificiteit) minder kritisch dan undercalling (lagere sensitiviteit), maar een specificiteit onder 70% zou leiden tot signaal-moeheid bij de apotheker en daarmee de bruikbaarheid ondermijnen.
Bij niet-halen: oorzaakanalyse per fout-negatief/fout-positief, correctie, en hertest op de betreffende cases.
4.8 Pre-gespecificeerde afwijkingscategorieen
Elke fout-positief en fout-negatief uit Fase 2 wordt verplicht aan een van de volgende categorieen toegewezen. Deze categorieen worden vooraf vastgelegd zodat de oorzaakanalyse niet ad-hoc verloopt en zodat patronen tussen V-studies vergelijkbaar blijven.
| Categorie | Definitie |
|---|---|
| Encoding-fout | Het criterium in stop-v2.json wijkt af van de gepubliceerde STOPP-NL V2 paper (ATC-prefix verkeerd, leeftijdsgrens onjuist, AND/AND_NOT verkeerd ingesteld). Te corrigeren in Fase 1 of bij hervalidatie. |
| Parser-fout (V1b root cause) | De medicatieregel waarop het criterium had moeten triggeren is niet of incorrect geparseerd. Het probleem ligt in V1b en niet in V2. |
| Klinische context ontbreekt | Het criterium vereist informatie die niet in het medicatieprofiel staat (bv. "vallen in anamnese"). Structurele beperking; geen software-fout. |
| Interpretatieverschil | Apotheker en algoritme komen tot verschillende klinische interpretatie van een grensgeval. Niet noodzakelijk fout; documenteer en bespreek tot consensus. |
| Software-bug | De code in analyses/start_stop.py past de logica niet correct toe ondanks correcte encoding. Hoogste prioriteit voor fix. |
| Labwaarde ontbreekt | Criterium met labwaarde-vereiste; data niet beschikbaar in de invoer. Patient is voor dit criterium niet-evalueerbaar (zie 4.9). |
4.9 Bekende beperkingen
- STOPP-criteria met labwaarde-vereiste: Criteria die nierfunctie of andere labwaarden vereisen, kunnen alleen worden geevalueerd als deze labwaarden beschikbaar zijn in de invoer. Patienten zonder beschikbare labwaarden worden voor deze criteria als "niet-evalueerbaar" geclassificeerd en apart gerapporteerd.
- Criteria met klinische context: Sommige STOPP-criteria vereisen informatie die niet uit het medicatieprofiel afleidbaar is (bijv. "vallen in anamnese"). Deze worden gedocumenteerd als structurele beperkingen.
- Inter-rater subset: Apotheker B beoordeelt 30 van de 60 profielen (50%). De kappa-schatting heeft daardoor een redelijke precisie op criterium-patient niveau (~50-60 observaties); uitbreiding van inter-rater data volgt in post-market surveillance.
- Pilot-omvang: De steekproef is te klein voor betrouwbare per-criteriumgroep analyse. Uitbreiding volgt in post-market surveillance.
5. Rapportage
Het resultatenrapport bevat:
- Demografische kenmerken (leeftijd, aantal medicijnen)
- 2x2 kruistabel overall
- Sensitiviteit, specificiteit, PPV met 95% betrouwbaarheidsintervallen
- Analyse van fout-negatieven en fout-positieven met oorzaak
- Lijst van structurele beperkingen
- Conclusie: voldoet/voldoet niet aan acceptatiecriteria
- Aanbevelingen voor post-market surveillance (uitbreiding steekproef, tweede beoordelaar)