Gütemaße und Kriterien bei der Anwendung von Propensity Scores

mibe000257 10.3205/mibe000257 urn:nbn:de:0183-mibe0002573 Übersichtsarbeit Gütemaße und Kriterien bei der Anwendung von Propensity Scores Quality measures and criteria for the application of propensity scores Kuß Kuß Oliver O Dr.

Institut für Biometrie und Epidemiologie, Deutsches Diabetes-Zentrum (DDZ), Auf’m Hennekamp 65, 40225 Düsseldorf, DeutschlandInstitut für Biometrie und Epidemiologie, Deutsches Diabetes-Zentrum (DDZ), Leibniz-Zentrum für Diabetes-Forschung an der Heinrich-Heine-Universität Düsseldorf, DeutschlandCentre for Health and Society (chs), Medizinische Fakultät der Heinrich-Heine-Universität Düsseldorf, Deutschland

oliver.kuss@ddz.de author Strobel Strobel Alexandra A

Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät der Martin-Luther-Universität Halle-Wittenberg, Halle, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 Propensity Scores 20240105 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 1860-9171 20 GMS Medizinische Informatik, Biometrie und Epidemiologie GMS Med Inform Biom Epidemiol 01 Propensity Scores (PS) haben sich in den letzten Jahren als eine valide Alternative zu herkömmlichen Regressionsmodellen bei der Auswertung von nichtrandomisierten Behandlungsstudien etabliert. PS-Analysen werden in zwei Schritten durchgeführt. Im ersten Schritt wird der PS, also die Wahrscheinlichkeit, mit der ein Individuum die zu prüfende Behandlung erhält, geschätzt. Im zweiten Schritt erfolgt die Schätzung des eigentlich interessierenden Behandlungseffekts unter Zuhilfenahme des PS. Die Güte einer PS-Analyse ist im Wesentlichen davon abhängig, ob es im ersten Schritt gelingt, eine hinreichende Balanciertheit der PatientInnenmerkmale in den Behandlungsgruppen zu erreichen. Nur dann ist gewährleistet, dass diese PatientInnenmerkmale nicht die Schätzung des Behandlungseffekts verzerren. Zur Messung dieser Balanciertheit wurden verschiedene Maße vorgeschlagen, z.B. die standardisierte Differenz oder die z-Differenz. Eng verwandt mit der Balanciertheit der PatientInnenmerkmale und damit auch ein Maß für die Güte eines PS-Modells ist die Überlappung („overlap“), also die Ähnlichkeit der Verteilung der geschätzten PS in den beiden Behandlungsgruppen. In Wertebereichen des PS ohne Overlap, in denen sich unter Umständen also nur Beobachtungen aus einer der beiden Behandlungsgruppen finden, ist streng genommen ein Vergleich der Behandlungen gar nicht möglich. In diesem Beitrag werden die beiden Konzepte anhand eines Beispiels aus der Herzchirurgie vorgestellt und diskutiert. Propensity scores (PS) have been established as a valid alternative to conventional regression models when evaluating non-randomized treatment studies. The PS describes the probability for an individual to receive a treatment, conditional on a set of observed covariates. PS analyses are performed in two steps. In the first step, the PS is generally estimated via logistic regression. In the second step, the actual treatment effect is estimated. The quality of a PS analysis depends on whether it is possible to achieve a sufficient balance of the patient characteristics in the treatment groups in the first step. This is the only way to ensure that these patient characteristics do not bias the estimate of the treatment effect. Various measures have been proposed to measure this balance, e.g. the standardized difference or the z-difference. Closely related to the balance of patient characteristics (and thus also a measure of the quality for a PS model) is the overlap, i.e. the similarity in the distribution of the estimated propensity scores in the two treatment groups. A valid comparison of the treatments is only possible in regions of sufficient overlap. In this article, the two concepts of balance and overlap are presented and discussed using an example from cardiac surgery. EinleitungPropensity Scores (PS) haben sich in den letzten Jahren als eine valide Alternative zu herkömmlichen Regressionsmodellen bei der Auswertung von nichtrandomisierten Behandlungsstudien herausgestellt. Gründe für diese Entwicklung sind sowohl im statistischen als auch im erkenntnistheoretischen Bereich zu suchen, wobei in letzterem die explizite Einbettung von PS in die Theorie der kausalen Inferenz dessen Annahmen und Voraussetzungen klarer und transparenter macht. Der PS wurde 1983 von Rosenbaum & Rubin eingeführt und beschreibt die Wahrscheinlichkeit, mit der ein Individuum eine zu prüfende Behandlung erhält.PS-Analysen werden in zwei Schritten durchgeführt. Im ersten Schritt wird der PS für jedes Individuum in der Regel mit einem logistischen Regressionsmodell geschätzt. Im zweiten Schritt erfolgt dann die Schätzung des eigentlich interessierenden Behandlungseffekts unter Zuhilfenahme des PS, z.B. durch PS-Matching oder durch Gewichtung für den PS . Balanciertheit und Overlap als Maße für die Güte eines Propensity-Score-ModellsZur Messung der Güte eines PS-Modells werden im Allgemeinen zwei Größen herangezogen: Balanciertheit und Overlap. Während die Balanciertheit die Ähnlichkeit der Verteilung der PatientInnenmerkmale in beiden Behandlungsgruppen beschreibt, wird durch den Overlap die Ähnlichkeit der Verteilung des Propensity Scores in beiden Behandlungsgruppen charakterisiert. Balanciertheit und Overlap sind wichtige Gütemaße, da nur bei deren Vorliegen valide Aussagen über den Behandlungseffekt im Sinne der Theorie der kausalen Inferenz gemacht werden können , . Die Wichtigkeit dieser beiden Maße wird heuristisch klar, wenn man eine PS-Analyse mit einer 1:1-randomisierten klinischen Studie („randomised controlled trial“=RCT) vergleicht. In einem RCT ist die Balanciertheit nahezu perfekt, da die Verteilung der PatientInnenmerkmale durch Randomisierung in den Behandlungsgruppen nicht nur ähnlich, sondern sogar identisch ist, zumindest für hinreichend große Fallzahlen. Auch bezüglich des Overlaps ist ein RCT optimal, da der PS für jedes Individuum bekannt und insbesondere gleich ist (d.h. PS=½). Die Verteilung des PS in den beiden Behandlungsgruppen ist daher ebenfalls identisch. Auf eine einfache Formel gebracht: Je besser die Balanciertheit und der Overlap, umso ähnlicher ist eine PS-Analyse einem RCT und umso geringer ist das Risiko, dass die Ergebnisse durch die beobachteten Kovariablen verzerrt sind.Andere Gütemaße für PS-Modelle, wie z.B. der Hosmer-Lemeshow-Test oder die c-Statistik, sind dagegen weniger geeignet . Ein hoher Wert der c-Statistik ist z.B. weder notwendig noch hinreichend für eine gute Confounderadjustierung . Statistische Tests sollten ebenso mit Vorsicht betrachtet werden, weil deren Ergebnisse im Wesentlichen von der Stichprobengröße abhängig sind (Imai et al. nennen die Verwendung dieser die „balance test fallacy“): In großen Stichproben werden auch irrelevante Abweichungen bei der Balanciertheit statistisch signifikant sein; in kleinen Stichproben werden relevante Imbalancen nicht entdeckt. Der Vollständigkeit halber sei darauf hingewiesen, dass in einer PS-Analyse nicht nur Balanciertheit und Overlap hinreichend gut sein müssen, um valide kausale Aussagen bezüglich Behandlungen machen zu können. Es gibt darüber hinaus noch eine Reihe von weiteren Annahmen in der Theorie der kausalen Inferenz (Positivität, Abwesenheit von unbekannten Confoundern, keine Interferenz zwischen PatientInnen, s. z.B. ), die dafür erfüllt sein müssen. Maße zur kovariablenspezifischen und zur globalen Balanciertheitsmessung: Die z-Differenz und die Summe der quadrierten z-DifferenzenUm die Balanciertheit der einzelnen PatientInnenmerkmale zu beurteilen, wird häufig empfohlen, die standardisierte Differenz zu berechnen . Diese ist definiert als die Differenz der Mittelwerte oder Anteile in beiden Gruppen, dividiert durch eine gemeinsame Standardabweichung. In der Regel wird ein Wert von 10% oder weniger vorgeschlagen, um eine zufriedenstellende Balanciertheit anzuzeigen . Die standardisierte Differenz hat jedoch mindestens zwei Nachteile. Zum einen hängt deren Verteilung von der Stichprobengröße ab . Zum anderen ist es nicht möglich, standardisierte Unterschiede für PatientInnenmerkmale auf verschiedenen Skalen zu vergleichen. Austin verwendet zum Beispiel den phi-Koeffizienten für binäre Kovariablen und findet, dass eine standardisierte Differenz von 10% bei einer stetigen Kovariablen ungefähr einem phi-Koeffizienten von 5% bei einer binären Kovariablen entspricht. Des Weiteren existieren bisher für ordinale oder nominale Kovariablen keine standardisierten Differenzen.Ein Maß, das demgegenüber für metrische, binäre und ordinale Merkmale definiert und auf derselben Skala vergleichbar ist, ist die z-Differenz . Für diese wird das jeweilige Unterschiedsmaß (Mittelwertdifferenz, Risikodifferenz, Wilcoxon-Statistik) durch seinen Standardfehler geteilt (z-Standardisierung). Ein Vorteil der z-Differenz ist, dass deren Wert in einer gematchten PS-Analyse mit zwei Referenzpunkten verglichen werden kann. In einem RCT sind die z-Differenzen standard-normalverteilt (N(0,1)) und in einer (im Sinne von Rubin & Thomas , ) perfekt gematchten Studie N(0,½)-verteilt. Inzwischen liegt auch eine Weiterentwicklung der z-Differenzen für gewichtete PS-Analysen und eine z-Differenz für nominale Merkmale vor .Die Summe der quadrierten z-Differenzen (SSQzDiff) kann zudem als globales (d.h. über alle Kovariablen aggregiertes) Maß zur Balanciertheitsmessung verwendet werden: Wenn die z-Differenzen von k Merkmalen standard-norm</PlainText></TextGroup>alverteilt sind, dann ist die Summe der quadrierten <TextGroup><PlainText>z-D</PlainText></TextGroup>ifferenzen, SSQ<Subscript>zDiff</Subscript>, Chi-quadrat-verteilt mit k Freiheitsgraden. Dieser Zusammenhang gilt allerdings nur approximativ, da für eine exakte Gültigkeit die z-Differenzen der einzelnen Kovariablen unabhängig sein müssten, was im Allgemeinen nicht gegeben sein wird. Durch diese Definition erhält man für die SSQ<Subscript>zDiff</Subscript> zwei Referenzwerte, die zur Optimierung eines PS-Modells bzgl. der Balanciertheit herangezogen werden können: In einem RCT ist der Erwartungswert der SSQ<Subscript>zDiff</Subscript> gleich k, in einer perfekt gematchten PS-Studie gleich k/2.</Pgraph></TextBlock> <TextBlock linked="yes" name="Ein Beispiel aus der Herzchirurgie"> <MainHeadline>Ein Beispiel aus der Herzchirurgie</MainHeadline><SubHeadline>Daten</SubHeadline><Pgraph>Zur Darstellung von Balanciertheit und Overlap verwenden wir ein Beispiel aus einer publizierten PS-Analyse in der Aortenklappenchirurgie <TextLink reference="15"></TextLink>. Grundlage der Studie waren PatientInnen, denen zwischen Juli 2009 und Juli 2017 am Herz- und Diabeteszentrum NRW in Bad Oeynhausen eine neue Aortenklappe eingesetzt wurde. In der Originalpublikation wurde die konventionelle offene Operation (Ministernotomie, MIC, N=1.929) mit zwei katheterba<TextGroup><PlainText>s</PlainText></TextGroup>ierten Behandlungen (transapikal, TA, N=607 und transfemoral, TF, N=1.273) verglichen. Aus Gründen der Übersichtlichkeit beschränken wir uns hier auf den Vergleich von MIC und TA, sodass der Analyse 2.536 Beobachtungen zugrunde liegen. Die Entscheidung bzgl. der Auswahl zwischen MIC und TA wurde nichtrandomisiert durch Konsens des TAVI-Teams (unter Beteiligung von Kardiochirurgie, Kardiologie und Anästhesiologie) getroffen. Als primärer klinischer Outcome wurde die Zeit bis zum Tod der PatientInnen im Follow-up gewählt; die mediane Beobachtungszeit betrug dabei 36,1 Monate.</Pgraph><Pgraph>Dieses Beispiel ist dahingehend extrem, dass es zwei Behandlungen vergleicht, die in sehr unterschiedlichen Gruppen von PatientInnen durchgeführt werden. Die katheterbasierte Implantation der Aortenklappe verzichtet im Gegensatz zur Ministernotomie auf eine Öffnung der Brust (Sternotomie), wodurch ein wesentlich kränkeres Kollektiv von PatientInnen („high risk patients“) diese Behandlung erhalten kann.</Pgraph><SubHeadline>Methoden</SubHeadline><Pgraph>Für die Auswertung wurde im ersten Schritt zur Schätzung des PS-Modells ein logistisches Regressionsmodell mit insgesamt 23 präspezifizierten Kovariablen berechnet. Im zweiten Schritt und zur Schätzung des Behandlungseffekts für den klinischen Outcome wurde zunächst ein PS-Matching mit Matching-Ratio 1:1 unter Verwendung eines „optimal matching algorithm“ für den logit-transformierten PS <TextLink reference="16"></TextLink> durchgeführt. Die Caliperweite wurde (verblindet für den klinischen Outcome) so festgelegt, dass die SSQ<Subscript>zDiff</Subscript> über alle 23 Kovariablen minimal war.</Pgraph><SubHeadline>Ergebnisse</SubHeadline><Pgraph>Einen Eindruck über die Unterschiede der PatientInnenmerkmale in beiden Gruppen im vollen Datensatz, d.h. vor dem PS-Matching, erhält man aus Tabelle 1 <ImgLink imgNo="1" imgType="table"/>, in der exemplarisch die Merkmale Alter, Nierenfunktion (gemessen als „estimated Glomerular Filtration Rate“ (eGFR)) und Vorliegen von Diabetes dargestellt sind. Die PatientInnen in der TA-Gruppe waren wesentlich älter, hatten eine schlechtere Nierenfunktion (niedrigere eGFR) und eine höhere Diabetesprävalenz. Die immensen Unterschiede zwischen den beiden PatientInnengruppen über alle <TextGroup><PlainText>23 K</PlainText></TextGroup>ovariablen zusammengefasst zeigen sich im Wert der SSQ<Subscript>zDiff</Subscript>. Hier wird vor dem PS-Matching ein Wert von 6.460,37 beobachtet, der um Größenordnungen höher ist, als man diesen aus einem RCT (erwartete SSQ<Subscript>zDiff</Subscript>=23) oder gar aus einer perfekt gematchten PS-Studie (erwartete SSQ<Subscript>zDiff</Subscript>=23/2=11,5) erwarten würde. Nach dem PS-Matching mit optimaler Caliperweite wird die Balanciertheit einer perfekt PS-gematchten Studie mit dem Wert von SSQ<Subscript>zDiff</Subscript>=12,01 nahezu erreicht. Auch die Unterschiede zwischen beiden PatientInnengruppen bzgl. Alter, Nierenfunktion und Diabetesprävalenz sind dann klinisch irrelevant. In Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> ist der Verlauf des Optimierungsprozesses für die Caliperweite graphisch dargestellt. Es zeigt sich, dass mit einer sorgfältigen, datengestützten Auswahl der Caliperweite die Balanciertheit der Kovariablen relevant verbessert bzw. optimiert werden kann. </Pgraph><Pgraph>Parallel zur Balanciertheit der Kovariablen ist durch das PS-Matching auch ein guter Overlap entstanden (Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Die Verteilungen des Logit(PS), die vor dem PS-Matching (Abbildung 2a <ImgLink imgNo="2" imgType="figure"/>) deutlich separiert sind, sind nach dem PS-Matching nicht mehr zu unterscheiden (Abbildung 2b <ImgLink imgNo="2" imgType="figure"/>). </Pgraph><Pgraph>Mit der Optimierung von Balanciertheit und Overlap geht notwendigerweise eine Veränderung der PatientInnenpo<TextGroup><PlainText>p</PlainText></TextGroup>ulation in der PS-gematchten Stichprobe einher. Dies betrifft zum einen die Fallzahl, die von 2.536 auf 308 zurückgeht, zum anderen die klinischen Eigenschaften der Population. Das mittlere Alter in der PS-gematchten Population liegt nun nahe an dem der TA-Ausgangspopulation, die eGFR zwischen der der beiden Ausgangspopulationen. Die Diabetesprävalenz ist in beiden Gruppen sogar höher als vor dem PS-Matching. Dieser Rückgang in der Fallzahl samt Veränderung der Population wird häufig als eine <Mark2>Schwäche</Mark2> des PS-Matchings aufgefasst. Die Autoren sehen diese beiden Veränderungen jedoch als <Mark2>Stärke</Mark2> des PS-Matchings, weil damit explizit transpa<TextGroup><PlainText>r</PlainText></TextGroup>ent gemacht wird, welche PatientInnen in den beiden Behandlungsgruppen überhaupt vergleichbar sind und für welche Population Aussagen bezüglich des Behandlungseffekts getroffen werden können. </Pgraph><Pgraph>Die Ergebnisse bezüglich des Behandlungseffekts auf die Zeit bis zum Tod im Follow-up sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> als Hazard Ratios dargestellt. Berechnet wurden jeweils Cox-Modelle in verschiedenen Varianten bezüglich der eingeschlossenen PatientInnen, Kovariablen und Gewichtungen. In der unadjustierten Analyse, d.h. aus einem Cox-Modell mit Behandlung als einziger Kovariable im vollen Datensatz (vgl. auch die Kaplan-Meier-Schätzer in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>), finden wir einen extrem hohen Wert des Hazard Ratio von 6,40 (95%-KI: [5,33; 7,69]) mit einer dramatisch höheren Sterblichkeit in der TA-Gruppe. Dieser ist selbstverständlich nicht kausal, sondern auf die großen strukturellen Unterschiede der beiden PatientInnenpopulationen zurückzuführen. Eine herkömmliche Regressionsadjustierung für die initial festgelegten 23 Kovariablen reduziert das Hazard Ratio bereits beträchtlich auf 1,64 [95%-KI: 1,23; 2,19].</Pgraph><Pgraph>Ein weiterer Rückgang findet sich dann in der primär spezifizierten und aus unserer Sicht validen Analyse eines (für das Matchingstratum) stratifizierten Cox-Modells in der PS-gematchten Population (vgl. auch Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> für die Kaplan-Meier-Schätzer), in welcher das Hazard zu versterben in der TA-Gruppe um 25% erhöht ist (Hazard Ratio: 1,25 [95%-KI: 0,79; 1,99]).</Pgraph></TextBlock> <TextBlock linked="yes" name="Schlussfolgerung und Ausblick"> <MainHeadline>Schlussfolgerung und Ausblick</MainHeadline><Pgraph>Eine hinreichende/optimale Balanciertheit der relevanten Kovariablen in den Behandlungsgruppen ist das zentrale Qualitätskriterium einer PS-Analyse. In der Regel folgt aus einer guten Balanciertheit der Kovariablen auch ein guter Overlap des PS.</Pgraph><Pgraph>Bei a priori stark unterschiedlichen Behandlungsgruppen, d.h. initial schlechtem Overlap, hat ein PS-Matching den Vorteil, dass es transparent macht, für welche Populationen überhaupt Aussagen bezüglich des Behandlungsef<TextGroup><PlainText>f</PlainText></TextGroup>ekts gemacht werden dürfen. Dies ist trotz der damit verbundenen Reduktion in der Größe der Stichprobe und des damit einhergehenden Powerverlusts eine Stärke und nicht etwa eine Schwäche des PS-Matchings. </Pgraph><Pgraph>Für die Zukunft erwarten und empfehlen wir die Verwendung von Matching- <TextLink reference="17"></TextLink> oder Overlap-Gewichten <TextLink reference="18"></TextLink>. Diese haben gegenüber dem PS-Matching und auch anderen Gewichtungsverfahren mathematische Vorteile bezüglich der Effizienz der Parameterschätzung. Im Vergleich zum herkömmlichen PS-Matching haben sie zudem den Vorteil, dass keine Beobachtungen gelöscht werden. Im Vergleich zur Standardgewichtung mit inverse probability of treatment (IPTW)-Gewichten werden bei diesen neuen Gewichtungsvarianten Beobachtungen mit „ungewöhnlichen“ Werten des PS (hier: PatientInnen in der TA-Gruppe, die aber eine hohe Wahrscheinlichkeit für eine MIC haben, und umgekehrt) nicht <Mark2>herauf</Mark2>-, sondern <Mark2>herunter</Mark2>gewichtet. Damit vermeidet man in Situationen mit initial schlechtem Overlap extreme Gewichte, wie sie bei der Standard-IPTW-Gewichtung häufig vorkommen <TextLink reference="17"></TextLink> und dann sogar zum kompletten nummerischen Zusammenbruch der Schätzverfahren führen können. In unserem Datenbeispiel (vgl. Tabelle 2 <ImgLink imgNo="2" imgType="table"/>) wird zwar ein IPTW-Schätzer berechnet, es finden sich aber maximale Gewichte von einzelnen Beobachtungen von über 200. Das heißt, es gibt Beobachtungen, die mit mehr als dem 200-fachen statistischen Gewicht in die Analyse eingehen. Das sind aber gerade solche Fälle, bei denen eine gänzlich unerwartete Behandlung durchgeführt worden ist, die also auch mit einem gewissen Risiko fehlklassifiziert sein könnten. In Situationen mit extremen Gewichten wird häufig eine Trunkierung der Gewichte vorgeschlagen (<TextGroup><PlainText>s. z</PlainText></TextGroup>.B. <TextLink reference="19"></TextLink>), d.h. es werden Beobachtungen mit extremen Gewichten ausgeschlossen. Dies ist prinzipiell möglich, bringt aber z.B. das Problem mit sich, dass nicht offensichtlich klar ist, ab welchem Perzentil oder ab welcher Größe des Gewichts Beobachtungen ausgeschlossen werden sollen.</Pgraph><Pgraph>Da eine Analyse mit Matching-Gewichten asymptotisch äquivalent zum herkömmlichen PS-Matching ist und auch Matching- und Overlap-Gewichte sehr ähnlich sind, überrascht es nicht, dass alle drei Verfahren zu sehr ähnlichen Schätzern des Hazard Ratio führen. Der Effizi<TextGroup><PlainText>e</PlainText></TextGroup>nzgewinn der beiden modernen Gewichtungsverfahren ist allerdings beträchtlich; die jeweiligen Konfidenzintervalle sind bedeutend schmaler als beim PS-Matching.</Pgraph><Pgraph>Ein wesentlicher Teil der hier gemachten Empfehlungen basiert auf der Verwendung der SSQ<Subscript>zDiff</Subscript> als globales Balanciertheitsmaß. Bisher liegen keine Erkenntnisse zur Validität der SSQ<Subscript>zDiff</Subscript> vor; unsere Empfehlungen gründen sich im Wesentlichen auf die positive Erfahrung, die wir mit dieser in der praktischen Anwendung gemacht haben. Es existieren aber erste, bisher noch unveröffentlichte Erkenntnisse, dass die genannte Chi-Quadrat-Verteilung auch für mittlere Korrelationen zumindest bezüglich des Erwartungswerts noch gültig ist. Wir arbeiten des Weiteren an der Herleitung der Verteilung der SSQ<Subscript>zDiff</Subscript> im allgemeineren Fall von korrelierten z-Differenzen und planen auch, die empirischen Korrelationen der z-Differenzen in den Individualdaten großer RCTs zu prüfen <TextLink reference="20"></TextLink>. Bei Vorliegen einer Verteilung für die SSQ<Subscript>zDiff</Subscript> wird es in Zukunft auch möglich sein, Konfidenzintervalle für diese anzugeben, um die Abweichungen der geschätzten SSQ<Subscript>zDiff</Subscript> von den Referenzpunkten eines RCT (SSQ<Subscript>zDiff</Subscript>=k) und einer optimal gematchten PS-Analyse (SSQ<Subscript>zDiff</Subscript>=k/2) noch besser einordnen zu können.</Pgraph><Pgraph>Das vorgeschlagene Vorgehen zur Minimierung der SSQ<Subscript>zDiff</Subscript> durch eine datengestützte Minimierung der Caliperweite hat einen gewissen Ad-hoc-Charakter. Es ist nicht automatisch gewährleistet, dass dieses Vorgehen zu einem Effektschätzer führt, der einen guten Kompromiss zwischen guter Balanciertheit und hinreichend großer Fallzahl darstellt. Im Gegenteil, es wäre auch denkbar, dass durch die Minimierung der SSQ<Subscript>zDiff</Subscript> ein PatientInnenkollektiv zur Modellierung benutzt wird, das zu wenig extern valide ist. Hier wären in der Zukunft theoretische Überle<TextGroup><PlainText>g</PlainText></TextGroup>ungen oder Simulationsuntersuchungen hilfreich.</Pgraph><Pgraph>Eine bekannte Limitation des PS-Matchings ist, dass damit nur der „Average treatment effect in the treated“ (ATT) geschätzt werden kann. Dieser entspricht dem Effekt in einer Population, deren Kovariablenverteilung gleich dem der behandelten Population entspricht. Im vorliegenden Beispiel aus der Herzchirurgie könnte aber auch der Behandlungseffekt in der gesamten Gruppe der Menschen, die eine neue Aortenklappe benötigen, von Interesse sein. Dieser Effekt wäre dann der „Average treatment effect“ (ATE) und könnte für PatientInnen relevant sein, die sich autonom für eine der beiden Behandlungsmög<TextGroup><PlainText>l</PlainText></TextGroup>ichkeiten entscheiden möchten. Eine Schätzung des ATE kann z.B. mit IPTW-Gewichten erfolgen <TextLink reference="21"></TextLink>. </Pgraph><Pgraph>Durch die Verwendung von Overlap- und Matching-Gewichten ergibt sich auch bezüglich der Populationen, für die die berechneten Effektschätzer gültig sind, eine neue Sichtweise. Mit diesen Gewichten wird der Effekt in der Population geschätzt, für die die Verteilung der Kovariablen in beiden Behandlungsgruppen identisch ist und beide Behandlungen möglich sind („Average treatment effect in the overlap population“ (ATO)). Damit entspricht diese Population der eines RCTs, in dem für alle PatientInnen beide Behandlungen gleich legitim sind und für die Behandlungsempfehlungen eigentlich am notwendig<TextGroup><PlainText>s</PlainText></TextGroup>ten sind <TextLink reference="18"></TextLink>.</Pgraph><Pgraph>Zusammenfassend stellen PS-Analysen eine valide Methode zur Auswertung von nichtrandomisierten Studien dar. Die Validität einer solchen Analyse hängt allerdings wesentlich von der Balanciertheit der PatientInnenmerkmale in der PS-spezifischen Analyse und dem Overlap des PS in beiden Behandlungsgruppen ab. Nur bei Vorliegen von Balanciertheit und hinreichend Overlap können Behandlungseffekte unverzerrt geschätzt und kann die Population identifiziert werden, für die diese Behandlungsef<TextGroup><PlainText>f</PlainText></TextGroup>ekte gelten. </Pgraph></TextBlock> <TextBlock linked="yes" name="Anmerkungen"> <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Finanzielle Unterstützung</SubHeadline><Pgraph>Diese Arbeit wurde nicht extern gefördert. Das Deutsche Diabetes-Zentrum wird vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen und vom Bundesministerium für Gesundheit finanziert.</Pgraph><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die AutorInnen erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock> <References linked="yes"> <Reference refNo="1"> <RefAuthor>Rosenbaum PR</RefAuthor> <RefAuthor>Rubin DB</RefAuthor> <RefTitle>The central role of the propensity score in observational studies for causal effects</RefTitle> <RefYear>1983</RefYear> <RefJournal>Biometrika</RefJournal> <RefPage>41-55</RefPage> <RefTotal>Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika. 1983;70:41-55.</RefTotal> </Reference> <Reference refNo="2"> <RefAuthor>Kuss O</RefAuthor> <RefAuthor>Blettner M</RefAuthor> <RefAuthor>Börgermann J</RefAuthor> <RefTitle>Propensity Score: an Alternative Method of Analyzing Treatment Effects</RefTitle> <RefYear>2016</RefYear> <RefJournal>Dtsch Arztebl Int</RefJournal> <RefPage>597-603</RefPage> <RefTotal>Kuss O, Blettner M, Börgermann J. Propensity Score: an Alternative Method of Analyzing Treatment Effects. Dtsch Arztebl Int. 2016 Sep 5;113(35-36):597-603. DOI: 10.3238/arztebl.2016.0597</RefTotal> <RefLink>https://doi.org/10.3238/arztebl.2016.0597</RefLink> </Reference> <Reference refNo="3"> <RefAuthor>Oakes JM</RefAuthor> <RefAuthor>Johnson PJ</RefAuthor> <RefTitle>Propensity score matching methods for social epidemiology</RefTitle> <RefYear>2006</RefYear> <RefBookTitle>Methods in Social Epidemiology</RefBookTitle> <RefPage>364-86</RefPage> <RefTotal>Oakes JM, Johnson PJ. Propensity score matching methods for social epidemiology. In: Oakes JM, Kaufman JS, editors. Methods in Social Epidemiology. San Francisco: Jossey-Bass/Wiley; 2006. p. 364-86.</RefTotal> </Reference> <Reference refNo="4"> <RefAuthor>Stuart EA</RefAuthor> <RefTitle>Matching methods for causal inference: A review and a look forward</RefTitle> <RefYear>2010</RefYear> <RefJournal>Stat Sci</RefJournal> <RefPage>1-21</RefPage> <RefTotal>Stuart EA. Matching methods for causal inference: A review and a look forward. Stat Sci. 2010 Feb 1;25(1):1-21. DOI: 10.1214/09-STS313</RefTotal> <RefLink>https://doi.org/10.1214/09-STS313</RefLink> </Reference> <Reference refNo="5"> <RefAuthor>Weitzen S</RefAuthor> <RefAuthor>Lapane KL</RefAuthor> <RefAuthor>Toledano AY</RefAuthor> <RefAuthor>Hume AL</RefAuthor> <RefAuthor>Mor V</RefAuthor> <RefTitle>Weaknesses of goodness-of-fit tests for evaluating propensity score models: the case of the omitted confounder</RefTitle> <RefYear>2005</RefYear> <RefJournal>Pharmacoepidemiol Drug Saf</RefJournal> <RefPage>227-38</RefPage> <RefTotal>Weitzen S, Lapane KL, Toledano AY, Hume AL, Mor V. Weaknesses of goodness-of-fit tests for evaluating propensity score models: the case of the omitted confounder. Pharmacoepidemiol Drug Saf. 2005 Apr;14(4):227-38. DOI: 10.1002/pds.986</RefTotal> <RefLink>https://doi.org/10.1002/pds.986</RefLink> </Reference> <Reference refNo="6"> <RefAuthor>Westreich D</RefAuthor> <RefAuthor>Cole SR</RefAuthor> <RefAuthor>Funk MJ</RefAuthor> <RefAuthor>Brookhart MA</RefAuthor> <RefAuthor>Stürmer T</RefAuthor> <RefTitle>The role of the c-statistic in variable selection for propensity score models</RefTitle> <RefYear>2011</RefYear> <RefJournal>Pharmacoepidemiol Drug Saf</RefJournal> <RefPage>317-20</RefPage> <RefTotal>Westreich D, Cole SR, Funk MJ, Brookhart MA, Stürmer T. The role of the c-statistic in variable selection for propensity score models. Pharmacoepidemiol Drug Saf. 2011 Mar;20(3):317-20. DOI: 10.1002/pds.2074</RefTotal> <RefLink>https://doi.org/10.1002/pds.2074</RefLink> </Reference> <Reference refNo="7"> <RefAuthor>Imai K</RefAuthor> <RefAuthor>King G</RefAuthor> <RefAuthor>Stuart EA</RefAuthor> <RefTitle>Misunderstandings between experimentalists and observationalists about causal inference</RefTitle> <RefYear>2008</RefYear> <RefJournal>J R Stat Soc Ser A-Statistics Soc</RefJournal> <RefPage>481-502</RefPage> <RefTotal>Imai K, King G, Stuart EA. Misunderstandings between experimentalists and observationalists about causal inference. J R Stat Soc Ser A-Statistics Soc. 2008;171:481-502.</RefTotal> </Reference> <Reference refNo="8"> <RefAuthor>Austin PC</RefAuthor> <RefTitle>Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples</RefTitle> <RefYear>2009</RefYear> <RefJournal>Stat Med</RefJournal> <RefPage>3083-107</RefPage> <RefTotal>Austin PC. Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples. Stat Med. 2009 Nov 10;28(25):3083-107. DOI: 10.1002/sim.3697</RefTotal> <RefLink>https://doi.org/10.1002/sim.3697</RefLink> </Reference> <Reference refNo="9"> <RefAuthor>Cohen J</RefAuthor> <RefTitle>The t Test for Means</RefTitle> <RefYear>1977</RefYear> <RefBookTitle>Statistical power analysis for the behavioral sciences</RefBookTitle> <RefPage>19-74</RefPage> <RefTotal>Cohen J. Statistical power analysis for the behavioral sciences. Toronto: Academic Press, Inc.; 1977. The t Test for Means. p. 19-74.</RefTotal> </Reference> <Reference refNo="10"> <RefAuthor>Austin PC</RefAuthor> <RefTitle>Using the standardized difference to compare the prevalence of a binary variable between two groups in observational research</RefTitle> <RefYear>2009</RefYear> <RefJournal>Commun Statistics-Simulation Comput</RefJournal> <RefPage>1228-34</RefPage> <RefTotal>Austin PC. Using the standardized difference to compare the prevalence of a binary variable between two groups in observational research. Commun Statistics-Simulation Comput. 2009;38(6):1228-34.</RefTotal> </Reference> <Reference refNo="11"> <RefAuthor>Kuss O</RefAuthor> <RefTitle>The z-difference can be used to measure covariate balance in matched propensity score analyses</RefTitle> <RefYear>2013</RefYear> <RefJournal>J Clin Epidemiol</RefJournal> <RefPage>1302-7</RefPage> <RefTotal>Kuss O. The z-difference can be used to measure covariate balance in matched propensity score analyses. J Clin Epidemiol. 2013 Nov;66(11):1302-7. DOI: 10.1016/j.jclinepi.2013.06.001</RefTotal> <RefLink>https://doi.org/10.1016/j.jclinepi.2013.06.001</RefLink> </Reference> <Reference refNo="12"> <RefAuthor>Rubin DB</RefAuthor> <RefAuthor>Thomas N</RefAuthor> <RefTitle>Characterizing the effect of matching using linear propensity score methods with normal distributions</RefTitle> <RefYear>1992</RefYear> <RefJournal>Biometrika</RefJournal> <RefPage>797-809</RefPage> <RefTotal>Rubin DB, Thomas N. Characterizing the effect of matching using linear propensity score methods with normal distributions. Biometrika. 1992;79(4):797-809.</RefTotal> </Reference> <Reference refNo="13"> <RefAuthor>Rubin DB</RefAuthor> <RefAuthor>Thomas N</RefAuthor> <RefTitle>Matching using estimated propensity scores: relating theory to practice</RefTitle> <RefYear>1996</RefYear> <RefJournal>Biometrics</RefJournal> <RefPage>249-64</RefPage> <RefTotal>Rubin DB, Thomas N. Matching using estimated propensity scores: relating theory to practice. Biometrics. 1996 Mar;52(1):249-64.</RefTotal> </Reference> <Reference refNo="14"> <RefAuthor>Filla T</RefAuthor> <RefAuthor>Schwender H</RefAuthor> <RefAuthor>Kuss O</RefAuthor> <RefTitle>Measuring covariate balance in weighted propensity score analyses by the weighted z-difference [Preprint]</RefTitle> <RefYear>2022</RefYear> <RefJournal>arXiiv</RefJournal> <RefPage></RefPage> <RefTotal>Filla T, Schwender H, Kuss O. Measuring covariate balance in weighted propensity score analyses by the weighted z-difference [Preprint]. arXiiv. 2022. DOI: 10.48550/arXiv.2212.09490</RefTotal> <RefLink>https://doi.org/10.48550/arXiv.2212.09490</RefLink> </Reference> <Reference refNo="15"> <RefAuthor>Furukawa N</RefAuthor> <RefAuthor>Kuss O</RefAuthor> <RefAuthor>Emmel E</RefAuthor> <RefAuthor>Scholtz S</RefAuthor> <RefAuthor>Scholtz W</RefAuthor> <RefAuthor>Fujita B</RefAuthor> <RefAuthor>Ensminger S</RefAuthor> <RefAuthor>Gummert JF</RefAuthor> <RefAuthor>Börgermann J</RefAuthor> <RefTitle>Minimally invasive versus transapical versus transfemoral aortic valve implantation: A one-to-one-to-one propensity score-matched analysis</RefTitle> <RefYear>2018</RefYear> <RefJournal>J Thorac Cardiovasc Surg</RefJournal> <RefPage>1825-34</RefPage> <RefTotal>Furukawa N, Kuss O, Emmel E, Scholtz S, Scholtz W, Fujita B, Ensminger S, Gummert JF, Börgermann J. Minimally invasive versus transapical versus transfemoral aortic valve implantation: A one-to-one-to-one propensity score-matched analysis. J Thorac Cardiovasc Surg. 2018 Nov;156(5):1825-34. DOI: 10.1016/j.jtcvs.2018.04.104</RefTotal> <RefLink>https://doi.org/10.1016/j.jtcvs.2018.04.104</RefLink> </Reference> <Reference refNo="16"> <RefAuthor>Rubin DB</RefAuthor> <RefTitle>The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials</RefTitle> <RefYear>2007</RefYear> <RefJournal>Stat Med</RefJournal> <RefPage>20-36</RefPage> <RefTotal>Rubin DB. The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials. Stat Med. 2007 Jan 15;26(1):20-36. DOI: 10.1002/sim.2739</RefTotal> <RefLink>https://doi.org/10.1002/sim.2739</RefLink> </Reference> <Reference refNo="17"> <RefAuthor>Li L</RefAuthor> <RefAuthor>Greene T</RefAuthor> <RefTitle>A weighting analogue to pair matching in propensity score analysis</RefTitle> <RefYear>2013</RefYear> <RefJournal>Int J Biostat</RefJournal> <RefPage>215-34</RefPage> <RefTotal>Li L, Greene T. A weighting analogue to pair matching in propensity score analysis. Int J Biostat. 2013 Jul 31;9(2):215-34. DOI: 10.1515/ijb-2012-0030</RefTotal> <RefLink>https://doi.org/10.1515/ijb-2012-0030</RefLink> </Reference> <Reference refNo="18"> <RefAuthor>Li F</RefAuthor> <RefAuthor>Morgan KL</RefAuthor> <RefAuthor>Zaslavsky AM</RefAuthor> <RefTitle>Balancing covariates via propensity score weighting</RefTitle> <RefYear>2018</RefYear> <RefJournal>J Am Stat Assoc</RefJournal> <RefPage>390-400</RefPage> <RefTotal>Li F, Morgan KL, Zaslavsky AM. Balancing covariates via propensity score weighting. J Am Stat Assoc. 2018;113(521):390-400.</RefTotal> </Reference> <Reference refNo="19"> <RefAuthor>Goetghebeur E</RefAuthor> <RefAuthor>le Cessie S</RefAuthor> <RefAuthor>De Stavola B</RefAuthor> <RefAuthor>Moodie EE</RefAuthor> <RefAuthor>Waernbaum I</RefAuthor> <RefAuthor> “on behalf of” the topic group Causal Inference (TG7) of the STRATOS initiative</RefAuthor> <RefTitle>Formulating causal questions and principled statistical answers</RefTitle> <RefYear>2020</RefYear> <RefJournal>Stat Med</RefJournal> <RefPage>4922-48</RefPage> <RefTotal>Goetghebeur E, le Cessie S, De Stavola B, Moodie EE, Waernbaum I; “on behalf of” the topic group Causal Inference (TG7) of the STRATOS initiative. Formulating causal questions and principled statistical answers. Stat Med. 2020 Dec 30;39(30):4922-48. DOI: 10.1002/sim.8741</RefTotal> <RefLink>https://doi.org/10.1002/sim.8741</RefLink> </Reference> <Reference refNo="20"> <RefAuthor>Kuss O</RefAuthor> <RefAuthor>Miller M</RefAuthor> <RefTitle>Unknown confounders did not bias the treatment effect when improving balance of known confounders in randomized trials</RefTitle> <RefYear>2020</RefYear> <RefJournal>J Clin Epidemiol</RefJournal> <RefPage>9-16</RefPage> <RefTotal>Kuss O, Miller M. Unknown confounders did not bias the treatment effect when improving balance of known confounders in randomized trials. J Clin Epidemiol. 2020 Oct;126:9-16. DOI: 10.1016/j.jclinepi.2020.06.012</RefTotal> <RefLink>https://doi.org/10.1016/j.jclinepi.2020.06.012</RefLink> </Reference> <Reference refNo="21"> <RefAuthor>Austin PC</RefAuthor> <RefTitle>An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies</RefTitle> <RefYear>2011</RefYear> <RefJournal>Multivariate Behav Res</RefJournal> <RefPage>399-424</RefPage> <RefTotal>Austin PC. An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies. Multivariate Behav Res. 2011 May;46(3):399-424. DOI: 10.1080/00273171.2011.568786</RefTotal> <RefLink>https://doi.org/10.1080/00273171.2011.568786</RefLink> </Reference> </References> <Media> <Tables> <Table format="png"> <MediaNo>1</MediaNo> <MediaID>1</MediaID> <Caption><Pgraph><Mark1>Tabelle 1: Deskription der Merkmale Alter, Nierenfunktion (eGFR) und Vorliegen eines Diabetes und der Balanciertheit (z-Differenz für das jeweilige Merkmal, Summe der quadrierten z-Differenzen [SSQ</Mark1><Mark1><Subscript>zDiff</Subscript></Mark1><Mark1>] über alle 23 Merkmale im PS-Modell) vor und nach dem PS-Matching in der Beispielstudie</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>2</MediaNo> <MediaID>2</MediaID> <Caption><Pgraph><Mark1>Tabelle 2: Ergebnisse verschiedener Auswertungsmethoden für den klinischen Outcome Zeit bis zum Tod im Follow-up in der Beispielstudie. Angegeben sind (Spalte 2) die (originale oder gewichtete) Fallzahl und die Anzahl der beobachteten Todesfälle und (Spalte 3) das Hazard Ratio mit 95%-Konfidenzintervall mit der Referenzkategorie MIC. Berechnet werden jeweils Cox-Modelle in verschiedenen Varianten bzgl. der eingeschlossenen PatientInnen, Kovariablen bzw. Gewichtungen.</Mark1></Pgraph></Caption> </Table> <NoOfTables>2</NoOfTables> </Tables> <Figures> <Figure format="png" height="346" width="485"> <MediaNo>1</MediaNo> <MediaID>1</MediaID> <Caption><Pgraph><Mark1>Abbildung 1: Balanciertheit (gemessen als Summe der quadrierten z-Differenzen, rot, linke y-Achse) und Anzahl der PS-gematchten Paare (blau, rechte y-Achse) in Abhängigkeit von der gewählten Caliperweite im PS-Matching-Algorithmus. Die optimale Balanciertheit (minimale SSQ</Mark1><Mark1><Subscript>zDiff</Subscript></Mark1><Mark1>) von 12,01 wird für die Caliperweite 0,0284 erreicht.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="362" width="922"> <MediaNo>2</MediaNo> <MediaID>2</MediaID> <Caption><Pgraph><Mark1>Abbildung 2: Histogramme des logit-transformierten PS („Linearer Prädiktor“) vor (a) und nach (b) dem PS-Matching in den beiden Behandlungsgruppen in der Beispielstudie </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation)</Pgraph></Caption> </Figure> <Figure format="png" height="390" width="546"> <MediaNo>3</MediaNo> <MediaID>3</MediaID> <Caption><Pgraph><Mark1>Abbildung 3: Kaplan-Meier-Schätzer für den klinischen Outcome Zeit bis zum Tod im Follow-up in der ursprünglichen PatientInnenpopulation (vor dem PS-Matching) in der Beispielstudie. Das zugehörige Hazard Ratio [95%-KI] aus einem Cox-Modell ist 6,40 [5,33; 7,69]. </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation) </Pgraph></Caption> </Figure> <Figure format="png" height="390" width="546"> <MediaNo>4</MediaNo> <MediaID>4</MediaID> <Caption><Pgraph><Mark1>Abbildung 4: Kaplan-Meier-Schätzer für den klinischen Outcome Zeit bis zum Tod im Follow-up in der PS-gematchten Population (nach dem PS-Matching) in der Beispielstudie. Das zugehörige Hazard Ratio [95%-KI] aus einem für das Matchingstratum stratifizierten Cox-Modell ist 1,25 [0,79; 1,99]. </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation)</Pgraph></Caption> </Figure> <NoOfPictures>4</NoOfPictures> </Figures> <InlineFigures> <NoOfPictures>0</NoOfPictures> </InlineFigures> <Attachments> <NoOfAttachments>0</NoOfAttachments> </Attachments> </Media> </OrigData> </GmsArticle>