<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>mibe000257</Identifier>
    <IdentifierDoi>10.3205/mibe000257</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-mibe0002573</IdentifierUrn>
    <ArticleType>&#220;bersichtsarbeit</ArticleType>
    <TitleGroup>
      <Title language="de">G&#252;tema&#223;e und Kriterien bei der Anwendung von Propensity Scores</Title>
      <TitleTranslated language="en">Quality measures and criteria for the application of propensity scores</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Ku&#223;</Lastname>
          <LastnameHeading>Ku&#223;</LastnameHeading>
          <Firstname>Oliver</Firstname>
          <Initials>O</Initials>
          <AcademicTitle>Dr.</AcademicTitle>
        </PersonNames>
        <Address>Institut f&#252;r Biometrie und Epidemiologie, Deutsches Diabetes-Zentrum (DDZ), Auf&#8217;m Hennekamp 65, 40225 D&#252;sseldorf, Deutschland<Affiliation>Institut f&#252;r Biometrie und Epidemiologie, Deutsches Diabetes-Zentrum (DDZ), Leibniz-Zentrum f&#252;r Diabetes-Forschung an der Heinrich-Heine-Universit&#228;t D&#252;sseldorf, Deutschland</Affiliation><Affiliation>Centre for Health and Society (chs), Medizinische Fakult&#228;t der Heinrich-Heine-Universit&#228;t D&#252;sseldorf, Deutschland</Affiliation></Address>
        <Email>oliver.kuss&#64;ddz.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Strobel</Lastname>
          <LastnameHeading>Strobel</LastnameHeading>
          <Firstname>Alexandra</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakult&#228;t der Martin-Luther-Universit&#228;t Halle-Wittenberg, Halle, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <SectionHeading language="de">Propensity Scores</SectionHeading>
    </SubjectGroup>
    <DatePublishedList>
      
    <DatePublished>20240105</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1860-9171</ISSN>
        <Volume>20</Volume>
        <JournalTitle>GMS Medizinische Informatik, Biometrie und Epidemiologie</JournalTitle>
        <JournalTitleAbbr>GMS Med Inform Biom Epidemiol</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>01</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Propensity Scores (PS) haben sich in den letzten Jahren als eine valide Alternative zu herk&#246;mmlichen Regressionsmodellen bei der Auswertung von nichtrandomisierten Behandlungsstudien etabliert. PS-Analysen werden in zwei Schritten durchgef&#252;hrt. Im ersten Schritt wird der PS, also die Wahrscheinlichkeit, mit der ein Individuum die zu pr&#252;fende Behandlung erh&#228;lt, gesch&#228;tzt. Im zweiten Schritt erfolgt die Sch&#228;tzung des eigentlich interessierenden Behandlungseffekts unter Zuhilfenahme des PS. Die G&#252;te einer PS-Analyse ist im Wesentlichen davon abh&#228;ngig, ob es im ersten Schritt gelingt, eine hinreichende Balanciertheit der PatientInnenmerkmale in den Behandlungsgruppen zu erreichen. Nur dann ist gew&#228;hrleistet, dass diese PatientInnenmerkmale nicht die Sch&#228;tzung des Behandlungseffekts verzerren. Zur Messung dieser Balanciertheit wurden verschiedene Ma&#223;e vorgeschlagen, z.B. die standardisierte Differenz oder die z-Differenz. Eng verwandt mit der Balanciertheit der PatientInnenmerkmale und damit auch ein Ma&#223; f&#252;r die G&#252;te eines PS-Modells ist die &#220;berlappung (&#8222;overlap&#8220;), also die &#196;hnlichkeit der Verteilung der gesch&#228;tzten PS in den beiden Behandlungsgruppen. In Wertebereichen des PS ohne Overlap, in denen sich unter Umst&#228;nden also nur Beobachtungen aus einer der beiden Behandlungsgruppen finden, ist streng genommen ein Vergleich der Behandlungen gar nicht m&#246;glich. In diesem Beitrag werden die beiden Konzepte anhand eines Beispiels aus der Herzchirurgie vorgestellt und diskutiert. </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>Propensity scores (PS) have been established as a valid alternative to conventional regression models when evaluating non-randomized treatment studies. The PS describes the probability for an individual to receive a treatment, conditional on a set of observed covariates. PS analyses are performed in two steps. In the first step, the PS is generally estimated via logistic regression. In the second step, the actual treatment effect is estimated. The quality of a PS analysis depends on whether it is possible to achieve a sufficient balance of the patient characteristics in the treatment groups in the first step. This is the only way to ensure that these patient characteristics do not bias the estimate of the treatment effect. Various measures have been proposed to measure this balance, e.g. the standardized difference or the z-difference. Closely related to the balance of patient characteristics (and thus also a measure of the quality for a PS model) is the overlap, i.e. the similarity in the distribution of the estimated propensity scores in the two treatment groups. A valid comparison of the treatments is only possible in regions of sufficient overlap. In this article, the two concepts of balance and overlap are presented and discussed using an example from cardiac surgery.</Pgraph></Abstract>
    <TextBlock linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Propensity Scores (PS) haben sich in den letzten Jahren als eine valide Alternative zu herk&#246;mmlichen Regressionsmodellen bei der Auswertung von nichtrandomisierten Behandlungsstudien herausgestellt. Gr&#252;nde f&#252;r diese Entwicklung sind sowohl im statistischen als auch im erkenntnistheoretischen Bereich zu suchen, wobei in letzterem die explizite Einbettung von PS in die Theorie der kausalen Inferenz dessen Annahmen und Voraussetzungen klarer und transparenter macht. Der PS wurde 1983 von Rosenbaum &#38; Rubin <TextLink reference="1"></TextLink> eingef&#252;hrt und beschreibt die Wahrscheinlichkeit, mit der ein Individuum eine zu pr&#252;fende Behandlung erh&#228;lt.</Pgraph><Pgraph>PS-Analysen werden in zwei Schritten durchgef&#252;hrt. Im ersten Schritt wird der PS f&#252;r jedes Individuum in der Regel mit einem logistischen Regressionsmodell gesch&#228;tzt. Im zweiten Schritt erfolgt dann die Sch&#228;tzung des eigentlich interessierenden Behandlungseffekts unter Zuhilfenahme des PS, z.B. durch PS-Matching oder durch Gewichtung f&#252;r den PS <TextLink reference="2"></TextLink>.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Balanciertheit und Overlap als Ma&#223;e f&#252;r die G&#252;te eines Propensity-Score-Modells">
      <MainHeadline>Balanciertheit und Overlap als Ma&#223;e f&#252;r die G&#252;te eines Propensity-Score-Modells</MainHeadline><Pgraph>Zur Messung der G&#252;te eines PS-Modells werden im Allgemeinen zwei Gr&#246;&#223;en herangezogen: Balanciertheit und Overlap. W&#228;hrend die Balanciertheit die &#196;hnlichkeit der Verteilung <Mark2>der PatientInnenmerkmale</Mark2> in beiden Behandlungsgruppen beschreibt, wird durch den Overlap die &#196;hnlichkeit der Verteilung <Mark2>des Propensity Scores</Mark2> in beiden Behandlungsgruppen charakterisiert. </Pgraph><Pgraph>Balanciertheit und Overlap sind wichtige G&#252;tema&#223;e, da nur bei deren Vorliegen valide Aussagen &#252;ber den Behandlungseffekt im Sinne der Theorie der kausalen Inferenz gemacht werden k&#246;nnen <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>. Die Wichtigkeit dieser beiden Ma&#223;e wird heuristisch klar, wenn man eine PS-Analyse mit einer 1:1-randomisierten klinischen Studie (&#8222;randomised controlled trial&#8220;&#61;RCT) vergleicht. In einem RCT ist die Balanciertheit nahezu perfekt, da die Verteilung der PatientInnenmerkmale durch Randomisierung in den Behandlungsgruppen nicht nur &#228;hnlich, sondern sogar identisch ist, zumindest f&#252;r hinreichend gro&#223;e Fallzahlen. </Pgraph><Pgraph>Auch bez&#252;glich des Overlaps ist ein RCT optimal, da der PS f&#252;r jedes Individuum bekannt und insbesondere gleich ist (d.h. PS&#61;&#189;). Die Verteilung des PS in den beiden Behandlungsgruppen ist daher ebenfalls identisch. </Pgraph><Pgraph>Auf eine einfache Formel gebracht: Je besser die Balanciertheit und der Overlap, umso &#228;hnlicher ist eine PS-Analyse einem RCT und umso geringer ist das Risiko, dass die Ergebnisse durch die beobachteten Kovariablen verzerrt sind.</Pgraph><Pgraph>Andere G&#252;tema&#223;e f&#252;r PS-Modelle, wie z.B. der Hosmer-Lemeshow-Test oder die c-Statistik, sind dagegen weniger geeignet <TextLink reference="5"></TextLink>. Ein hoher Wert der c-Statistik ist z.B. weder notwendig noch hinreichend f&#252;r eine gute Confounderadjustierung <TextLink reference="6"></TextLink>. Statistische Tests sollten ebenso mit Vorsicht betrachtet werden, weil deren Ergebnisse im Wesentlichen von der Stichprobengr&#246;&#223;e abh&#228;ngig sind (Imai et al. <TextLink reference="7"></TextLink> nennen die Verwendung dieser die &#8222;balance test fallacy&#8220;): In gro&#223;en Stichproben werden auch irrelevante Abweichungen bei der Balanciertheit statistisch signifikant sein; in kleinen Stichproben werden relevante Imbalancen nicht entdeckt. </Pgraph><Pgraph>Der Vollst&#228;ndigkeit halber sei darauf hingewiesen, dass in einer PS-Analyse nicht nur Balanciertheit und Overlap hinreichend gut sein m&#252;ssen, um valide kausale Aussagen bez&#252;glich Behandlungen machen zu k&#246;nnen. Es gibt dar&#252;ber hinaus noch eine Reihe von weiteren Annahmen in der Theorie der kausalen Inferenz (Positivit&#228;t, Abwesenheit von unbekannten Confoundern, keine Interferenz zwischen PatientInnen, s. z.B. <TextLink reference="1"></TextLink>), die daf&#252;r erf&#252;llt sein m&#252;ssen.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Ma&#223;e zur kovariablenspezifischen und zur globalen Balanciertheitsmessung: Die z-Differenz und die Summe der quadrierten z-Differenzen">
      <MainHeadline>Ma&#223;e zur kovariablenspezifischen und zur globalen Balanciertheitsmessung: Die z-Differenz und die Summe der quadrierten z-Differenzen</MainHeadline><Pgraph>Um die Balanciertheit der einzelnen PatientInnenmerkmale zu beurteilen, wird h&#228;ufig empfohlen, die standardisierte Differenz zu berechnen <TextLink reference="8"></TextLink>. Diese ist definiert als die Differenz der Mittelwerte oder Anteile in beiden Gruppen, dividiert durch eine gemeinsame Standardabweichung. In der Regel wird ein Wert von 10&#37; oder weniger vorgeschlagen, um eine zufriedenstellende Balanciertheit anzuzeigen <TextLink reference="9"></TextLink>. </Pgraph><Pgraph>Die standardisierte Differenz hat jedoch mindestens zwei Nachteile. Zum einen h&#228;ngt deren Verteilung von der Stichprobengr&#246;&#223;e ab <TextLink reference="8"></TextLink>. Zum anderen ist es nicht m&#246;glich, standardisierte Unterschiede f&#252;r PatientInnenmerkmale auf verschiedenen Skalen zu vergleichen. Austin <TextLink reference="10"></TextLink> verwendet zum Beispiel den phi-Koeffizienten f&#252;r bin&#228;re Kovariablen und findet, dass eine standardisierte Differenz von 10&#37; bei einer stetigen Kovariablen ungef&#228;hr einem phi-Koeffizienten von 5&#37; bei einer bin&#228;ren Kovariablen entspricht. Des Weiteren existieren bisher f&#252;r ordinale oder nominale Kovariablen keine standardisierten Differenzen.</Pgraph><Pgraph>Ein Ma&#223;, das demgegen&#252;ber f&#252;r metrische, bin&#228;re und ordinale Merkmale definiert und auf derselben Skala vergleichbar ist, ist die z-Differenz <TextLink reference="11"></TextLink>. F&#252;r diese wird das jeweilige Unterschiedsma&#223; (Mittelwertdifferenz, Risikodifferenz, Wilcoxon-Statistik) durch seinen Standardfehler geteilt (z-Standardisierung). Ein Vorteil der z-Differenz ist, dass deren Wert in einer gematchten PS-Analyse mit zwei Referenzpunkten verglichen werden kann. In einem RCT sind die z-Differenzen standard-normalverteilt (N(0,1)) und in einer (im Sinne von Rubin &#38; Thomas <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>) perfekt gematchten Studie N(0,&#189;)-verteilt. Inzwischen liegt auch eine Weiterentwicklung der z-Differenzen f&#252;r gewichtete PS-Analysen und eine z-Differenz f&#252;r nominale Merkmale vor <TextLink reference="14"></TextLink>.</Pgraph><Pgraph>Die Summe der quadrierten z-Differenzen (SSQ<Subscript>zDiff</Subscript>) kann zudem als globales (d.h. &#252;ber alle Kovariablen aggregiertes) Ma&#223; zur Balanciertheitsmessung verwendet werden: Wenn die z-Differenzen von k Merkmalen standard-nor<TextGroup><PlainText>m</PlainText></TextGroup>alverteilt sind, dann ist die Summe der quadrierten <TextGroup><PlainText>z-D</PlainText></TextGroup>ifferenzen, SSQ<Subscript>zDiff</Subscript>, Chi-quadrat-verteilt mit k Freiheitsgraden. Dieser Zusammenhang gilt allerdings nur approximativ, da f&#252;r eine exakte G&#252;ltigkeit die z-Differenzen der einzelnen Kovariablen unabh&#228;ngig sein m&#252;ssten, was im Allgemeinen nicht gegeben sein wird. Durch diese Definition erh&#228;lt man f&#252;r die SSQ<Subscript>zDiff</Subscript> zwei Referenzwerte, die zur Optimierung eines PS-Modells bzgl. der Balanciertheit herangezogen werden k&#246;nnen: In einem RCT ist der Erwartungswert der SSQ<Subscript>zDiff</Subscript> gleich k, in einer perfekt gematchten PS-Studie gleich k&#47;2.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Ein Beispiel aus der Herzchirurgie">
      <MainHeadline>Ein Beispiel aus der Herzchirurgie</MainHeadline><SubHeadline>Daten</SubHeadline><Pgraph>Zur Darstellung von Balanciertheit und Overlap verwenden wir ein Beispiel aus einer publizierten PS-Analyse in der Aortenklappenchirurgie <TextLink reference="15"></TextLink>. Grundlage der Studie waren PatientInnen, denen zwischen Juli 2009 und Juli 2017 am Herz- und Diabeteszentrum NRW in Bad Oeynhausen eine neue Aortenklappe eingesetzt wurde. In der Originalpublikation wurde die konventionelle offene Operation (Ministernotomie, MIC, N&#61;1.929) mit zwei katheterba<TextGroup><PlainText>s</PlainText></TextGroup>ierten Behandlungen (transapikal, TA, N&#61;607 und transfemoral, TF, N&#61;1.273) verglichen. Aus Gr&#252;nden der &#220;bersichtlichkeit beschr&#228;nken wir uns hier auf den Vergleich von MIC und TA, sodass der Analyse 2.536 Beobachtungen zugrunde liegen. Die Entscheidung bzgl. der Auswahl zwischen MIC und TA wurde nichtrandomisiert durch Konsens des TAVI-Teams (unter Beteiligung von Kardiochirurgie, Kardiologie und An&#228;sthesiologie) getroffen. Als prim&#228;rer klinischer Outcome wurde die Zeit bis zum Tod der PatientInnen im Follow-up gew&#228;hlt; die mediane Beobachtungszeit betrug dabei 36,1 Monate.</Pgraph><Pgraph>Dieses Beispiel ist dahingehend extrem, dass es zwei Behandlungen vergleicht, die in sehr unterschiedlichen Gruppen von PatientInnen durchgef&#252;hrt werden. Die katheterbasierte Implantation der Aortenklappe verzichtet im Gegensatz zur Ministernotomie auf eine &#214;ffnung der Brust (Sternotomie), wodurch ein wesentlich kr&#228;nkeres Kollektiv von PatientInnen (&#8222;high risk patients&#8220;) diese Behandlung erhalten kann.</Pgraph><SubHeadline>Methoden</SubHeadline><Pgraph>F&#252;r die Auswertung wurde im ersten Schritt zur Sch&#228;tzung des PS-Modells ein logistisches Regressionsmodell mit insgesamt 23 pr&#228;spezifizierten Kovariablen berechnet. Im zweiten Schritt und zur Sch&#228;tzung des Behandlungseffekts f&#252;r den klinischen Outcome wurde zun&#228;chst ein PS-Matching mit Matching-Ratio 1:1 unter Verwendung eines &#8222;optimal matching algorithm&#8220; f&#252;r den logit-transformierten PS <TextLink reference="16"></TextLink> durchgef&#252;hrt. Die Caliperweite wurde (verblindet f&#252;r den klinischen Outcome) so festgelegt, dass die SSQ<Subscript>zDiff</Subscript> &#252;ber alle 23 Kovariablen minimal war.</Pgraph><SubHeadline>Ergebnisse</SubHeadline><Pgraph>Einen Eindruck &#252;ber die Unterschiede der PatientInnenmerkmale in beiden Gruppen im vollen Datensatz, d.h. vor dem PS-Matching, erh&#228;lt man aus Tabelle 1 <ImgLink imgNo="1" imgType="table"/>, in der exemplarisch die Merkmale Alter, Nierenfunktion (gemessen als &#8222;estimated Glomerular Filtration Rate&#8220; (eGFR)) und Vorliegen von Diabetes dargestellt sind. Die PatientInnen in der TA-Gruppe waren wesentlich &#228;lter, hatten eine schlechtere Nierenfunktion (niedrigere eGFR) und eine h&#246;here Diabetespr&#228;valenz. Die immensen Unterschiede zwischen den beiden PatientInnengruppen &#252;ber alle <TextGroup><PlainText>23 K</PlainText></TextGroup>ovariablen zusammengefasst zeigen sich im Wert der SSQ<Subscript>zDiff</Subscript>. Hier wird vor dem PS-Matching ein Wert von 6.460,37 beobachtet, der um Gr&#246;&#223;enordnungen h&#246;her ist, als man diesen aus einem RCT (erwartete SSQ<Subscript>zDiff</Subscript>&#61;23) oder gar aus einer perfekt gematchten PS-Studie (erwartete SSQ<Subscript>zDiff</Subscript>&#61;23&#47;2&#61;11,5) erwarten w&#252;rde. Nach dem PS-Matching mit optimaler Caliperweite wird die Balanciertheit einer perfekt PS-gematchten Studie mit dem Wert von SSQ<Subscript>zDiff</Subscript>&#61;12,01 nahezu erreicht. Auch die Unterschiede zwischen beiden PatientInnengruppen bzgl. Alter, Nierenfunktion und Diabetespr&#228;valenz sind dann klinisch irrelevant. In Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> ist der Verlauf des Optimierungsprozesses f&#252;r die Caliperweite graphisch dargestellt. Es zeigt sich, dass mit einer sorgf&#228;ltigen, datengest&#252;tzten Auswahl der Caliperweite die Balanciertheit der Kovariablen relevant verbessert bzw. optimiert werden kann. </Pgraph><Pgraph>Parallel zur Balanciertheit der Kovariablen ist durch das PS-Matching auch ein guter Overlap entstanden (Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Die Verteilungen des Logit(PS), die vor dem PS-Matching (Abbildung 2a <ImgLink imgNo="2" imgType="figure"/>) deutlich separiert sind, sind nach dem PS-Matching nicht mehr zu unterscheiden (Abbildung 2b <ImgLink imgNo="2" imgType="figure"/>). </Pgraph><Pgraph>Mit der Optimierung von Balanciertheit und Overlap geht notwendigerweise eine Ver&#228;nderung der PatientInnenpo<TextGroup><PlainText>p</PlainText></TextGroup>ulation in der PS-gematchten Stichprobe einher. Dies betrifft zum einen die Fallzahl, die von 2.536 auf 308 zur&#252;ckgeht, zum anderen die klinischen Eigenschaften der Population. Das mittlere Alter in der PS-gematchten Population liegt nun nahe an dem der TA-Ausgangspopulation, die eGFR zwischen der der beiden Ausgangspopulationen. Die Diabetespr&#228;valenz ist in beiden Gruppen sogar h&#246;her als vor dem PS-Matching. Dieser R&#252;ckgang in der Fallzahl samt Ver&#228;nderung der Population wird h&#228;ufig als eine <Mark2>Schw&#228;che</Mark2> des PS-Matchings aufgefasst. Die Autoren sehen diese beiden Ver&#228;nderungen jedoch als <Mark2>St&#228;rke</Mark2> des PS-Matchings, weil damit explizit transpa<TextGroup><PlainText>r</PlainText></TextGroup>ent gemacht wird, welche PatientInnen in den beiden Behandlungsgruppen &#252;berhaupt vergleichbar sind und f&#252;r welche Population Aussagen bez&#252;glich des Behandlungseffekts getroffen werden k&#246;nnen. </Pgraph><Pgraph>Die Ergebnisse bez&#252;glich des Behandlungseffekts auf die Zeit bis zum Tod im Follow-up sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> als Hazard Ratios dargestellt. Berechnet wurden jeweils Cox-Modelle in verschiedenen Varianten bez&#252;glich der eingeschlossenen PatientInnen, Kovariablen und Gewichtungen. In der unadjustierten Analyse, d.h. aus einem Cox-Modell mit Behandlung als einziger Kovariable im vollen Datensatz (vgl. auch die Kaplan-Meier-Sch&#228;tzer in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>), finden wir einen extrem hohen Wert des Hazard Ratio von 6,40 (95&#37;-KI: &#91;5,33; 7,69&#93;) mit einer dramatisch h&#246;heren Sterblichkeit in der TA-Gruppe. Dieser ist selbstverst&#228;ndlich nicht kausal, sondern auf die gro&#223;en strukturellen Unterschiede der beiden PatientInnenpopulationen zur&#252;ckzuf&#252;hren. Eine herk&#246;mmliche Regressionsadjustierung f&#252;r die initial festgelegten 23 Kovariablen reduziert das Hazard Ratio bereits betr&#228;chtlich auf 1,64 &#91;95&#37;-KI: 1,23; 2,19&#93;.</Pgraph><Pgraph>Ein weiterer R&#252;ckgang findet sich dann in der prim&#228;r spezifizierten und aus unserer Sicht validen Analyse eines (f&#252;r das Matchingstratum) stratifizierten Cox-Modells in der PS-gematchten Population (vgl. auch Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> f&#252;r die Kaplan-Meier-Sch&#228;tzer), in welcher das Hazard zu versterben in der TA-Gruppe um 25&#37; erh&#246;ht ist (Hazard Ratio: 1,25 &#91;95&#37;-KI: 0,79; 1,99&#93;).</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Schlussfolgerung und Ausblick">
      <MainHeadline>Schlussfolgerung und Ausblick</MainHeadline><Pgraph>Eine hinreichende&#47;optimale Balanciertheit der relevanten Kovariablen in den Behandlungsgruppen ist das zentrale Qualit&#228;tskriterium einer PS-Analyse. In der Regel folgt aus einer guten Balanciertheit der Kovariablen auch ein guter Overlap des PS.</Pgraph><Pgraph>Bei a priori stark unterschiedlichen Behandlungsgruppen, d.h. initial schlechtem Overlap, hat ein PS-Matching den Vorteil, dass es transparent macht, f&#252;r welche Populationen &#252;berhaupt Aussagen bez&#252;glich des Behandlungsef<TextGroup><PlainText>f</PlainText></TextGroup>ekts gemacht werden d&#252;rfen. Dies ist trotz der damit verbundenen Reduktion in der Gr&#246;&#223;e der Stichprobe und des damit einhergehenden Powerverlusts eine St&#228;rke und nicht etwa eine Schw&#228;che des PS-Matchings. </Pgraph><Pgraph>F&#252;r die Zukunft erwarten und empfehlen wir die Verwendung von Matching- <TextLink reference="17"></TextLink> oder Overlap-Gewichten <TextLink reference="18"></TextLink>. Diese haben gegen&#252;ber dem PS-Matching und auch anderen Gewichtungsverfahren mathematische Vorteile bez&#252;glich der Effizienz der Parametersch&#228;tzung. Im Vergleich zum herk&#246;mmlichen PS-Matching haben sie zudem den Vorteil, dass keine Beobachtungen gel&#246;scht werden. Im Vergleich zur Standardgewichtung mit inverse probability of treatment (IPTW)-Gewichten werden bei diesen neuen Gewichtungsvarianten Beobachtungen mit &#8222;ungew&#246;hnlichen&#8220; Werten des PS (hier: PatientInnen in der TA-Gruppe, die aber eine hohe Wahrscheinlichkeit f&#252;r eine MIC haben, und umgekehrt) nicht <Mark2>herauf</Mark2>-, sondern <Mark2>herunter</Mark2>gewichtet. Damit vermeidet man in Situationen mit initial schlechtem Overlap extreme Gewichte, wie sie bei der Standard-IPTW-Gewichtung h&#228;ufig vorkommen <TextLink reference="17"></TextLink> und dann sogar zum kompletten nummerischen Zusammenbruch der Sch&#228;tzverfahren f&#252;hren k&#246;nnen. In unserem Datenbeispiel (vgl. Tabelle 2 <ImgLink imgNo="2" imgType="table"/>) wird zwar ein IPTW-Sch&#228;tzer berechnet, es finden sich aber maximale Gewichte von einzelnen Beobachtungen von &#252;ber 200. Das hei&#223;t, es gibt Beobachtungen, die mit mehr als dem 200-fachen statistischen Gewicht in die Analyse eingehen. Das sind aber gerade solche F&#228;lle, bei denen eine g&#228;nzlich unerwartete Behandlung durchgef&#252;hrt worden ist, die also auch mit einem gewissen Risiko fehlklassifiziert sein k&#246;nnten. In Situationen mit extremen Gewichten wird h&#228;ufig eine Trunkierung der Gewichte vorgeschlagen (<TextGroup><PlainText>s. z</PlainText></TextGroup>.B. <TextLink reference="19"></TextLink>), d.h. es werden Beobachtungen mit extremen Gewichten ausgeschlossen. Dies ist prinzipiell m&#246;glich, bringt aber z.B. das Problem mit sich, dass nicht offensichtlich klar ist, ab welchem Perzentil oder ab welcher Gr&#246;&#223;e des Gewichts Beobachtungen ausgeschlossen werden sollen.</Pgraph><Pgraph>Da eine Analyse mit Matching-Gewichten asymptotisch &#228;quivalent zum herk&#246;mmlichen PS-Matching ist und auch Matching- und Overlap-Gewichte sehr &#228;hnlich sind, &#252;berrascht es nicht, dass alle drei Verfahren zu sehr &#228;hnlichen Sch&#228;tzern des Hazard Ratio f&#252;hren. Der Effizi<TextGroup><PlainText>e</PlainText></TextGroup>nzgewinn der beiden modernen Gewichtungsverfahren ist allerdings betr&#228;chtlich; die jeweiligen Konfidenzintervalle sind bedeutend schmaler als beim PS-Matching.</Pgraph><Pgraph>Ein wesentlicher Teil der hier gemachten Empfehlungen basiert auf der Verwendung der SSQ<Subscript>zDiff</Subscript> als globales Balanciertheitsma&#223;. Bisher liegen keine Erkenntnisse zur Validit&#228;t der SSQ<Subscript>zDiff</Subscript> vor; unsere Empfehlungen gr&#252;nden sich im Wesentlichen auf die positive Erfahrung, die wir mit dieser in der praktischen Anwendung gemacht haben. Es existieren aber erste, bisher noch unver&#246;ffentlichte Erkenntnisse, dass die genannte Chi-Quadrat-Verteilung auch f&#252;r mittlere Korrelationen zumindest bez&#252;glich des Erwartungswerts noch g&#252;ltig ist. Wir arbeiten des Weiteren an der Herleitung der Verteilung der SSQ<Subscript>zDiff</Subscript> im allgemeineren Fall von korrelierten z-Differenzen und planen auch, die empirischen Korrelationen der z-Differenzen in den Individualdaten gro&#223;er RCTs zu pr&#252;fen <TextLink reference="20"></TextLink>. Bei Vorliegen einer Verteilung f&#252;r die SSQ<Subscript>zDiff</Subscript> wird es in Zukunft auch m&#246;glich sein, Konfidenzintervalle f&#252;r diese anzugeben, um die Abweichungen der gesch&#228;tzten SSQ<Subscript>zDiff</Subscript> von den Referenzpunkten eines RCT (SSQ<Subscript>zDiff</Subscript>&#61;k) und einer optimal gematchten PS-Analyse (SSQ<Subscript>zDiff</Subscript>&#61;k&#47;2) noch besser einordnen zu k&#246;nnen.</Pgraph><Pgraph>Das vorgeschlagene Vorgehen zur Minimierung der SSQ<Subscript>zDiff</Subscript> durch eine datengest&#252;tzte Minimierung der Caliperweite hat einen gewissen Ad-hoc-Charakter. Es ist nicht automatisch gew&#228;hrleistet, dass dieses Vorgehen zu einem Effektsch&#228;tzer f&#252;hrt, der einen guten Kompromiss zwischen guter Balanciertheit und hinreichend gro&#223;er Fallzahl darstellt. Im Gegenteil, es w&#228;re auch denkbar, dass durch die Minimierung der SSQ<Subscript>zDiff</Subscript> ein PatientInnenkollektiv zur Modellierung benutzt wird, das zu wenig extern valide ist. Hier w&#228;ren in der Zukunft theoretische &#220;berle<TextGroup><PlainText>g</PlainText></TextGroup>ungen oder Simulationsuntersuchungen hilfreich.</Pgraph><Pgraph>Eine bekannte Limitation des PS-Matchings ist, dass damit nur der &#8222;Average treatment effect in the treated&#8220; (ATT) gesch&#228;tzt werden kann. Dieser entspricht dem Effekt in einer Population, deren Kovariablenverteilung gleich dem der behandelten Population entspricht. Im vorliegenden Beispiel aus der Herzchirurgie k&#246;nnte aber auch der Behandlungseffekt in der gesamten Gruppe der Menschen, die eine neue Aortenklappe ben&#246;tigen, von Interesse sein. Dieser Effekt w&#228;re dann der &#8222;Average treatment effect&#8220; (ATE) und k&#246;nnte f&#252;r PatientInnen relevant sein, die sich autonom f&#252;r eine der beiden Behandlungsm&#246;g<TextGroup><PlainText>l</PlainText></TextGroup>ichkeiten entscheiden m&#246;chten. Eine Sch&#228;tzung des ATE kann z.B. mit IPTW-Gewichten erfolgen <TextLink reference="21"></TextLink>. </Pgraph><Pgraph>Durch die Verwendung von Overlap- und Matching-Gewichten ergibt sich auch bez&#252;glich der Populationen, f&#252;r die die berechneten Effektsch&#228;tzer g&#252;ltig sind, eine neue Sichtweise. Mit diesen Gewichten wird der Effekt in der Population gesch&#228;tzt, f&#252;r die die Verteilung der Kovariablen in beiden Behandlungsgruppen identisch ist und beide Behandlungen m&#246;glich sind (&#8222;Average treatment effect in the overlap population&#8220; (ATO)). Damit entspricht diese Population der eines RCTs, in dem f&#252;r alle PatientInnen beide Behandlungen gleich legitim sind und f&#252;r die Behandlungsempfehlungen eigentlich am notwendig<TextGroup><PlainText>s</PlainText></TextGroup>ten sind <TextLink reference="18"></TextLink>.</Pgraph><Pgraph>Zusammenfassend stellen PS-Analysen eine valide Methode zur Auswertung von nichtrandomisierten Studien dar. Die Validit&#228;t einer solchen Analyse h&#228;ngt allerdings wesentlich von der Balanciertheit der PatientInnenmerkmale in der PS-spezifischen Analyse und dem Overlap des PS in beiden Behandlungsgruppen ab. Nur bei Vorliegen von Balanciertheit und hinreichend Overlap k&#246;nnen Behandlungseffekte unverzerrt gesch&#228;tzt und kann die Population identifiziert werden, f&#252;r die diese Behandlungsef<TextGroup><PlainText>f</PlainText></TextGroup>ekte gelten. </Pgraph></TextBlock>
    <TextBlock linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Finanzielle Unterst&#252;tzung</SubHeadline><Pgraph>Diese Arbeit wurde nicht extern gef&#246;rdert. Das Deutsche Diabetes-Zentrum wird vom Ministerium f&#252;r Kultur und Wissenschaft des Landes Nordrhein-Westfalen und vom Bundesministerium f&#252;r Gesundheit finanziert.</Pgraph><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die AutorInnen erkl&#228;ren, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Rosenbaum PR</RefAuthor>
        <RefAuthor>Rubin DB</RefAuthor>
        <RefTitle>The central role of the propensity score in observational studies for causal effects</RefTitle>
        <RefYear>1983</RefYear>
        <RefJournal>Biometrika</RefJournal>
        <RefPage>41-55</RefPage>
        <RefTotal>Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika. 1983;70:41-55.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Kuss O</RefAuthor>
        <RefAuthor>Blettner M</RefAuthor>
        <RefAuthor>B&#246;rgermann J</RefAuthor>
        <RefTitle>Propensity Score: an Alternative Method of Analyzing Treatment Effects</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Dtsch Arztebl Int</RefJournal>
        <RefPage>597-603</RefPage>
        <RefTotal>Kuss O, Blettner M, B&#246;rgermann J. Propensity Score: an Alternative Method of Analyzing Treatment Effects. Dtsch Arztebl Int. 2016 Sep 5;113(35-36):597-603. 
DOI: 10.3238&#47;arztebl.2016.0597</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3238&#47;arztebl.2016.0597</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Oakes JM</RefAuthor>
        <RefAuthor>Johnson PJ</RefAuthor>
        <RefTitle>Propensity score matching methods for social epidemiology</RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Methods in Social Epidemiology</RefBookTitle>
        <RefPage>364-86</RefPage>
        <RefTotal>Oakes JM, Johnson PJ. Propensity score matching methods for social epidemiology. In: Oakes JM, Kaufman JS, editors. Methods in Social Epidemiology. San Francisco: Jossey-Bass&#47;Wiley; 2006. p. 364-86.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Stuart EA</RefAuthor>
        <RefTitle>Matching methods for causal inference: A review and a look forward</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Stat Sci</RefJournal>
        <RefPage>1-21</RefPage>
        <RefTotal>Stuart EA. Matching methods for causal inference: A review and a look forward. Stat Sci. 2010 Feb 1;25(1):1-21. 
DOI: 10.1214&#47;09-STS313</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1214&#47;09-STS313</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Weitzen S</RefAuthor>
        <RefAuthor>Lapane KL</RefAuthor>
        <RefAuthor>Toledano AY</RefAuthor>
        <RefAuthor>Hume AL</RefAuthor>
        <RefAuthor>Mor V</RefAuthor>
        <RefTitle>Weaknesses of goodness-of-fit tests for evaluating propensity score models: the case of the omitted confounder</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Pharmacoepidemiol Drug Saf</RefJournal>
        <RefPage>227-38</RefPage>
        <RefTotal>Weitzen S, Lapane KL, Toledano AY, Hume AL, Mor V. Weaknesses of goodness-of-fit tests for evaluating propensity score models: the case of the omitted confounder. Pharmacoepidemiol Drug Saf. 2005 Apr;14(4):227-38. 
DOI: 10.1002&#47;pds.986</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;pds.986</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Westreich D</RefAuthor>
        <RefAuthor>Cole SR</RefAuthor>
        <RefAuthor>Funk MJ</RefAuthor>
        <RefAuthor>Brookhart MA</RefAuthor>
        <RefAuthor>St&#252;rmer T</RefAuthor>
        <RefTitle>The role of the c-statistic in variable selection for propensity score models</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Pharmacoepidemiol Drug Saf</RefJournal>
        <RefPage>317-20</RefPage>
        <RefTotal>Westreich D, Cole SR, Funk MJ, Brookhart MA, St&#252;rmer T. The role of the c-statistic in variable selection for propensity score models. Pharmacoepidemiol Drug Saf. 2011 Mar;20(3):317-20. DOI: 10.1002&#47;pds.2074</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;pds.2074</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Imai K</RefAuthor>
        <RefAuthor>King G</RefAuthor>
        <RefAuthor>Stuart EA</RefAuthor>
        <RefTitle>Misunderstandings between experimentalists and observationalists about causal inference</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>J R Stat Soc Ser A-Statistics Soc</RefJournal>
        <RefPage>481-502</RefPage>
        <RefTotal>Imai K, King G, Stuart EA. Misunderstandings between experimentalists and observationalists about causal inference. J R Stat Soc Ser A-Statistics Soc. 2008;171:481-502.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Austin PC</RefAuthor>
        <RefTitle>Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>3083-107</RefPage>
        <RefTotal>Austin PC. Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples. Stat Med. 2009 Nov 10;28(25):3083-107. DOI: 10.1002&#47;sim.3697</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;sim.3697</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Cohen J</RefAuthor>
        <RefTitle>The t Test for Means</RefTitle>
        <RefYear>1977</RefYear>
        <RefBookTitle>Statistical power analysis for the behavioral sciences</RefBookTitle>
        <RefPage>19-74</RefPage>
        <RefTotal>Cohen J. Statistical power analysis for the behavioral sciences. Toronto: Academic Press, Inc.; 1977. The t Test for Means. p. 19-74.</RefTotal>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Austin PC</RefAuthor>
        <RefTitle>Using the standardized difference to compare the prevalence of a binary variable between two groups in observational research</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Commun Statistics-Simulation Comput</RefJournal>
        <RefPage>1228-34</RefPage>
        <RefTotal>Austin PC. Using the standardized difference to compare the prevalence of a binary variable between two groups in observational research. Commun Statistics-Simulation Comput. 2009;38(6):1228-34.</RefTotal>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Kuss O</RefAuthor>
        <RefTitle>The z-difference can be used to measure covariate balance in matched propensity score analyses</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>1302-7</RefPage>
        <RefTotal>Kuss O. The z-difference can be used to measure covariate balance in matched propensity score analyses. J Clin Epidemiol. 2013 Nov;66(11):1302-7. DOI: 10.1016&#47;j.jclinepi.2013.06.001</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.jclinepi.2013.06.001</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Rubin DB</RefAuthor>
        <RefAuthor>Thomas N</RefAuthor>
        <RefTitle>Characterizing the effect of matching using linear propensity score methods with normal distributions</RefTitle>
        <RefYear>1992</RefYear>
        <RefJournal>Biometrika</RefJournal>
        <RefPage>797-809</RefPage>
        <RefTotal>Rubin DB, Thomas N. Characterizing the effect of matching using linear propensity score methods with normal distributions. Biometrika. 1992;79(4):797-809.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Rubin DB</RefAuthor>
        <RefAuthor>Thomas N</RefAuthor>
        <RefTitle>Matching using estimated propensity scores: relating theory to practice</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Biometrics</RefJournal>
        <RefPage>249-64</RefPage>
        <RefTotal>Rubin DB, Thomas N. Matching using estimated propensity scores: relating theory to practice. Biometrics. 1996 Mar;52(1):249-64.</RefTotal>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Filla T</RefAuthor>
        <RefAuthor>Schwender H</RefAuthor>
        <RefAuthor>Kuss O</RefAuthor>
        <RefTitle>Measuring covariate balance in weighted propensity score analyses by the weighted z-difference &#91;Preprint&#93;</RefTitle>
        <RefYear>2022</RefYear>
        <RefJournal>arXiiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Filla T, Schwender H, Kuss O. Measuring covariate balance in weighted propensity score analyses by the weighted z-difference &#91;Preprint&#93;. arXiiv. 2022. DOI: 10.48550&#47;arXiv.2212.09490</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.48550&#47;arXiv.2212.09490</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Furukawa N</RefAuthor>
        <RefAuthor>Kuss O</RefAuthor>
        <RefAuthor>Emmel E</RefAuthor>
        <RefAuthor>Scholtz S</RefAuthor>
        <RefAuthor>Scholtz W</RefAuthor>
        <RefAuthor>Fujita B</RefAuthor>
        <RefAuthor>Ensminger S</RefAuthor>
        <RefAuthor>Gummert JF</RefAuthor>
        <RefAuthor>B&#246;rgermann J</RefAuthor>
        <RefTitle>Minimally invasive versus transapical versus transfemoral aortic valve implantation: A one-to-one-to-one propensity score-matched analysis</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>J Thorac Cardiovasc Surg</RefJournal>
        <RefPage>1825-34</RefPage>
        <RefTotal>Furukawa N, Kuss O, Emmel E, Scholtz S, Scholtz W, Fujita B, Ensminger S, Gummert JF, B&#246;rgermann J. Minimally invasive versus transapical versus transfemoral aortic valve implantation: A one-to-one-to-one propensity score-matched analysis. J Thorac Cardiovasc Surg. 2018 Nov;156(5):1825-34. 
DOI: 10.1016&#47;j.jtcvs.2018.04.104</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.jtcvs.2018.04.104</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Rubin DB</RefAuthor>
        <RefTitle>The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>20-36</RefPage>
        <RefTotal>Rubin DB. The design versus the analysis of observational studies for causal effects: parallels with the design of randomized trials. Stat Med. 2007 Jan 15;26(1):20-36. DOI: 10.1002&#47;sim.2739</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;sim.2739</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Li L</RefAuthor>
        <RefAuthor>Greene T</RefAuthor>
        <RefTitle>A weighting analogue to pair matching in propensity score analysis</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Int J Biostat</RefJournal>
        <RefPage>215-34</RefPage>
        <RefTotal>Li L, Greene T. A weighting analogue to pair matching in propensity score analysis. Int J Biostat. 2013 Jul 31;9(2):215-34. DOI: 10.1515&#47;ijb-2012-0030</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1515&#47;ijb-2012-0030</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Li F</RefAuthor>
        <RefAuthor>Morgan KL</RefAuthor>
        <RefAuthor>Zaslavsky AM</RefAuthor>
        <RefTitle>Balancing covariates via propensity score weighting</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>J Am Stat Assoc</RefJournal>
        <RefPage>390-400</RefPage>
        <RefTotal>Li F, Morgan KL, Zaslavsky AM. Balancing covariates via propensity score weighting. J Am Stat Assoc. 2018;113(521):390-400.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Goetghebeur E</RefAuthor>
        <RefAuthor>le Cessie S</RefAuthor>
        <RefAuthor>De Stavola B</RefAuthor>
        <RefAuthor>Moodie EE</RefAuthor>
        <RefAuthor>Waernbaum I</RefAuthor>
        <RefAuthor> &#8220;on behalf of&#8221; the topic group Causal Inference (TG7) of the STRATOS initiative</RefAuthor>
        <RefTitle>Formulating causal questions and principled statistical answers</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>4922-48</RefPage>
        <RefTotal>Goetghebeur E, le Cessie S, De Stavola B, Moodie EE, Waernbaum I; &#8220;on behalf of&#8221; the topic group Causal Inference (TG7) of the STRATOS initiative. Formulating causal questions and principled statistical answers. Stat Med. 2020 Dec 30;39(30):4922-48. DOI: 10.1002&#47;sim.8741</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;sim.8741</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Kuss O</RefAuthor>
        <RefAuthor>Miller M</RefAuthor>
        <RefTitle>Unknown confounders did not bias the treatment effect when improving balance of known confounders in randomized trials</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>9-16</RefPage>
        <RefTotal>Kuss O, Miller M. Unknown confounders did not bias the treatment effect when improving balance of known confounders in randomized trials. J Clin Epidemiol. 2020 Oct;126:9-16. 
DOI: 10.1016&#47;j.jclinepi.2020.06.012</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.jclinepi.2020.06.012</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Austin PC</RefAuthor>
        <RefTitle>An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Multivariate Behav Res</RefJournal>
        <RefPage>399-424</RefPage>
        <RefTotal>Austin PC. An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies. Multivariate Behav Res. 2011 May;46(3):399-424. 
DOI: 10.1080&#47;00273171.2011.568786</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;00273171.2011.568786</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Tabelle 1: Deskription der Merkmale Alter, Nierenfunktion (eGFR) und Vorliegen eines Diabetes und der Balanciertheit (z-Differenz f&#252;r das jeweilige Merkmal, Summe der quadrierten z-Differenzen &#91;SSQ</Mark1><Mark1><Subscript>zDiff</Subscript></Mark1><Mark1>&#93; &#252;ber alle 23 Merkmale im PS-Modell) vor und nach dem PS-Matching in der Beispielstudie</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Tabelle 2: Ergebnisse verschiedener Auswertungsmethoden f&#252;r den klinischen Outcome Zeit bis zum Tod im Follow-up in der Beispielstudie. Angegeben sind (Spalte 2) die (originale oder gewichtete) Fallzahl und die Anzahl der beobachteten Todesf&#228;lle und (Spalte 3) das Hazard Ratio mit 95&#37;-Konfidenzintervall mit der Referenzkategorie MIC. Berechnet werden jeweils Cox-Modelle in verschiedenen Varianten bzgl. der eingeschlossenen PatientInnen, Kovariablen bzw. Gewichtungen.</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="346" width="485">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: Balanciertheit (gemessen als Summe der quadrierten z-Differenzen, rot, linke y-Achse) und Anzahl der PS-gematchten Paare (blau, rechte y-Achse) in Abh&#228;ngigkeit von der gew&#228;hlten Caliperweite im PS-Matching-Algorithmus. Die optimale Balanciertheit (minimale SSQ</Mark1><Mark1><Subscript>zDiff</Subscript></Mark1><Mark1>) von 12,01 wird f&#252;r die Caliperweite 0,0284 erreicht.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="362" width="922">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 2: Histogramme des logit-transformierten PS (&#8222;Linearer Pr&#228;diktor&#8220;) vor (a) und nach (b) dem PS-Matching in den beiden Behandlungsgruppen in der Beispielstudie </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation)</Pgraph></Caption>
        </Figure>
        <Figure format="png" height="390" width="546">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 3: Kaplan-Meier-Sch&#228;tzer f&#252;r den klinischen Outcome Zeit bis zum Tod im Follow-up in der urspr&#252;nglichen PatientInnenpopulation (vor dem PS-Matching) in der Beispielstudie. Das zugeh&#246;rige Hazard Ratio &#91;95&#37;-KI&#93; aus einem Cox-Modell ist 6,40 &#91;5,33; 7,69&#93;. </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation) </Pgraph></Caption>
        </Figure>
        <Figure format="png" height="390" width="546">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 4: Kaplan-Meier-Sch&#228;tzer f&#252;r den klinischen Outcome Zeit bis zum Tod im Follow-up in der PS-gematchten Population (nach dem PS-Matching) in der Beispielstudie. Das zugeh&#246;rige Hazard Ratio &#91;95&#37;-KI&#93; aus einem f&#252;r das Matchingstratum stratifizierten Cox-Modell ist 1,25 &#91;0,79; 1,99&#93;. </Mark1><LineBreak></LineBreak>(MIC: konventionelle Aortenklappenoperation per Ministernotomie; TA: transapikale, katheterbasierte Aortenklappenimplantation)</Pgraph></Caption>
        </Figure>
        <NoOfPictures>4</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>