<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>mibe000168</Identifier>
    <IdentifierDoi>10.3205/mibe000168</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-mibe0001683</IdentifierUrn>
    <ArticleType>Originalarbeit</ArticleType>
    <TitleGroup>
      <Title language="de">Surrogatvalidierung durch Korrelation und Surrogate Threshold Effect &#8211; Ergebnisse von Simulationsstudien</Title>
      <TitleTranslated language="en">Validation of surrogates by correlation and surrogate threshold effect &#8211; Results of simulation studies</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Gillhaus</Lastname>
          <LastnameHeading>Gillhaus</LastnameHeading>
          <Firstname>Johanna</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address>Pfizer Deutschland GmbH, Linkstra&#223;e 10, 10785 Berlin, Deutschland<Affiliation>Pfizer Deutschland GmbH, Berlin, Deutschland</Affiliation></Address>
        <Email>Johanna.Gillhaus&#64;pfizer.com</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Goertz</Lastname>
          <LastnameHeading>Goertz</LastnameHeading>
          <Firstname>Ralf</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address>
          <Affiliation>AMS Advanced Medical Services GmbH, Mannheim, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Jeratsch</Lastname>
          <LastnameHeading>Jeratsch</LastnameHeading>
          <Firstname>Ulli</Firstname>
          <Initials>U</Initials>
        </PersonNames>
        <Address>
          <Affiliation>AMS Advanced Medical Services GmbH, M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Leverkus</Lastname>
          <LastnameHeading>Leverkus</LastnameHeading>
          <Firstname>Friedhelm</Firstname>
          <Initials>F</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Pfizer Deutschland GmbH, Berlin, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">validation of surrogates</Keyword>
      <Keyword language="en">correlation</Keyword>
      <Keyword language="en">surrogate threshold effect</Keyword>
      <Keyword language="en">progression-free survival</Keyword>
      <Keyword language="en">benefit assessment</Keyword>
      <Keyword language="de">Surrogatvalidierung</Keyword>
      <Keyword language="de">Korrelation</Keyword>
      <Keyword language="de">Surrogate Threshold Effect</Keyword>
      <Keyword language="de">progressionsfreies &#220;berleben</Keyword>
      <Keyword language="de">Nutzenbewertung</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      
    <DatePublished>20170111</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1860-9171</ISSN>
        <Volume>13</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Medizinische Informatik, Biometrie und Epidemiologie</JournalTitle>
        <JournalTitleAbbr>GMS Med Inform Biom Epidemiol</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>01</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund:</Mark1> In onkologischen Studien wird oftmals statt des patientenrelevanten Endpunkts Gesamt&#252;berleben (overall survival, OS) der Endpunkt progressionsfreies &#220;berleben (progression-free survival, PFS) erfasst. F&#252;r eine Anerkennung von PFS als patientenrelevant im Verfahren der Nutzenbewertung nach &#167; 35a SGB V gilt es, dieses als Surrogatendpunkt f&#252;r OS in der betrachteten Indikation zu validieren. Das Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) hat im Rahmen eines Rapid Report Methoden zur Validierung von Surrogatendpunkten dargestellt und Empfehlungen zur Verwendung von korrelationsbasierten Verfahren ausgesprochen. In diesen Methoden werden die Einsch&#228;tzung der Aussagesicherheit der Studienergebnisse und der Zusammenhang zwischen den Effektsch&#228;tzern des Surrogats und des patientenrelevanten Endpunkts auf Studienebene einbezogen. Der Zusammenhang wird mit dem Korrelationskoeffizienten <Mark2>r</Mark2> bzw. dem Bestimmtheitsma&#223; <Mark2>R&#178;</Mark2> und entsprechendem Konfidenzintervall (KI) gemessen. F&#252;r den Nachweis der Validit&#228;t des Surrogats m&#252;ssen eine hohe Korrelation sowie eine hohe Aussagesicherheit der Studienergebnisse vorliegen. Im Falle einer mittleren Korrelation kann das Konzept des Surrogate Threshold Effects (STE) zur Festlegung von Schwellenwerten f&#252;r den Effektsch&#228;tzer des Surrogatendpunkts angewandt werden. </Pgraph><Pgraph><Mark1>Methoden:</Mark1> In Simulationsstudien wird nun untersucht, welche Bedingungen f&#252;r eine erfolgreiche Surrogatvalidierung mit korrelationsbasierten Verfahren erf&#252;llt sein m&#252;ssen. Variierende Parameter sind die Effektsch&#228;tzer des Surrogats und des patientenrelevanten Endpunkts, die Korrelation zwischen den Effektsch&#228;tzern, die Patientenanzahl sowie die Anzahl der Studien. Es wird analysiert, in welchen Szenarien der Nachweis einer hohen Korrelation gelingt und falls nicht, welche Voraussetzungen vorliegen m&#252;ssen, dass anhand des Surrogats unter Einbeziehen des STE-Konzepts noch Schl&#252;sse auf den patientenrelevanten Endpunkt gezogen werden k&#246;nnen. Die Herausforderungen der vom IQWiG pr&#228;ferierten Methodik zur Surrogatvalidierung in der Praxis werden analysiert.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Die Simulation der Surrogatvalidierung &#252;ber das korrelationsbasierte Verfahren sowie die analytische Herleitung der Power zeigen, dass diese bei moderater Studienanzahl und starker zugrundeliegender wahrer Korrelation dennoch sehr gering ist. Die Power liegt f&#252;r <Mark2>n</Mark2>&#61;5 Studien und Korrelation <Mark2>&#961;</Mark2>&#61;0,9 unter 6&#37;. Es w&#228;re eine sehr hohe Korrelation von <Mark2>&#961;</Mark2>&#61;0,95 in mindestens <Mark2>n</Mark2>&#61;25 Studien erforderlich, um eine Power von 80&#37; zu erhalten. Dieses Szenario ist in der Realit&#228;t allerdings als unplausibel anzusehen. In der Simulation zur Anwendung des STE-Konzepts lag die Power nur bei etwa ein F&#252;nftel der betrachteten Szenarien &#252;ber 80&#37;. Dabei handelte es sich jedoch um Szenarien, in denen die Parameterkonstellationen aus hoher Studien- und Patientenanzahl und gro&#223;em Effekt des OS eher unrealistisch sind. Der Parameter der Korrelation <Mark2>&#961;</Mark2> zwischen den Effektsch&#228;tzern der Studien wirkt sich ebenso wie verschiedene Effekte des PFS kaum auf die Power des STE-Verfahrens aus. </Pgraph><Pgraph><Mark1>Schlussfolgerung:</Mark1> Die durchgef&#252;hrten Simulationen zeigen, dass die im Rapid Report beschriebene Methodik, wonach die untere Grenze des Konfidenzintervalls ausschlaggebend f&#252;r eine hohe Korrelation bei der Surrogatvalidierung sein soll, eine in der Praxis kaum zu &#252;berwindende H&#252;rde darstellt. Bei gering bis moderat angenommener Studienanzahl - wie es f&#252;r eine Validierung von Surrogatendpunkten im Rahmen der fr&#252;hen Nutzenbewertung realistisch erscheint - ist die Power selbst bei hoher, wahrer Korrelation &#228;u&#223;erst gering. Problematisch erscheint weiterhin die Empfehlung, die Aussagekraft der Studien in die Analyse mit einzubeziehen, auch wenn dies prinzipiell gerechtfertigt erscheint. Bei Betrachtung der Definition des Korrelationskoeffizienten und dessen Dichtefunktion wird zudem klar, dass die empirische Korrelation unter Annahme einer festen wahren Korrelation gar nicht von der Varianz der Einzelsch&#228;tzer, sondern nur von der Anzahl der Wertepaare abh&#228;ngt. Die Patientenanzahl hat somit keine Auswirkung auf das Konfidenzintervall der Korrelation. Dies gilt ebenso, wenn Modelle mit Gewichtung der Studien verwendet werden. Die Anwendung des STE-Konzeptes gem&#228;&#223; der im Rapid Report beschriebenen Methodik erscheint ebenfalls schwierig. Ein Vergleich des STE mit dem Punktsch&#228;tzer des Surrogatendpunkts w&#228;re eine Alternative, die in realistischen Szenarien geringe &#945;-Fehler zeigte.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background:</Mark1> Progression-free survival (PFS) is often used instead of the patient-relevant endpoint overall survival (OS) in cancer clinical trials.  In order for PFS to be accepted as a patient-relevant outcome within the benefit assessment of pharmaceuticals in accordance with the German Social Code, Book Five (SGB V), section 35a, it has to be validated as a surrogate endpoint for OS in the relevant indication. As part of a rapid report the Institute for Quality and Efficiency in Health Care (Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen &#8211; IQWiG) presented methods for surrogate endpoints validation and recommendations for correlation-based procedures. These methods include the evaluation of the certainty of conclusion of study results and the correlation between estimates of surrogate outcome and patient-relevant outcome on trial-level. The correlation is estimated by sample Pearson correlation coefficient <Mark2>r</Mark2> or coefficient of determination <Mark2>R&#178;</Mark2> and respective confidence interval (CI). Requirements for surrogate validation are a high correlation and a high certainty of conclusion of the study results. In case of medium correlation IQWiG methods propose applying the concept of surrogate threshold effect (STE) to determine thresholds for the estimate of the surrogate endpoint.</Pgraph><Pgraph><Mark1>Methods:</Mark1> In simulation studies we investigate the requirements for a successful surrogate validation when applying a correlation-based approach. Simulation parameters are the estimates of the surrogate and the patient-relevant outcome, the correlation between them, the number of patients and the number of studies. We analyzed different scenarios in order to figure out parameters contributing to high correlation. Furthermore, we investigate requirements of the STE method, allowing conclusions on patient-relevant endpoints by means of surrogate endpoints. Finally, in consideration of IQWiG methods we analyze the challenges of surrogate validation in practical use.</Pgraph><Pgraph><Mark1>Results:</Mark1> Both, simulations of the surrogate validation using correlation-based procedure as well as an analytical derivation show low statistical power despite a medium-sized number of studies and a high true correlation. The power for <Mark2>n</Mark2>&#61;5 studies and correlation <Mark2>&#961;</Mark2>&#61;0.9 is below 6&#37;. A very high true correlation of <Mark2>&#961;</Mark2>&#61;0.95 in at least <Mark2>n</Mark2>&#61;25 studies would be required in order to preserve a power of 80&#37;, however this scenario is considered implausible in practice. Further simulations investigating the power of the method of STE showed that only one fifth of the considered scenarios have power above 80&#37;. However, these scenarios included parameter constellations with impractical values regarding number of studies, number of patients and effect estimate of OS. The correlation parameter <Mark2>&#961;</Mark2> as well as the parameter of the estimate of PFS barely have an impact on the power of the STE procedure.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> Our simulations show that in practical use it is quite unlikely to fulfill the condition of high correlation as defined in the rapid report of IQWiG, proposing the lower limit of confidence interval to be crucial. Despite setting the true correlation in the model to a high value, statistical power will be quite small as long as the number of studies remains low or medium which is a realistic assumption in validation of surrogate endpoints within the framework of early benefit assessment. Besides, recommendation to involve certainty of studies in the analysis remains problematic. On closer inspection of the density function of sample correlation coefficient and assuming a given true correlation we can conclude that sample correlation does not depend on the variance of the single estimates but only on sample size (representing the number of studies in the model). Therefore, patient number does not have an impact on the confidence interval of the correlation whether using weight vectors for studies or not. Application of the STE concept according to the requirements described in the rapid report appears to be rather complicated as well. We propose an alternative solution of comparing the value of STE with point estimate of the surrogate endpoint instead of its lower level of confidence interval showing low &#945;-errors in realistic scenarios.</Pgraph></Abstract>
    <TextBlock linked="yes" name="Hintergrund">
      <MainHeadline>Hintergrund</MainHeadline><Pgraph>Im Rahmen der fr&#252;hen Nutzenbewertung nach &#167; 35a SGB V des Arzneimittelmarktneuordnungsgesetzes (AMNOG) werden Entscheidungen auf Basis patientenrelevanter Endpunkte getroffen <TextLink reference="1"></TextLink>. Dazu z&#228;hlen laut Verfahrensordnung Mortalit&#228;t, Morbidit&#228;t und gesundheitsbezogene Lebensqualit&#228;t <TextLink reference="1"></TextLink>. Falls keine wahren Endpunkte vorgelegt werden, k&#246;nnen anstelle dieser unter Umst&#228;nden auch Surrogatparameter akzeptiert werden. Diese Aussage findet sich auch in den ICH E9 Guidelines <TextLink reference="2"></TextLink>. Surrogatparameter sind im Gegensatz zu wahren Endpunkten oftmals einfacher, schneller und kosteng&#252;nstiger zu erheben <TextLink reference="3"></TextLink>. In der Literatur wird ein Surrogatparameter oftmals als ein Biomarker verstanden, der den klinischen Endpunkt ersetzen soll, mit der Absicht den wahren Endpunkt vorherzusagen <TextLink reference="4"></TextLink>. Oftmals wird missverstanden, dass Biomarker per se validierte Surrogate sind <TextLink reference="5"></TextLink>. Im Rahmen der fr&#252;hen Nutzenbewertung wird ein Surrogatendpunkt nur dann akzeptiert, wenn dieser im betrachteten Zusammenhang als valide gesehen werden kann, oder daraus hinreichend pr&#228;zise Aussagen zum patientenrelevanten Endpunkt gefolgert werden k&#246;nnen (Anlage II.6: Modul 4 <TextLink reference="1"></TextLink>). Hier wird der oftmals in onkologischen Studien gemessene Endpunkt PFS in der Regel bisher nicht als patientenrelevanter Endpunkt f&#252;r OS akzeptiert.</Pgraph><Pgraph>Der Gemeinsame Bundesausschuss (G-BA) hat das IQWiG mit der Fragestellung der Validierung von Surrogaten beauftragt, das 2011 den Rapid Report &#8222;Aussagekraft von Surrogatparametern in der Onkologie&#8220; ver&#246;ffentlichte <TextLink reference="6"></TextLink>. Darin wurden in Teilziel 1 (&#8222;Darstellung und Bewertung methodischer Verfahren&#8220;) sowohl aktuelle wissenschaftliche Methoden vorgestellt als auch eine Empfehlung zur Validierung von Surrogatendpunkten abgegeben. Zur Validierung empfiehlt das IQWiG das aktuell prim&#228;r bef&#252;rwortete korrelationsbasierte Verfahren zur Sch&#228;tzung von Korrelationsma&#223;en auf Studien- und individueller Ebene. Andere Validierungsmethoden m&#252;ssten ausreichend begr&#252;ndet werden. Damit wird eine deutliche Pr&#228;ferenz f&#252;r die Benutzung der Korrelation ausgesprochen. Auch beim korrelationsbasierten Verfahren ist anzumerken, dass das blo&#223;e Aufzeigen einer Korrelation zwischen Surrogatendpunkt und klinischem Endpunkt nicht gen&#252;gt. F&#252;r eine erfolgreiche Validierung soll &#8222;vorzugsweise eine Meta-Analyse von mehreren randomisierten Studien mit ausreichender Ergebnissicherheit&#8220; eingesetzt werden <TextLink reference="6"></TextLink>. Dabei muss die Eingrenzung sowohl auf das Indikationsgebiet als auch auf die Intervention ber&#252;cksichtigt werden. Des Weiteren wird angemerkt, dass kein &#8222;universell anzuwendendes Ma&#223; noch eine allgemein beste Sch&#228;tzmethode noch eine allgemein akzeptierte Grenze, deren &#220;berschreitung den Nachweis der Validit&#228;t bedeuten w&#252;rde&#8220; existiere <TextLink reference="6"></TextLink>.</Pgraph><Pgraph>Da das Aufzeigen einer Korrelation zwischen Surrogatendpunkt und klinischem Endpunkt auf Basis einer einzelnen Studie nicht ausreiche, entwickelte das IQWiG zur Durchf&#252;hrung einer Validierung einen zweistufigen Algorithmus. W&#228;hrend im ersten Schritt die f&#252;r die Validierung herangezogenen Studien bez&#252;glich ihrer Aussagekraft bewertet werden, wird im zweiten Schritt die Validit&#228;t des Surrogats beurteilt, welche ma&#223;geblich durch das Ergebnis der Korrelation zwischen Surrogatendpunkt und patientenrelevantem Endpunkt bestimmt wird. </Pgraph><Pgraph>Nach der im Rapid Report des IQWiG erl&#228;uterten Methodik wird die St&#228;rke der Korrelation auf dem 95&#37;-Konfidenzintervall des Korrelationskoeffizienten zwischen den Effektsch&#228;tzern des Surrogatendpunkts und des patientenrelevanten Endpunkts in die Kategorien hoch, mittel und niedrig klassifiziert. Hohe Korrelation besteht dann, wenn das Konfidenzintervall vollst&#228;ndig &#252;ber 0,85 liegt. In Verbindung mit hoher Aussagesicherheit der Ergebnisse ist dies Voraussetzung f&#252;r den Nachweis einer Validit&#228;t des Surrogats. Wenn das Konfidenzintervall vollst&#228;ndig unter 0,7 liegt, wird von niedriger Korrelation gesprochen und es ist keine Aussage &#252;ber die Validit&#228;t des Surrogats m&#246;glich. In allen anderen F&#228;llen, in denen die eben genannten Grenzwerte nicht komplett &#252;ber- bzw. unterschritten werden, liegt mittlere Korrelation vor. Die Validit&#228;t des Surrogats ist dann unklar.</Pgraph><Pgraph>In Situationen, in denen keine hohe Korrelation vorliegt, k&#246;nnen durch Anwendung des STE Konzeptes bei hinreichend gro&#223;en Effekten f&#252;r das Surrogat noch Aussagen bez&#252;glich patientenrelevanter Endpunkte getroffen werden. Buyse und Burzykowski <TextLink reference="5"></TextLink> beschreiben den STE in einem Modell mit patientenindividuellen &#220;berlebenszeiten in Surrogatendpunkt und wahrem Endpunkt. Im Rahmen der Nutzenbewertung erscheint dieser Ansatz eher ungeeignet, da der pharmazeutische Unternehmer (pU) die daf&#252;r ben&#246;tigten Daten in der Regel nur f&#252;r seine eigene Studie &#8211; in der das Surrogat validiert werden soll &#8211; zur Verf&#252;gung hat, nicht aber f&#252;r diejenigen Studien, dessen Daten f&#252;r die Surrogatvalidierung herangezogen werden sollen. Auch das IQWiG sieht von einem Ansatz mit individuellen Patientendaten im Hinblick auf eine Nutzenbewertung ab. Es wird der oben erw&#228;hnte meta-analytische Ansatz auf Studienebene verfolgt, bei dem zun&#228;chst die Korrelation der Behandlungseffekte auf Surrogat- und patientenrelevantem Endpunkt berechnet wird. Sollte die Korrelation im mittleren Bereich liegen, best&#252;nde nach Methodik des Rapid Reports immer noch die M&#246;glichkeit eine Schlussfolgerung f&#252;r einen Effekt bez&#252;glich des patientenrelevanten Endpunkts unter Verwendung des STE-Konzepts zu ziehen.</Pgraph><Pgraph>Im Folgenden werden am besonderen Beispiel der onkologischen Endpunkte PFS und OS Simulationsstudien vorgestellt, die sich mit den Voraussetzungen auseinander setzen, die f&#252;r eine erfolgreiche Surrogatvalidierung laut aktueller vorgeschlagener wissenschaftlicher Methodik gem&#228;&#223; Rapid Report <TextLink reference="6"></TextLink> vorliegen m&#252;ssen. Die erste Simulation basiert auf dem &#8222;einfachen&#8220; Korrelationskoeffizienten nach Bravais-Pearson, eine zweite Simulation bezieht sich auf den STE zur Festlegung von Schwellenwerten f&#252;r den Effektsch&#228;tzer des Surrogatendpunkts. Das Design und die Ergebnisse der Simulationen werden jeweils pr&#228;sentiert und diskutiert. Hierbei wird insbesondere auf die Umsetzung in der Realit&#228;t mit Hinblick auf die Onkologie eingegangen. Abschlie&#223;end werden m&#246;gliche Ideen f&#252;r alternative Methoden zur Surrogatvalidierung genannt.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><Pgraph>Die Durchf&#252;hrung der Simulation sowie der Erstellung aller Grafiken erfolgt mit der Statistik-Software R <TextLink reference="7"></TextLink>. Insbesondere werden die Pakete MASS, und metafor <TextLink reference="8"></TextLink> verwendet.</Pgraph><SubHeadline>Simulation 1: Surrogatvalidierung &#252;ber korrelationsbasierte Verfahren </SubHeadline><SubHeadline2>Geplante Vorgehensweise</SubHeadline2><Pgraph>Ziel dieser ersten Simulationsstudie ist es, die Power des Tests zur Surrogatvalidierung zu ermitteln, die unter den Vorgaben des IQWiG zum Nachweis einer hohen Korrelation vorliegt. Es ist also zu bestimmen, wie oft das 95&#37;-KI des empirischen Korrelationskoeffizienten <Mark2>r</Mark2> zwischen den Effektsch&#228;tzern des patientenrelevanten Endpunktes OS und des Surrogatendpunktes PFS vollst&#228;ndig oberhalb von 0,85 liegt. Wie in der Biometrie &#252;blich betrachtet man als Effektsch&#228;tzer f&#252;r OS und PFS Hazard Ratios (HR), die hier logarithmiert werden. Die Simulation wird mit der Statistik-Software R <TextLink reference="7"></TextLink> durchgef&#252;hrt. Dazu werden folgenden Annahmen gemacht:</Pgraph><Pgraph><Indentation><Mark1>a)</Mark1> Es liegen f&#252;r eine Validierung <Mark2>n</Mark2> Studien vor mit <Mark2>n</Mark2> <ImgLink imgNo="1" imgType="inlineFigure"/> &#123;5, 10, 20&#125;.</Indentation></Pgraph><Pgraph><Indentation><Mark1>b)</Mark1> F&#252;r jede der <Mark2>n</Mark2> Studien wird angenommen, dass diese mit jeweils <Mark2>N</Mark2> Patienten durchgef&#252;hrt wurde, die in zwei gleich gro&#223;e Studienarme (Verum und Kontrolle) randomisiert wurden mit <Mark2>N</Mark2> <ImgLink imgNo="1" imgType="inlineFigure"/> &#123;100, 200, 500&#125;.</Indentation></Pgraph><Pgraph><Indentation><Mark1>c)</Mark1> F&#252;r jede der <Mark2>n</Mark2> Studien wird f&#252;r das OS ein Hazard Ratio simuliert, mit <ImgLink imgNo="2" imgType="inlineFigure"/>.</Indentation></Pgraph><Pgraph><Indentation><Mark1>d)</Mark1> F&#252;r jede der <Mark2>n</Mark2> Studien wird f&#252;r das PFS ein HR simuliert, mit <ImgLink imgNo="3" imgType="inlineFigure"/>, wobei eine wahre Korrelation von <Mark2>&#961;</Mark2>&#61;0,9 zwischen <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> zugrunde gelegt wird.</Indentation></Pgraph><Pgraph><Indentation><Mark1>e)</Mark1> Die Varianzen <ImgLink imgNo="4" imgType="inlineFigure"/> und <ImgLink imgNo="5" imgType="inlineFigure"/> ergeben sich aus den Ereigniszahlen der jeweiligen Studie nach der Formel<LineBreak></LineBreak><ImgLink imgNo="6" imgType="inlineFigure"/><LineBreak></LineBreak>wobei <Mark2>N</Mark2><Mark2><Subscript>V</Subscript></Mark2> und <Mark2>N</Mark2><Mark2><Subscript>C</Subscript></Mark2> die erwartete Anzahl der Ereignisse im Verum- bzw. im Kontrollarm bezeichnen (Gleichungen 3 u. 6, <TextLink reference="9"></TextLink>). Es wird von einer Todesrate von 80&#37; und einer Progressionsrate von 90&#37; im Beobachtungszeitraum ausgegangen.</Indentation></Pgraph><Pgraph><Indentation><Mark1>f)</Mark1> Jedes der durch die Kombination der Parameter in a) und b) entstehenden neun Szenarien wird 10.000 Mal simuliert und dabei der empirische Korrelationskoeffizient <Mark2>r</Mark2> mit 95&#37; KI zwischen den <Mark2>HR</Mark2> &#252;ber die <Mark2>n</Mark2> Studien hinweg ermittelt. Die relative Anzahl der F&#228;lle, in denen die untere Grenze des Konfidenzintervalls gr&#246;&#223;er als 0,85 ist, ergibt die Power des Validierungstests.</Indentation></Pgraph><Pgraph>Das Konfidenzintervall der Korrelation wird der &#252;blichen Vorgehensweise entsprechend &#252;ber die Fisher-z-Transformation <TextLink reference="10"></TextLink>, die eine Areatangens-Hyperbolicus-Transformation (artanh) ist, und deren Inverse, also eine Tangens-Hyperbolicus-Transformation (tanh), bestimmt:</Pgraph><Pgraph><Indentation><ImgLink imgNo="7" imgType="inlineFigure"/><LineBreak></LineBreak><ImgLink imgNo="8" imgType="inlineFigure"/></Indentation></Pgraph><Pgraph>Durch diese Transformation erh&#228;lt man ein approximativ normalverteiltes Ma&#223; <Mark2>z</Mark2> mit Erwartungswert <ImgLink imgNo="9" imgType="inlineFigure"/> und Standardabweichung <ImgLink imgNo="10" imgType="inlineFigure"/>, wobei <Mark2>n</Mark2> die Anzahl der zur Bestimmung des Korrelationskoeffizienten benutzten Paare ist. Das 95&#37;-KI von <Mark2>z</Mark2> ergibt sich dann wie gewohnt aus</Pgraph><Pgraph><Indentation><ImgLink imgNo="11" imgType="inlineFigure"/></Indentation></Pgraph><Pgraph>mit &#934;<Superscript>&#8211;1</Superscript> als der Inversen der Verteilungsfunktion der Standardnormalverteilung. Durch die R&#252;cktransformation gem&#228;&#223; (3) kommt man zum Konfidenzintervall f&#252;r <Mark2>r</Mark2>.</Pgraph><Pgraph>Die Korrelation der zu generierenden Zufallsvariablen <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> wird &#252;ber die Zerlegung der gew&#252;nschten Kovarianz-Matrix <Mark2>&#931;&#61;LL</Mark2><Mark2><Superscript>T</Superscript></Mark2> realisiert. Die Eintr&#228;ge von <Mark2>&#931;</Mark2> ergeben sich aus den Vorgaben. Auf der Diagonale finden sich die Varianzen f&#252;r <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2>. Die Kovarianz ergibt sich aus der Umstellung der Definition des Korrelationskoeffizienten</Pgraph><Pgraph><Indentation><ImgLink imgNo="12" imgType="inlineFigure"/></Indentation></Pgraph><Pgraph>und der Forderung, dass die wahre Korrelation <Mark2>&#961;</Mark2> einen festen Wert hat.</Pgraph><Pgraph>F&#252;r die Bestimmung der Matrix <Mark2>L</Mark2> bieten sich zum Beispiel die Cholesky-Zerlegung und die Eigenwert-Zerlegung an. F&#252;r diese Simulation wird letztere verwendet, da diese in der R-Funktion mvrnorm(n, &#956;, &#931;) aus dem Paket MASS implementiert ist <TextLink reference="11"></TextLink>. Diese Funktion liefert <Mark2>n</Mark2> multivariat normalverteilte Zufallszahlen mit zentraler Tendenz <Mark2>&#956;</Mark2> und Kovarianzmatrix <Mark2>&#931;</Mark2>.</Pgraph><SubHeadline2>Tats&#228;chliches Vorgehen</SubHeadline2><SubHeadline3>Unabh&#228;ngigkeit der Korrelation von der Varianz der Einzelsch&#228;tzer</SubHeadline3><Pgraph>Die geplante Vorgehensweise erweist sich in einem Punkt als undurchf&#252;hrbar. Durch die Einf&#252;hrung des Parameters Patientenanzahl <Mark2>N</Mark2> soll dem Einfluss der Aussagesicherheit der Studien Rechnung getragen werden. Dies geschieht in der Annahme, dass gro&#223;e Studien auch eine h&#246;here Aussagekraft bez&#252;glich der Sch&#228;tzer <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> haben. Dies ist tats&#228;chlich der Fall, denn mit steigender Patientenzahl nimmt auch die Anzahl der erwarteten Ereignisse zu, was nach Gleichung (1) zu niedrigeren Varianzen f&#252;hrt. Die Sch&#228;tzer haben somit ein kleineres Konfidenzintervall. Die Variabilit&#228;t der Sch&#228;tzer hat jedoch <Mark2>keinen</Mark2> Einfluss auf die Korrelation der beiden Ma&#223;e, da die Korrelation gerade die an der Varianz der Einzelsch&#228;tzer normierte Kovarianz darstellt und eine Ver&#228;nderung der Varianz eines Sch&#228;tzers exakt durch die Kovarianz beider Sch&#228;tzer kompensiert wird. Durch die Annahme einer wahren Korrelation zwischen den beiden Ma&#223;en bleibt die Kopplung also vollst&#228;ndig erhalten.</Pgraph><Pgraph>Die Patientenanzahl hat zudem keine Auswirkung auf das Konfidenzintervall der Korrelation, denn dieses ist, wie der Term (4) zeigt, einzig und allein vom Korrelationskoeffizienten <Mark2>r</Mark2> selbst und der Studienanzahl <Mark2>n</Mark2> abh&#228;ngig. Insbesondere ist also das Konfidenzintervall f&#252;r ein gegebenes <Mark2>r</Mark2> vollst&#228;ndig durch die Anzahl der Studien <Mark2>n</Mark2> determiniert. Diese Eigenschaft ist kein Nebenprodukt der Fisher-z-Transformation, denn auch die exakte Verteilung des empirischen Korrelationskoeffizienten (und damit dessen Varianz) zeigt nur eine Abh&#228;ngigkeit von <Mark2>&#961;</Mark2> und <Mark2>n</Mark2>. Diese an sich bekannte und triviale Tatsache erscheint bei oberfl&#228;chlicher Betrachtung in diesem Zusammenhang dennoch zun&#228;chst kontraintuitiv. Geringere Patientenanzahl beeinflusst nur die Lage der Ma&#223;e, nicht jedoch ihre Korrelation. </Pgraph><Pgraph>Es ergeben sich auch keine anderen Ergebnisse, wenn Studien unterschiedlich gewichtet w&#252;rden oder meta-analytische Verfahren angewandt werden. Unter der Voraussetzung, dass die wahre Korrelation <Mark2>&#961;</Mark2> f&#252;r alle diese Studien dieselbe ist, f&#252;hrt eine Gewichtung im Einzelfall zu anderer empirischer Korrelation <Mark2>r</Mark2>, der Erwartungswert f&#252;r dieses <Mark2>r</Mark2> &#228;ndert sich jedoch nicht. Lediglich die Verteilung von <Mark2>r</Mark2> mag eine andere sein. Genauso wenig f&#252;hrt eine Gewichtung zu anderen Konfidenzintervallen, da f&#252;r dessen Bestimmung au&#223;er <Mark2>r</Mark2> auch dann nur <Mark2>n</Mark2> ausschlaggebend ist. Beispielhaft wird dies im folgenden Abschnitt gezeigt. </Pgraph><Pgraph>Angenommen, die wahre Korrelation ist selbst kein fester Wert sondern eine Zufallsvariable, &#228;hnlich einem Modell mit zuf&#228;lligen Effekten. Dann stellt sich die Frage, ob eine Gewichtung bessere Sch&#228;tzungen der Korrelation erlaubt. Sei zum Beispiel <Mark2>S</Mark2><Mark2><Subscript>0</Subscript></Mark2> die Menge der &#8222;genauen&#8220; Studien mit vielen Patienten, f&#252;r die die Korrelation auf <Mark2>&#961;</Mark2>&#61;0,82 festgelegt ist, sowie die Menge <Mark2>S</Mark2><Mark2><Subscript>1</Subscript></Mark2> der weniger genauen Studien mit nur einem F&#252;nftel der Patientenzahl und <Mark2>&#961;</Mark2>&#61;0,778. Damit w&#228;re der &#252;ber die Fisher-z-Skala gebildete Mittelwert wieder 0,8. (Allein diese Richtungsentscheidung einer h&#246;heren Korrelation f&#252;r <Mark2>S</Mark2><Mark2><Subscript>0</Subscript></Mark2> ist willk&#252;rlich, denn warum sollten gerade die <Mark2>genauen</Mark2> Studien aus einer Grundgesamtheit kommen, der eine <Mark2>h&#246;here</Mark2> Korrelation zugrunde liegt.) Eine Simulation (<Mark2>n</Mark2>&#61;1.000) dieses Szenarios mit jeweils f&#252;nf Studien aus <Mark2>S</Mark2><Mark2><Subscript>0</Subscript></Mark2> und <Mark2>S</Mark2><Mark2><Subscript>1</Subscript></Mark2> ergab im Mittel Korrelationen von 0,781 f&#252;r die ungewichtete und 0,786 f&#252;r die mit inverser Varianz gewichtete Korrelation, so dass man von einer marginalen Verbesserung der Sch&#228;tzungen ausgehen k&#246;nnte. Allerdings war der mittlere Sch&#228;tzer 0,800 f&#252;r den Fall, dass die Studien aus <Mark2>S</Mark2><Mark2><Subscript>i</Subscript></Mark2> mit dem Wert f&#252;r die Studien aus <Mark2>S</Mark2><Mark2><Subscript>1&#8211;i</Subscript></Mark2> gewichtet wurden. In diesem Beispiel hat also die (falsche) geringere Gewichtung der &#8222;hoch-korrelierten&#8220; Studien zu einer im Mittel h&#246;heren Korrelationssch&#228;tzung gef&#252;hrt, als die eigentlich korrekte Gewichtung. Es ist daher nicht davon auszugehen, dass eine wie auch immer geartete Gewichtung prinzipiell zu besseren Resultaten f&#252;hrt.</Pgraph><SubHeadline3>Simulation und analytische Untersuchung der Power</SubHeadline3><Pgraph>Die dargestellten Zusammenh&#228;nge zeigen, dass eine Variation der Patientenanzahl <Mark2>N</Mark2> keinen Einfluss auf die Ergebnisse haben w&#252;rde. Die Simulation dieses Parameters wird daher fallen gelassen und stattdessen die Power der Surrogatvalidierung f&#252;r Studienzahlen <Mark2>n</Mark2>&#61;5,&#8230;,100 durchgef&#252;hrt. Dabei wird zus&#228;tzlich zu der in Punkt d) geplanten wahren Korrelation von <Mark2>&#961;</Mark2>&#61;0,9 auch von noch h&#246;heren Werten f&#252;r die Korrelation von <Mark2>&#961;</Mark2>&#61;0,95 und <Mark2>&#961;</Mark2>&#61;0,97 und jeweils derselben Untergrenze von <Mark2>&#961;</Mark2><Mark2><Subscript>u</Subscript></Mark2>&#61;0,85 ausgegangen. Ansonsten wird nach dem oben beschriebenen Schema vorgegangen.</Pgraph><Pgraph>Weiterhin kann nun auch eine analytische Untersuchung der Power erfolgen. Dazu betrachtet man zu jedem <Mark2>n</Mark2> die Verteilungsdichte des Fisher-z-transformierten Korrelationskoeffizienten f&#252;r ein festes wahres <Mark2>&#961;</Mark2>. In Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> ist die Dichtefunktion exemplarisch f&#252;r <Mark2>n</Mark2>&#61;20 und <Mark2>&#961;</Mark2>&#61;0,9 dargestellt (schwarze Linie). Bei jeder Validierung ergibt sich ein transformierter Korrelationskoeffizient <Mark2>z</Mark2>&#61;artanh(<Mark2>r</Mark2>), wobei in diesem Beispiel <Mark2>r</Mark2>&#61;0,92 ist. Die Bestimmung des Konfidenzintervalls f&#252;r dieses <Mark2>z</Mark2> erfolgt dann &#252;ber (4). Die dabei benutzte Dichtefunktion ist in roter Farbe dargestellt. Liegt die untere Grenze (im Beispiel nach R&#252;cktransformation etwa 0,805) &#252;ber dem transformierten Wert von <Mark2>&#961;</Mark2><Mark2><Subscript>u</Subscript></Mark2>&#61;0,85, gilt das Surrogat als validiert.</Pgraph><Pgraph> </Pgraph><Pgraph>Da bei festem <Mark2>n</Mark2> die untere Intervallgrenze streng monoton mit <Mark2>z</Mark2> steigt, gibt es ein minimales <Mark2>z</Mark2>&#42;, so dass f&#252;r alle <Mark2>z</Mark2>&#62;<Mark2>z</Mark2>&#42; die Validierung gelingt. F&#252;r das Beispiel erh&#228;lt man <Mark2>z</Mark2>&#42;&#61;artanh(0,9392)&#8776;1,73. Integriert man daher die Dichtefunktion mit diesem <Mark2>z</Mark2>&#42; als unterer Grenze ergibt sich unmittelbar die Power &#928; f&#252;r die betrachteten Parameter <Mark2>n</Mark2>, <Mark2>&#961;</Mark2> und <Mark2>&#961;</Mark2><Mark2><Subscript>u</Subscript></Mark2>:</Pgraph><Pgraph><Indentation><ImgLink imgNo="13" imgType="inlineFigure"/></Indentation></Pgraph><Pgraph>Es bleibt also nur die Bestimmung von <Mark2>z</Mark2>&#42;. Auch diese kann analytisch erfolgen, es muss lediglich zur unteren Grenze die halbe L&#228;nge des Konfidenzintervalls hinzugef&#252;gt werden:</Pgraph><Pgraph><Indentation><ImgLink imgNo="14" imgType="inlineFigure"/></Indentation></Pgraph><SubHeadline>Simulation 2: Konzept des Surrogate Threshold Effects (STE)</SubHeadline><Pgraph>Das Ziel der zweiten Simulationsstudie ist es, zu untersuchen, unter welchen Bedingungen die Anwendung des STE-Ansatzes zum Erfolg f&#252;hren k&#246;nnte. Wie in der ersten Simulation werden verschiedene Szenarien betrachtet, bei denen die Parameter der zur Verf&#252;gung stehenden Studienlage variiert werden. Im Vergleich zu Punkt a) und b) in Simulation 1 werden hier <Mark2>n</Mark2> <ImgLink imgNo="1" imgType="inlineFigure"/> &#123;5, 10&#125; Studien mit jeweils drei verschiedenen Fallzahlen <Mark2>N</Mark2> <ImgLink imgNo="1" imgType="inlineFigure"/> &#123;200, 500, 1.000&#125; betrachtet. Im Unterschied zur Korrelation <Mark2>&#961;</Mark2>, die als skaleninvariantes Ma&#223; nicht von den Erwartungswerten der Variablen abh&#228;ngt, m&#252;ssen f&#252;r die &#220;berpr&#252;fung des STE-Konzepts auch Erwartungswerte f&#252;r die Effektsch&#228;tzer des OS und PFS betrachtet werden. Analog zu Punkt c), d) und e) in Simulation 1 wird das Tupel der logarithmierten Effektsch&#228;tzer <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> als bivariat normalverteilte Zufallsgr&#246;&#223;e mit Kovarianzmatrix <Mark2>&#931;</Mark2> modelliert. F&#252;r die Erwartungswerte <Mark2>&#956;</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>&#956;</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> werden jeweils die Werte 0,5, 0,7 und 0,8 angenommen und f&#252;r die wahre Korrelation die Werte <Mark2>&#961;</Mark2>&#61;0,85 und <Mark2>&#961;</Mark2>&#61;0,9 zugrunde gelegt. Zu den <Mark2>n</Mark2> Studien werden das <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und das <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> einer weiteren Studie mit denselben Parametern <Mark2>N</Mark2>, <Mark2>&#956;</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>&#956;</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> generiert. Diese soll die eigene Studie des pU darstellen, anhand der er &#252;berpr&#252;fen will, ob der darin vorliegende Effekt des PFS den STE unterschreitet. Diese wird im Folgenden als &#8222;pU-Studie&#8220; bezeichnet.</Pgraph><Pgraph>Durch die Kombination aller Auspr&#228;gungen der Parameter <Mark2>n</Mark2>, <Mark2>N</Mark2>, <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>, <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> und <Mark2>&#961;</Mark2> ergeben sich 108 unterschiedliche Szenarien. Jedes dieser Szenarien wird 10.000 Mal simuliert, wobei in jedem Iterationsschritt zuerst &#252;berpr&#252;ft wird, ob die empirische Korrelation <Mark2>r</Mark2> zwischen den Studien tats&#228;chlich im mittleren Bereich liegt, und eine &#220;berpr&#252;fung anhand des STE &#252;berhaupt eingesetzt werden muss. Dies ist laut der im Rapid Report des IQWiG beschriebenen Methodik genau dann der Fall, wenn das 95&#37;-KI von <Mark2>r</Mark2> zwischen <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> &#252;ber <Mark2>n</Mark2> Studien weder vollst&#228;ndig oberhalb von 0,85 liegt, was hoher Korrelation entspr&#228;che, noch vollst&#228;ndig unterhalb von 0,7, was niedrige Korrelation darstellt. Wenn keine mittlere Korrelation vorliegt, werden neue Zufallszahlen gezogen. Anschlie&#223;end wird &#252;ber eine Meta-Regression mit zuf&#228;lligen Effekten &#8211; mithilfe der R-Funktion rma.uni aus dem metafor-Paket &#8211; ein Konfidenzband (auf dem Signifikanzniveau &#945;&#61;0,05) f&#252;r <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> bestimmt. Der STE ergibt sich als der minimale Wert, den <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> annehmen darf, sodass das <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> gerade noch statistisch signifikant ist, d. h. die obere Grenze des Konfidenzintervalls f&#252;r das <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> gerade noch unterhalb von 1 liegt. Die Power des Tests ergibt sich schlie&#223;lich als relative H&#228;ufigkeit der F&#228;lle, bei denen die obere Grenze des Konfidenzintervalls des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> aus der &#8222;pU-Studie&#8220; unterhalb des STE liegt.</Pgraph><Pgraph>Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt ein Beispiel eines simulierten Szenarios mit <Mark2>n</Mark2>&#61;5 Studien und <Mark2>N</Mark2>&#61;500 Patienten sowie jeweils 0,7 als Erwartungswert f&#252;r <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> und wahrer Korrelation <Mark2>&#961;</Mark2>&#61;0,85. Die simulierten Werte ergeben eine empirische Korrelation <Mark2>r</Mark2> &#91;95&#37; KI&#93;&#61;0,92 &#91;0,19; 0,99&#93;. Somit liegt nach der im Rapid Report geschilderten Methodik mittlere Korrelation vor, und das &#220;berpr&#252;fen des STE kommt zur Anwendung. Das Dreieck zeigt die Koordinaten <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> der &#8222;pU-Studie&#8220; und die waagerechte Linie das entsprechende 95&#37; KI des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> (&#91;0,57; 0,86&#93;). Der STE liegt hier bei 0,8092, d. h. der in der &#8222;pU-Studie&#8220; gesch&#228;tzte Effekt auf dem Surrogat ist nicht gro&#223; genug, um mit ausreichender Sicherheit von einem signifikanten Effekt auf dem patientenrelevanten Endpunkt auszugehen, denn das gesamte Konfidenzintervall des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> m&#252;sste daf&#252;r kleiner als der STE sein.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Simulation 1</SubHeadline><Pgraph>In Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> sind die Ergebnisse sowohl f&#252;r die Simulation als auch die analytische Herleitung der Power der Surrogatvalidierung dargestellt. Die Diskrepanzen erkl&#228;ren sich aus der Tatsache, dass durch die Fisher-z-Transformation nur eine approximative Normalisierung des Korrelationskoeffizienten erreicht wird und der zur&#252;cktransformierte Mittelwert einen positiven Bias aufweist <TextLink reference="12"></TextLink>. Das bedeutet im Fall der Simulation, dass man im Mittel etwas h&#246;here Untergrenzen f&#252;r das Konfidenzintervall erh&#228;lt, als es die analytische Herangehensweise erwarten lassen w&#252;rde. Daher finden wir in letzterer etwas niedrigere Power f&#252;r alle <Mark2>n</Mark2>.</Pgraph><Pgraph>Die Power der Surrogatvalidierung ist bei einer wahren Korrelation von <Mark2>&#961;</Mark2>&#61;0,9 insgesamt sehr gering. Der in der Statistik oft geforderte Mindestwert der Power von 80&#37; wird hier nicht ann&#228;hernd erreicht, die selbst bei <Mark2>n</Mark2>&#61;100 Studien unter 60&#37; liegt. Selbst f&#252;r <Mark2>&#961;</Mark2>&#61;0,95 sind <Mark2>n</Mark2>&#61;25 Studien erforderlich, um eine Power von 80&#37; zu erhalten.</Pgraph><Pgraph>Dass auch eine Gewichtung von Studien nach der Anzahl der Patienten oder eine meta-analytische Zusammenfassung keine Verbesserung der Resultate bringt, zeigt eine weitere Simulation, bei der f&#252;r <Mark2>&#961;</Mark2>&#61;0,9 und einer Untergrenze des Konfidenzintervalls von <Mark2>&#961;</Mark2><Mark2><Subscript>u</Subscript></Mark2>&#61;0,85 von <Mark2>n</Mark2>&#61;20 Studien ausgegangen wird, die eine H&#228;lfte mit 100 Patienten, die andere mit 500. Der Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> wird auf 0,8, die Todesrate auf 80&#37; und das Verh&#228;ltnis von Tod zu Progression auf 0,9 gesetzt. Es werden wiederum 10.000 Durchg&#228;nge simuliert und einerseits ein gewichtetes lineares Modell mit Patientenzahl <Mark2>N</Mark2> als Gewicht, andererseits eine Meta-Analyse f&#252;r das <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> mit Random Effects Modell und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> als Moderator gerechnet. In beiden F&#228;llen wird als &#8222;Korrelation&#8220; die Wurzel des Bestimmtheitsma&#223;es R<Superscript>2</Superscript> verwendet. Im zweiten Fall wird dieses &#252;ber<LineBreak></LineBreak></Pgraph><Pgraph><Indentation><ImgLink imgNo="15" imgType="inlineFigure"/></Indentation></Pgraph><Pgraph>bestimmt, wobei <Mark2>L</Mark2><Mark2><Subscript>0</Subscript></Mark2> die Likelihood ohne bzw. <Mark2>L</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> die Likelihood mit Verwendung des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> als Moderatorvariable darstellen. W&#228;hrend in der Simulation des Modells mit Gewichtung der Studien (bzw. Effektsch&#228;tzer) die Power mit einem Wert von 0,7026 praktisch mit dem Wert, der sich mit ungewichteten Studien ergab (0,7081), &#252;bereinstimmt, ist das Ergebnis f&#252;r die Meta-Analyse gleich 0. Der Maximalwert f&#252;r die untere Grenze des Konfidenzintervalls lag bei 0,8191, also immer noch deutlich unter der geforderten Grenze <Mark2>&#961;</Mark2><Mark2><Subscript>u</Subscript></Mark2>&#61;0,85.</Pgraph><Pgraph>In Modul 4 des Nutzendossiers zu Dabrafenib <TextLink reference="13"></TextLink> hatte der pU den Versuch einer Surrogatvalidierung des PFS durch Verwendung korrelationsbasierter Verfahren unternommen. Darin wurde die Berechnung der Korrelation vermutlich &#252;ber (8) vorgenommen, zumindest konnte so das <Mark2>r</Mark2> aus Tabelle 4-123 (Seite 282, Modul 4 des Nutzendossiers zu Dabrafenib) reproduziert werden. Auch in der Meta-Analyse im Nutzendossier zu Dabrafenib liegt das <Mark2>r</Mark2> deutlich niedriger als das der Analyse mit Gewichtung nach Patientenzahl. Dies hat seine Ursache darin, dass der Zusammenhang <ImgLink imgNo="16" imgType="inlineFigure"/> nur im Falle linearer Regression gilt und daher <Mark2>r</Mark2> und <Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2> in anderen F&#228;llen gar nicht vergleichbar sind. Auch scheint eine Berechnung des Konfidenzintervalls f&#252;r <Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2> &#252;ber (4) daher fraglich.</Pgraph><SubHeadline>Simulation 2</SubHeadline><Pgraph>Die Simulation zur Anwendung des STE-Konzepts ergibt, dass zwischen den Effektsch&#228;tzern <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2>, unabh&#228;ngig von der Wahl der Parameter <Mark2>n</Mark2>, <Mark2>N</Mark2>, <Mark2>&#956;</Mark2><Mark2><Subscript>OS</Subscript></Mark2>, <Mark2>&#956;</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> und <Mark2>&#961;</Mark2>, &#252;berwiegend mittlere Korrelation vorliegt: der Anteil der Simulationsdurchg&#228;nge, in denen sich die empirische Korrelation im mittleren Bereich befand, liegt in jedem der 108 Szenarien bei mindestens 89&#37;. Obwohl mit <Mark2>&#961;</Mark2>&#61;0,85 bzw. 0,9 sehr starke Korrelationen in das Modell gelegt werden, muss eine &#220;berpr&#252;fung anhand des STE (wegen nicht vorliegender hoher Korrelation) tats&#228;chlich in den meisten F&#228;llen eingesetzt werden. Dies best&#228;tigt nochmals die Ergebnisse aus Simulation 1, die verdeutlicht, dass hohe Korrelation in der Praxis kaum zu erreichen ist. </Pgraph><Pgraph>Die Ergebnisse der Power aller Szenarien aus der Simulation zur Anwendung des STE-Konzepts sind in <TextGroup><PlainText>Abbildung 4 </PlainText></TextGroup><ImgLink imgNo="4" imgType="figure"/> veranschaulicht. Der Gro&#223;teil der Szenarien zeigt dabei niedrige Power: nur bei 21 der 108 Szenarien liegt die Power &#252;ber 80&#37;. Unter diesen 21 befinden sich 18 Szenarien, bei denen der Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> bei 0,5 liegt, 15 Szenarien bei denen die Studienanzahl bei <Mark2>n</Mark2>&#61;10 liegt, und 15 Szenarien bei denen die Patientenanzahl bei <Mark2>N</Mark2>&#61;1.000 liegt. Szenarien, in denen der Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> mit 0,8 angenommen wird, erreichen maximal eine Power von 47&#37;. Es m&#252;sste demzufolge ein extrem starker Behandlungseffekt zum OS (<Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>&#8776;0,5) in den f&#252;r die Validierung herangezogenen Studien vorliegen, um anhand der Ergebnisse des Surrogatendpunkts PFS aus der &#8222;pU-Studie&#8220; noch Schlussfolgerungen auf das OS ziehen zu k&#246;nnen. </Pgraph><Pgraph>Au&#223;erdem verdeutlicht die &#220;bersicht, dass die Power mit sinkender Studien- und Patientenanzahl abnimmt. Dies ist leicht mit Hilfe des Beispiels in Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zu erkl&#228;ren. Werden <Mark2>n</Mark2> und <Mark2>N</Mark2> kleiner, vergr&#246;&#223;ert das die Varianz der beiden Effektsch&#228;tzer <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2>. Dadurch wird das Konfidenzband breiter und dessen Obergrenze schneidet die horizontale Linie an der Stelle <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>&#61;1 bereits bei kleineren Werten des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2>. Es bedarf dann eines st&#228;rkeren Surrogateffektes in der zu testenden Studie um den nun weiter links liegenden STE unterschreiten zu k&#246;nnen. </Pgraph><Pgraph>Wie oben erw&#228;hnt, sinkt die Power rapide, wenn in den Studien geringe Effekte auf dem OS (also n&#228;her an 1 liegende Werte des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>) vorliegen. In der Grafik des Beispiels in Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> w&#252;rde dies zu einer Verschiebung der Studienpunkte und des Konfidenzbandes nach oben f&#252;hren, dessen Obergrenze die horizontale Linie an der Stelle <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>&#61;1 dadurch weiter links schneiden w&#252;rde. Die &#8222;pU-Studie&#8220; unterschreitet den STE dann mit geringerer Wahrscheinlichkeit. </Pgraph><Pgraph>Des Weiteren zeigt sich, dass verschiedene Auspr&#228;gungen des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> zu keiner &#196;nderung der Power f&#252;hren. Ver&#228;ndert man den Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> der Studien, so w&#252;rde sich auch der STE in gleichem Ma&#223;e ver&#228;ndern &#8211; im Beispiel in Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> w&#252;rde das eine waagerechte Verschiebung der Studienpunkte bedeuten. Interessant ist zudem, dass sich der Parameter <Mark2>&#961;</Mark2> kaum auf die Power des STE-Verfahrens auswirkt. Die Aussagen k&#246;nnen anhand eines linearen Modells mit Power als Responsevariable und Simulationsparametern als erkl&#228;rende Variablen unterst&#252;tzt werden: Studienanzahl <Mark2>n</Mark2> (p&#60;0,001), Patientenanzahl <Mark2>N</Mark2> (p&#60;0,001), wahre Korrelation <Mark2>&#961;</Mark2> (p&#61;0,225), logarithmiertes <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> (p&#60;0,001) und logarithmiertes <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> (p&#61;0,947).</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><SubHeadline>Diskussion der Empfehlungen des Rapid Report </SubHeadline><Pgraph>In onkologischen Studien wird oftmals statt des patientenrelevanten Endpunkts Gesamt&#252;berleben  der Endpunkt progressionsfreies &#220;berleben erfasst. F&#252;r eine Anerkennung von PFS als patientenrelevant im Verfahren zur fr&#252;hen Nutzenbewertung gilt es, dieses als Surrogatendpunkt f&#252;r OS in der betrachteten Indikation zu validieren. Das IQWiG hat im Rahmen eines Rapid Report Methoden zur Validierung von Surrogatendpunkten dargestellt und Empfehlungen zur Verwendung von korrelationsbasierten Verfahren ausgesprochen. </Pgraph><Pgraph>In der hier vorliegenden Arbeit wurde mithilfe zweier Simulationsstudien untersucht, inwiefern diese Vorgaben in der Realit&#228;t am Beispiel der Onkologie umgesetzt werden k&#246;nnen. In der ersten Simulationsstudie wurde die Validierung anhand des Korrelationskoeffizienten und in der zweiten Simulation das Konzept des STE zur &#220;berpr&#252;fung der Schwellenwerte f&#252;r den Effektsch&#228;tzer des Surrogatendpunkts untersucht.</Pgraph><Pgraph>Gem&#228;&#223; der im Rapid Report des IQWiG erl&#228;uterten Methodik muss neben der Einsch&#228;tzung der Aussagesicherheit ein gleichgerichteter Zusammenhang, gemessen durch die Korrelation zwischen den Effektsch&#228;tzern des Surrogats und des patientenrelevanten Endpunkts vorliegen, um die Validit&#228;t f&#252;r das Surrogat auf Studienebene nachzuweisen. Der Korrelationskoeffizient nach Bravais-Pearson stellt bei <Mark2>&#961;</Mark2>&#61;1 den perfekten linearen Zusammenhang dar, w&#228;hrend <Mark2>&#961;</Mark2>&#61;0 f&#252;r v&#246;llige Unkorreliertheit steht. Mit dem Wert von <Mark2>&#961;</Mark2> steigt die Korrelation, jedoch gibt es keine allgemein g&#252;ltige Definition, in welchen Wertebereichen diese hoch oder niedrig w&#228;re. Im Rapid Report werden einige Stellen aus der biometrischen Fachliteratur zitiert, in denen die jeweiligen Autoren verschiedene Vorschl&#228;ge von Schwellenwerten zur Korrelation bzw. zum Bestimmtheitsma&#223; <Mark2>R&#178;</Mark2> angeben, ab denen ein hoher Zusammenhang bzw. eine gute statistische Validit&#228;t vorliegt (S. 71 u. 108, <TextLink reference="6"></TextLink>). Basierend auf diesen Angaben werden f&#252;r die Korrelation die Kategorien &#8222;hoch&#8220;, &#8222;mittel&#8220; und &#8222;niedrig&#8220; hinsichtlich der Einstufung der Validit&#228;t des Surrogats festgelegt. Hohe Korrelation liegt vor, wenn die untere Konfidenzintervallgrenze des empirischen Korrelationskoeffizienten <Mark2>r</Mark2> mindestens den Wert 0,85 (bzw. bei Bestimmtheitsma&#223;en <Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#8805;0,72) annehme. Weiter wird von niedriger Korrelation gesprochen, wenn die obere Konfidenzintervallgrenze von <Mark2>r</Mark2> kleiner 0,7 (bzw. beim Bestimmtheitsma&#223; <Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#60;0,49) ist. Der geforderte Schwellenwert von 0,85 entstamme daher, dass bei einem wahrem Wert von <Mark2>&#961;</Mark2>&#61;0,9 die empirische Korrelation selbst bei genauen Sch&#228;tzungen unvermeidlich den Wert 0,9 unterschreite. Jedoch wird nicht hergeleitet, wie der Wert 0,85 ermittelt wurde. Dieser Wert stellt lediglich eine Absch&#228;tzung dar, denn mithilfe der Fisher-z-Transformation und in Abh&#228;ngigkeit der Studienanzahl <Mark2>n</Mark2> l&#228;sst sich die Untergrenze des 95&#37;-KI von <Mark2>r</Mark2> analytisch bestimmen. Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> veranschaulicht, dass bei <Mark2>n</Mark2>&#61;10 Studien mit <Mark2>r</Mark2>&#61;0,9 die Untergrenze des 95&#37;-KI f&#252;r <Mark2>r</Mark2> bei 0,62 liegt. Da dies den Wert 0,85 unterschreitet, k&#246;nnte selbst bei diesem hohen Punktsch&#228;tzer nur eine mittlere Korrelation konstatiert werden. Ginge man von <Mark2>r</Mark2>&#61;0,9 und einer hohen Studienanzahl von <Mark2>n</Mark2>&#61;50 aus &#8211; was &#228;u&#223;erst unrealistisch w&#228;re, da sich alle Studien auf dieselbe Indikation bzw. denselben Schweregrad sowie dieselbe Intervention eingrenzen m&#252;ssten, um hohe Aussagesicherheit zu gew&#228;hrleisten &#8211; l&#228;ge die Untergrenze des 95&#37;-KI f&#252;r <Mark2>r</Mark2> bei 0,83, und somit immer noch unterhalb des f&#252;r hohe Korrelation geforderten Schwellenwerts. Wenn man pr&#252;fen will, wie hohe Korrelation &#252;berhaupt zu erreichen ist, d. h. einen Schwellenwert von 0,85 f&#252;r die Untergrenze des 95&#37;-KI f&#252;r <Mark2>r</Mark2> vorgibt, m&#252;sste bei einer Studienanzahl von <Mark2>n</Mark2>&#61;10 ein Punktsch&#228;tzer der Korrelation von mindestens 0,9638 gemessen werden. Dieser Wert erscheint extrem hoch, wenn man bedenkt, dass <Mark2>r</Mark2>&#61;1 einen perfekten linearen Zusammenhang darstellt, der in realen Daten quasi nicht beobachtet wird. Es stellt sich au&#223;erdem die Frage, warum von einem zweiseitigen 95&#37; Konfidenzintervall ausgegangen werden muss. Die zu verwerfende Hypothese lautet schlie&#223;lich <Mark2>&#961;</Mark2>&#60;<Mark2>&#961;</Mark2><Mark2><Subscript>relevant</Subscript></Mark2>. Bei einem Punktsch&#228;tzer von <Mark2>r</Mark2>&#61;0,95 &#252;berschritte man mit einseitiger Testung die Grenze 0,85 schon bei <Mark2>n</Mark2>&#61;12 Studien, w&#228;hrend es <Mark2>n</Mark2>&#8805;15 bedarf, um dies mit zweiseitiger Testung zu erreichen.</Pgraph><Pgraph>Die Simulation der Surrogatvalidierung &#252;ber das korrelationsbasierte Verfahren sowie die analytische Herleitung der Power zeigten, dass diese bei moderater Studienanzahl und starker zugrundeliegender wahrer Korrelation dennoch sehr gering ist. Selbst bei <Mark2>&#961;</Mark2>&#61;0,9 in <Mark2>n</Mark2>&#61;100 Studien liegt die Power unter 60&#37; und es w&#228;re <Mark2>&#961;</Mark2>&#61;0,95 in <Mark2>n</Mark2>&#61;25 Studien erforderlich, um eine Power von 80&#37; zu erhalten.</Pgraph><Pgraph>W&#228;hrend also der Nachweis f&#252;r eine hohe Korrelation kaum zu erbringen sein d&#252;rfte, ist es ganz einfach, eine mittlere Korrelation nachzuweisen, wenn nur wenige Studien zur Verf&#252;gung stehen. Denn selbst bei unkorrelierten Daten (<Mark2>&#961;</Mark2>&#61;0) aus <Mark2>n</Mark2>&#61;5 Studien ist die Obergrenze des 95&#37;-KI mit einer Wahrscheinlichkeit von 76,8&#37; gr&#246;&#223;er als 0,7. F&#252;r <Mark2>n</Mark2>&#61;10 sind es immerhin noch fast 18&#37;. </Pgraph><Pgraph>Die Beziehung <Mark2>r</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;<Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2> zwischen Korrelation und Bestimmtheitsma&#223; gilt nur im Fall des linearen (einfachen) Regressionsmodells. Im Allgemeinen kann aber nicht aus Bestimmtheitsma&#223;en spezieller Modelle (vgl. Buyse und Burzykowski <TextLink reference="3"></TextLink>) auf Korrelation r&#252;ckgeschlossen werden. Im Rapid Report wird aus den Schwellenwerten der Korrelation offensichtlich auf die Schwellenwerte des Bestimmtheitsma&#223;es (<Mark2>r</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0,85<Superscript>2</Superscript>&#61;0,7225&#61;<Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2>) geschlossen (S. 71, <TextLink reference="6"></TextLink>). Das w&#252;rde eine Pr&#228;ferenz der Anwendung des linearen Modells in der Surrogatvalidierung bedeuten. In der Nutzenbewertung zu Dabrafenib, in der der pU den Versuch einer Surrogatvalidierung auf Basis des linearen Modells unternommen hatte, wird dieser Ansatz wiederum kritisiert (S. 62, <TextLink reference="14"></TextLink>). Es wird im Weiteren noch ausgef&#252;hrt, dass &#8211; abgesehen von der Unsicherheit des linearen Modells &#8211; die in Modul 4 vorgelegten Ergebnisse zum Sch&#228;tzer der Korrelation ohnehin nicht zum Erfolg gef&#252;hrt h&#228;tten. Darin pr&#228;sentierte der pU verschiedene Korrelationsanalysen f&#252;r die Validierung des Surrogats, unter denen das Modell mit dem st&#228;rksten Effekt eine Korrelation zwischen logarithmierten <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> und <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> von <Mark2>r</Mark2> &#91;95&#37;-KI&#93;&#61;0,95 &#91;0,83; 0,99&#93; ergab. Damit liegt gem&#228;&#223; dem im Rapid Report festgelegtem Schwellenwert von 0,85 keine hohe Korrelation vor. Das Beispiel verdeutlicht noch einmal, dass der angegebene Grenzwert von 0,85 (als Mindestma&#223; f&#252;r hohe Korrelation) ziemlich konservativ ist. Die Fachliteratur gibt zwar zahllose Vorschl&#228;ge f&#252;r Einstufungen des Grades der Korrelation, doch beziehen sich diese auf den Punktsch&#228;tzer und werden nicht als Untergrenze eines 95&#37;-KI verstanden. Beispielsweise bezeichnet Cohen <TextLink reference="15"></TextLink> Korrelation von 0,5 bereits als hoch. Burzykowski <TextLink reference="16"></TextLink> erl&#228;uterte, dass es schwierig sei, einen Schwellenwert f&#252;r das Validierungsma&#223; <Mark2>R</Mark2><Mark2><Superscript>2</Superscript></Mark2> anzugeben, da dieses keine intuitive Skala bes&#228;&#223;e, und zudem abh&#228;ngig von der Variabilit&#228;t des Behandlungseffekts des klinischen Endpunktes sei.</Pgraph><Pgraph>Sollte die Validierung des Surrogatendpunkts &#252;ber das korrelationsbasierte Verfahren nicht gelingen, besteht nach Methodik des Rapid Report noch die M&#246;glichkeit unter Verwendung des STE-Konzepts eine Schlussfolgerung f&#252;r einen Effekt bez&#252;glich des patientenrelevanten Endpunkts zu ziehen. Die Ergebnisse der zweiten Simulationsstudie zeigen, dass jedoch auch dieses Konzept an realen Daten nur sehr schwer erfolgreich durchgef&#252;hrt werden kann. Lediglich diejenigen Szenarien, bei denen eine Kombination aus au&#223;ergew&#246;hnlich hohen Effekten des wahren Endpunkts (<Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>&#61;0,5), hoher Studienanzahl (<Mark2>n</Mark2>&#61;10) sowie hoher Patientenanzahl (<Mark2>N</Mark2>&#61;1.000) angenommen wurde, k&#246;nnen eine Power von &#252;ber 80&#37; erreichen. F&#252;r plausiblere Werte der Effekte (<Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2>&#61;0,8) liegt die Power bei einer Patientenanzahl <Mark2>N</Mark2>&#61;1.000 maximal bei 47&#37;, bei <Mark2>N</Mark2>&#61;500 h&#246;chstens bei 25&#37;.</Pgraph><SubHeadline>Beurteilung der angewendeten Simulationsmodelle</SubHeadline><Pgraph>Die in beiden Simulationsstudien vorliegenden Szenarien versuchen der Realit&#228;t entsprechende Beispiele abzubilden. Durch Variationen der Parameter Studienanzahl, Patientenanzahl, St&#228;rke der Korrelation und der Effektgr&#246;&#223;en ist ein starker Praxisbezug gegeben. Ein gro&#223;er Teil der Auswahl der simulierten Parameterwerte charakterisiert allerdings optimistische Szenarien, die in der Wirklichkeit nicht bzw. nur sehr selten vorzufinden sind. So w&#228;re eine f&#252;r die Validierung herangezogene Studienanzahl <Mark2>n</Mark2>&#61;10 eher unrealistisch. Dies gilt auch f&#252;r die hoch gew&#228;hlten Werte der zugrundeliegenden Korrelation. Nichtsdestotrotz zeigen diese &#8211; teils optimistisch gestalteten &#8211; Szenarien, dass eine Surrogatvalidierung in der Praxis selbst unter optimalen Bedingungen sowohl anhand des korrelationsbasierten Verfahrens als auch anhand des STE-Konzepts eine gro&#223;e Herausforderung ist. Freilich ist anzumerken, dass alle Simulationen auf Basis aggregierter Daten liefen und keine patientenindividuellen Daten verwendeten. Wie eingangs erw&#228;hnt, ist die Verf&#252;gbarkeit patientenindividueller Daten in der Praxis jedoch im Allgemeinen nicht gegeben. Dieser Aspekt beeinflusst auch nicht das Ziel dieser Arbeit, welcher in der &#220;berpr&#252;fung der Anwendbarkeit der Methodik anhand praktischer Beispiele bestand. Abschlie&#223;end wird nun eine m&#246;gliche Alternative zur STE-Methodik vorgestellt.</Pgraph><SubHeadline>M&#246;glicher Alternativvorschlag f&#252;r Surrogatvalidierung anhand STE-Konzept</SubHeadline><Pgraph>Die Surrogatvalidierung &#252;ber das STE erscheint grunds&#228;tzlich als geeignete Methode. Allerdings sind die methodischen Vorgaben im Rapid Report sehr streng. Wir m&#246;chten im Folgenden von der Forderung absehen, in der das ganze 95&#37;-KI des Surrogateffekts <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> unterhalb des STE liegen muss. Durch dieses Kriterium ist es, wie Simulation 2 zeigte, &#228;u&#223;erst schwierig einen tats&#228;chlich vorhandenen Effekt auch nachzuweisen. Die Rationale hinter dieser zweifachen Anwendung von Konfidenzintervallen ist die Unsicherheit, mit der beide Sch&#228;tzer behaftet sind. Durch diese Vorgehensweise sinkt der &#945;-Fehler &#8211; zu Lasten der Power &#8211; allerdings deutlich unter die 5&#37;-Marke. </Pgraph><Pgraph>In einer abschlie&#223;enden Simulation untersuchen wir, wie gro&#223; der &#945;-Fehler ist, wenn statt der oberen Konfidenzintervallgrenze des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> nur der Punktsch&#228;tzer mit dem STE verglichen wird. Mit anderen Worten wird die Fehlerwahrscheinlichkeit je Szenario angegeben, mit der aus dem vorliegenden Effekt des PFS auf einen Effekt des OS geschlossen wird, obwohl letzterer nicht vorliegt. F&#252;r den Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> wird 0,7 gew&#228;hlt, der Erwartungswert des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> wird auf 1 gesetzt, es gibt also einen Effekt der Intervention auf das PFS nicht aber auf das OS. Variiert werden wieder die Patientenzahl <Mark2>N</Mark2> pro Studie (200, 500 und 1.000), die Anzahl der Studien <Mark2>n</Mark2> (5 und 10) sowie die wahre Korrelation <Mark2>&#961;</Mark2> (0; 0,25; 0,5). Parameterkonstellationen mit h&#246;heren Werten von <Mark2>&#961;</Mark2> sind zwar mathematisch gesehen m&#246;glich, in der Realit&#228;t allerdings v&#246;llig unplausibel. Inhaltlich entspr&#228;che das einem starken Zusammenhang zwischen den beiden <TextGroup><PlainText>Hazard Ratios</PlainText></TextGroup> bei gleichzeitig gro&#223;er Effektivit&#228;t der Behandlung hinsichtlich des PFS und v&#246;lligem Fehlen eines Effekts auf das OS. </Pgraph><Pgraph>Der &#945;-Fehler ergibt sich als Anteil derjenigen von jeweils 10.000 Durchg&#228;ngen, bei denen der Punktsch&#228;tzer des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> kleiner als das STE ist. Dies entspricht also einer einseitigen Testung. Wie in Abbildung 6 <ImgLink imgNo="6" imgType="figure"/> zu erkennen ist, liegt der &#945;-Fehler f&#252;r <Mark2>&#961;</Mark2>&#61;0 erwartungsgem&#228;&#223; bei etwa 2,5&#37; (&#61;0,05&#47;2). Weiterhin zeigt sich, dass die Patientenanzahl <Mark2>N</Mark2> keinen Einfluss hat, was ebenfalls den Erwartungen entspricht. Mit zunehmender Korrelation und gleichzeitig h&#246;herer Studienanzahl <Mark2>n</Mark2> steigt auch der <TextGroup><PlainText>&#945;-Fehler</PlainText></TextGroup>. F&#252;r <Mark2>n</Mark2>&#61;10 Studien mit je <Mark2>N</Mark2>&#61;1.000 Patienten und <Mark2>&#961;</Mark2>&#61;0,5 liegt er bei etwa 7,6&#37;. </Pgraph><Pgraph>Bei Durchf&#252;hrung von Simulation 2 wird eine wesentlich h&#246;here Power in allen Szenarien beobachtet, wenn anstelle der oberen Konfidenzintervallgrenze des <Mark2>HR</Mark2><Mark2><Subscript>PFS</Subscript></Mark2> nur der Punktsch&#228;tzer mit dem STE verglichen wird (<TextGroup><PlainText>Abbildung 7 </PlainText></TextGroup><ImgLink imgNo="7" imgType="figure"/>). Eine Power von &#252;ber 80&#37; wird somit schon f&#252;r Szenarien erreicht, die zuvor lediglich nur die <TextGroup><PlainText>20&#37;-Grenze</PlainText></TextGroup> &#252;berschritten haben (vgl. Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>). Nichtsdestotrotz stellen die der Simulation zugrundeliegenden Annahmen, wie beispielsweise eine wahre Korrelation von 0,85 bzw. 0,9, weiterhin eine praxisferne Herausforderung dar.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Schlussfolgerung">
      <MainHeadline>Schlussfolgerung</MainHeadline><Pgraph>Die durchgef&#252;hrten Simulationen zeigten, dass die im Rapid Report beschriebene Methodik, wonach die untere Grenze des Konfidenzintervalls ausschlaggebend f&#252;r eine hohe Korrelation bei der Surrogatvalidierung sein soll, eine in der Praxis kaum zu &#252;berwindende H&#252;rde darstellt. Bei gering bis moderat angenommener Studienanzahl &#8211; wie es f&#252;r eine Validierung von Surrogatendpunkten im Rahmen der fr&#252;hen Nutzenbewertung realistisch erscheint &#8211; ist die Power selbst bei hoher, wahrer Korrelation &#228;u&#223;erst gering. Problematisch erscheint weiterhin die Empfehlung, die Aussagekraft der Studien in die Analyse mit einzubeziehen, auch wenn dies prinzipiell gerechtfertigt erscheint. Bei Betrachtung der Definition des Korrelationskoeffizienten und dessen Dichtefunktion wird zudem klar, dass die empirische Korrelation unter Annahme einer festen wahren Korrelation gar nicht von der Varianz der Einzelsch&#228;tzer, sondern nur von der Anzahl der Wertepaare abh&#228;ngt. Die Patientenanzahl hat somit keine Auswirkung auf das Konfidenzintervall der Korrelation. Dies gilt ebenso, wenn Modelle mit Gewichtung der Studien verwendet werden. Die Anwendung des STE-Konzeptes gem&#228;&#223; der im Rapid Report beschriebene Methodik erscheint ebenfalls schwierig. Ein Vergleich des STE mit dem Punktsch&#228;tzer des Surrogatendpunkts w&#228;re eine Alternative, die in realistischen Szenarien geringe &#945;-Fehler zeigte. Gegebenenfalls kann in weiteren Simulationen &#252;berpr&#252;ft werden, ob eine vorgeschalteter Test (z. B. ob der ein-&#963;-Bereich der Verteilung des <Mark2>HR</Mark2><Mark2><Subscript>OS</Subscript></Mark2> unter 1 liegt) den &#945;-Fehler auch in diesen unrealistischen Szenarien kontrolliert.</Pgraph></TextBlock>
    <TextBlock linked="yes" name="Anmerkung">
      <MainHeadline>Anmerkung</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Gemeinsamer Bundesausschuss</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Verfahrensordnung des Gemeinsamen Bundesausschusses (in Kraft getreten am 16. April 2015)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gemeinsamer Bundesausschuss. Verfahrensordnung des Gemeinsamen Bundesausschusses (in Kraft getreten am 16. April 2015). 2015. Verf&#252;gbar unter: https:&#47;&#47;www.g-ba.de&#47;downloads&#47;62-492-1002&#47;VerfO&#95;2014-12-18&#95;iK-2015-04-16.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.g-ba.de&#47;downloads&#47;62-492-1002&#47;VerfO&#95;2014-12-18&#95;iK-2015-04-16.pdf</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>International Conference On Harmonisation Of Technical Requirements For Registration Of Pharmaceuticals For Human Use</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1998</RefYear>
        <RefBookTitle>ICH Harmonised Tripartite Guideline. Statistical Principles For Clinical Trials E9 (Current Step 4 Version)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>International Conference On Harmonisation Of Technical Requirements For Registration Of Pharmaceuticals For Human Use. ICH Harmonised Tripartite Guideline. Statistical Principles For Clinical Trials E9 (Current Step 4 Version). 1998. Verf&#252;gbar unter: http:&#47;&#47;www.ich.org&#47;fileadmin&#47;Public&#95;Web&#95;Site&#47;ICH&#95;Products&#47;Guidelines&#47;Efficacy&#47;E9&#47;Step4&#47;E9&#95;Guideline.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.ich.org&#47;fileadmin&#47;Public&#95;Web&#95;Site&#47;ICH&#95;Products&#47;Guidelines&#47;Efficacy&#47;E9&#47;Step4&#47;E9&#95;Guideline.pdf</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Burzykowski T</RefAuthor>
        <RefAuthor>Molenberghs G</RefAuthor>
        <RefAuthor>Buyse M</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>The Evaluation of Surrogate Endpoints</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Burzykowski T, Molenberghs G, Buyse M, eds. The Evaluation of Surrogate Endpoints. New York: Springer; 2005. (Statistics for Biology and Health). DOI: 10.1007&#47;b138566</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;b138566</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Biomarkers Definitions Working Group</RefAuthor>
        <RefTitle>Biomarkers and surrogate endpoints: preferred definitions and conceptual framework</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Clin Pharmacol Ther</RefJournal>
        <RefPage>89-95</RefPage>
        <RefTotal>Biomarkers Definitions Working Group. Biomarkers and surrogate endpoints: preferred definitions and conceptual framework. Clin Pharmacol Ther. 2001 Mar;69(3):89-95. DOI: 10.1067&#47;mcp.2001.113989</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1067&#47;mcp.2001.113989</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Burzykowski T</RefAuthor>
        <RefAuthor>Buyse M</RefAuthor>
        <RefTitle>Surrogate threshold effect: an alternative measure for meta-analytic surrogate endpoint validation</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Pharm Stat</RefJournal>
        <RefPage>173-86</RefPage>
        <RefTotal>Burzykowski T, Buyse M. Surrogate threshold effect: an alternative measure for meta-analytic surrogate endpoint validation. Pharm Stat. 2006 Jul-Sep;5(3):173-86. DOI: 10.1002&#47;pst.207</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;pst.207</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2011</RefYear>
        <RefBookTitle>IQWiG-Berichte &#8211; Jahr: 2011 Nr. 80: Aussagekraft von Surrogatendpunkten in der Onkologie. Rapid Report: A10-05, Version 1.1 vom 21.11.2011</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen. IQWiG-Berichte &#8211; Jahr: 2011 Nr. 80: Aussagekraft von Surrogatendpunkten in der Onkologie. Rapid Report: A10-05, Version 1.1 vom 21.11.2011. 2011. Verf&#252;gbar unter: https:&#47;&#47;www.iqwig.de&#47;download&#47;A10-05&#95;Rapid&#95;Report&#95;Version&#95;1-1&#95;Surrogatendpunkte&#95;in&#95;der&#95;Onkologie.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.iqwig.de&#47;download&#47;A10-05&#95;Rapid&#95;Report&#95;Version&#95;1-1&#95;Surrogatendpunkte&#95;in&#95;der&#95;Onkologie.pdf</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>R Core Team</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>R: A language and environment for statistical computing</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>R Core Team. R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing; 2014. Verf&#252;gbar unter: http:&#47;&#47;www.R-project.org&#47;</RefTotal>
        <RefLink>http:&#47;&#47;www.R-project.org&#47;</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Viechtbauer W</RefAuthor>
        <RefTitle>Conducting Meta-Analyses in R with the metafor Package</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>J Stat Softw</RefJournal>
        <RefPage>1-48</RefPage>
        <RefTotal>Viechtbauer W. Conducting Meta-Analyses in R with the metafor Package. J Stat Softw. 2010;36(3):1-48. Verf&#252;gbar unter: https:&#47;&#47;www.jstatsoft.org&#47;article&#47;view&#47;v036i03&#47;v36i03.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.jstatsoft.org&#47;article&#47;view&#47;v036i03&#47;v36i03.pdf</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Tierney JF</RefAuthor>
        <RefAuthor>Stewart LA</RefAuthor>
        <RefAuthor>Ghersi D</RefAuthor>
        <RefAuthor>Burdett S</RefAuthor>
        <RefAuthor>Sydes MR</RefAuthor>
        <RefTitle>Practical methods for incorporating summary time-to-event data into meta-analysis</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Trials</RefJournal>
        <RefPage>16</RefPage>
        <RefTotal>Tierney JF, Stewart LA, Ghersi D, Burdett S, Sydes MR. Practical methods for incorporating summary time-to-event data into meta-analysis. Trials. 2007 Jun 7;8:16. DOI: 10.1186&#47;1745-6215-8-16</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1745-6215-8-16</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Fisher RA</RefAuthor>
        <RefTitle>On the &#8220;Probable Error&#8221; of a Coefficient of Correlation Deduced from a Small Sample</RefTitle>
        <RefYear>1921</RefYear>
        <RefJournal>Metron</RefJournal>
        <RefPage>3-32</RefPage>
        <RefTotal>Fisher RA. On the &#8220;Probable Error&#8221; of a Coefficient of Correlation Deduced from a Small Sample. Metron. 1921;1:3-32. Verf&#252;gbar unter: http:&#47;&#47;hdl.handle.net&#47;2440&#47;15169</RefTotal>
        <RefLink>http:&#47;&#47;hdl.handle.net&#47;2440&#47;15169</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Ripley BD</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1987</RefYear>
        <RefBookTitle>Stochastic Simulation</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Ripley BD. Stochastic Simulation. Wiley; 1987.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Gorsuch RL</RefAuthor>
        <RefAuthor>Lehmann CS</RefAuthor>
        <RefTitle>Correlation Coefficients: Mean Bias and Confidence Interval Distortions</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>J Methods Meas Soc Sci</RefJournal>
        <RefPage>52-65</RefPage>
        <RefTotal>Gorsuch RL, Lehmann CS. Correlation Coefficients: Mean Bias and Confidence Interval Distortions. J Methods Meas Soc Sci. 2010;1(2):52-65. DOI: 10.2458&#47;azu&#95;jmmss&#95;v1i2&#95;gorsuch</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2458&#47;azu&#95;jmmss&#95;v1i2&#95;gorsuch</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>GlaxoSmithKline GmbH &#38; Co. KG</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2013</RefYear>
        <RefBookTitle>Dossier zur Nutzenbewertung gem&#228;&#223; &#167;35a SGB V. Dabrafenib (Tafinlar&#174;) &#8211; Modul 4 A Melanom. Medizinischer Nutzen und medizinischer Zusatznutzen, Patientengruppen mit therapeutisch bedeutsamem Zusatznutzen</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>GlaxoSmithKline GmbH &#38; Co. KG. Dossier zur Nutzenbewertung gem&#228;&#223; &#167;35a SGB V. Dabrafenib (Tafinlar&#174;) &#8211; Modul 4 A Melanom. Medizinischer Nutzen und medizinischer Zusatznutzen, Patientengruppen mit therapeutisch bedeutsamem Zusatznutzen. 2013. Verf&#252;gbar unter: https:&#47;&#47;www.g-ba.de&#47;downloads&#47;92-975-391&#47;2013-09-20&#95;Modul4&#95;Dabrafenib.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.g-ba.de&#47;downloads&#47;92-975-391&#47;2013-09-20&#95;Modul4&#95;Dabrafenib.pdf</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2013</RefYear>
        <RefBookTitle>IQWiG-Bericht - Nr. 203: Dabrafenib - Nutzenbewertung gem&#228;&#223; &#167; 35a SGB V. Dossierbewertung: A13-35, Version 1.0 vom 23.12.2013</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Institut f&#252;r Qualit&#228;t und Wirtschaftlichkeit im Gesundheitswesen. IQWiG-Bericht - Nr. 203: Dabrafenib - Nutzenbewertung gem&#228;&#223; &#167; 35a SGB V. Dossierbewertung: A13-35, Version 1.0 vom 23.12.2013. 2013. Verf&#252;gbar unter: https:&#47;&#47;www.g-ba.de&#47;downloads&#47;92-975-393&#47;2013-12-23&#95;A13-35&#95;Dabrafenib&#95;Nutzenbewertung-35a-SGB-V.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.g-ba.de&#47;downloads&#47;92-975-393&#47;2013-12-23&#95;A13-35&#95;Dabrafenib&#95;Nutzenbewertung-35a-SGB-V.pdf</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Cohen J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1977</RefYear>
        <RefBookTitle>Statistical power analysis for the behavioral sciences</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Cohen J. Statistical power analysis for the behavioral sciences. New York: Academic Press; 1977.</RefTotal>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Burzykowski T</RefAuthor>
        <RefTitle>What Threshold for the validity measure&#63;</RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>BfArM Workshop; Bonn; 2012</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Burzykowski T. What Threshold for the validity measure&#63; In: BfArM Workshop; Bonn; 2012.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="536" width="590">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: Schwarze Linie: Dichtefunktion des Fisher-z-transformierten Korrelationskoeffizienten mit </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;20 Studien und wahrer Korrelation </Mark1><Mark1><Mark2>&#961;</Mark2></Mark1><Mark1>&#61;0,9. Rote Linie: Dichtefunktion zur Bestimmung des Konfidenzintervalls bei einer empirischen Korrelation </Mark1><Mark1><Mark2>r</Mark2></Mark1><Mark1>&#61;0,92 (mit unterer Konfidenzintervallgrenze). Die Fl&#228;che unter der schwarzen Kurve rechts von z</Mark1><Mark1><Mark2>&#42;</Mark2></Mark1><Mark1> ergibt die Power.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="536" width="590">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 2: Simuliertes Szenario zur Anwendung des STE-Ansatzes am Beispiel von n&#61;5 Studien mit je N&#61;500 Patienten sowie jeweils 0,7 als Erwartungswert f&#252;r </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>OS</Subscript></Mark2></Mark1><Mark1> und </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>PFS</Subscript></Mark2></Mark1><Mark1> und wahrer Korrelation </Mark1><Mark1><Mark2>&#961;</Mark2></Mark1><Mark1>&#61;0,85.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="516" width="567">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 3: Ergebnisse der Simulation und der analytischen Herleitung der Power</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="539" width="589">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 4: Darstellung der Power der 108 simulierten Szenarien, die sich durch die Kombination der Parameter Studiengr&#246;&#223;e </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>, Patientenanzahl </Mark1><Mark1><Mark2>N</Mark2></Mark1><Mark1>, Erwartungswerte der Effektsch&#228;tzer </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>OS</Subscript></Mark2></Mark1><Mark1><Mark2>, HR</Mark2></Mark1><Mark1><Mark2><Subscript>PFS</Subscript></Mark2></Mark1><Mark1> und wahrer Korrelation</Mark1><Mark1><Mark2> &#961;</Mark2></Mark1><Mark1> ergeben.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="536" width="509">
          <MediaNo>5</MediaNo>
          <MediaID>5</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 5: Konfidenzintervalle f&#252;r verschiedene Werte der empirischen Korrelation r und der Studienanzahl n</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="539" width="589">
          <MediaNo>6</MediaNo>
          <MediaID>6</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 6: Darstellung des &#945;-Fehlers der simulierten Szenarien, die sich durch die Kombination der Parameter Studiengr&#246;&#223;e </Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>, Patientenanzahl </Mark1><Mark1><Mark2>N</Mark2></Mark1><Mark1> und wahrer Korrelation </Mark1><Mark1><Mark2>&#961;</Mark2></Mark1><Mark1> ergeben. Die Erwartungswerte der Effektsch&#228;tzer </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>OS</Subscript></Mark2></Mark1><Mark1> bzw. </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>PFS</Subscript></Mark2></Mark1><Mark1> hatten die Werte 1 bzw. 0,7.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="539" width="589">
          <MediaNo>7</MediaNo>
          <MediaID>7</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 7: Durchf&#252;hrung von Simulation 2, in der anstelle der oberen Konfidenzintervallgrenze des </Mark1><Mark1><Mark2>HR</Mark2></Mark1><Mark1><Mark2><Subscript>PFS</Subscript></Mark2></Mark1><Mark1> nur der Punktsch&#228;tzer mit dem STE verglichen wird.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>7</NoOfPictures>
      </Figures>
      <InlineFigures>
        <Figure format="png" height="9" width="8">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <AltText>Formel 1</AltText>
        </Figure>
        <Figure format="png" height="18" width="149">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <AltText>Formel 2</AltText>
        </Figure>
        <Figure format="png" height="18" width="166">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <AltText>Formel 3</AltText>
        </Figure>
        <Figure format="png" height="17" width="21">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <AltText>Formel 4</AltText>
        </Figure>
        <Figure format="png" height="16" width="27">
          <MediaNo>5</MediaNo>
          <MediaID>5</MediaID>
          <AltText>Formel 5</AltText>
        </Figure>
        <Figure format="png" height="39" width="142">
          <MediaNo>6</MediaNo>
          <MediaID>6</MediaID>
          <AltText>Formel 6</AltText>
        </Figure>
        <Figure format="png" height="36" width="141">
          <MediaNo>7</MediaNo>
          <MediaID>7</MediaID>
          <AltText>Formel 7</AltText>
        </Figure>
        <Figure format="png" height="36" width="143">
          <MediaNo>8</MediaNo>
          <MediaID>8</MediaID>
          <AltText>Formel 8</AltText>
        </Figure>
        <Figure format="png" height="28" width="108">
          <MediaNo>9</MediaNo>
          <MediaID>9</MediaID>
          <AltText>Formel 9</AltText>
        </Figure>
        <Figure format="png" height="26" width="57">
          <MediaNo>10</MediaNo>
          <MediaID>10</MediaID>
          <AltText>Formel 10</AltText>
        </Figure>
        <Figure format="png" height="37" width="144">
          <MediaNo>11</MediaNo>
          <MediaID>11</MediaID>
          <AltText>Formel 11</AltText>
        </Figure>
        <Figure format="png" height="37" width="176">
          <MediaNo>12</MediaNo>
          <MediaID>12</MediaID>
          <AltText>Formel 12</AltText>
        </Figure>
        <Figure format="png" height="95" width="275">
          <MediaNo>13</MediaNo>
          <MediaID>13</MediaID>
          <AltText>Formel 13</AltText>
        </Figure>
        <Figure format="png" height="38" width="277">
          <MediaNo>14</MediaNo>
          <MediaID>14</MediaID>
          <AltText>Formeln 14</AltText>
        </Figure>
        <Figure format="png" height="36" width="154">
          <MediaNo>15</MediaNo>
          <MediaID>15</MediaID>
          <AltText>Formel 15</AltText>
        </Figure>
        <Figure format="png" height="17" width="55">
          <MediaNo>16</MediaNo>
          <MediaID>16</MediaID>
          <AltText>Formel 16</AltText>
        </Figure>
        <NoOfPictures>16</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>