<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001103</Identifier>
    <IdentifierDoi>10.3205/zma001103</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0011038</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Cluster-randomized Studies in Educational Research: Principles and Methodological Aspects</Title>
      <TitleTranslated language="de">Cluster-randomisierte Studien in der Lehrforschung: Grundlagen und methodische Aspekte</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Dreyhaupt</Lastname>
          <LastnameHeading>Dreyhaupt</LastnameHeading>
          <Firstname>Jens</Firstname>
          <Initials>J</Initials>
          <AcademicTitle>Dr.</AcademicTitle>
        </PersonNames>
        <Address language="en">Ulm University, Institute of Epidemiology and Medical Biometry, Schwabstr. 13, 89075 Ulm, Germany, Phone: &#43;49(0)731&#47;50-26895, Fax: &#43;49(0)731&#47;50-26902<Affiliation>Ulm University, Institute of Epidemiology and Medical Biometry, Ulm, Germany</Affiliation></Address>
        <Address language="de">Universit&#228;t Ulm, Institut f&#252;r Epidemiologie und Medizinische Biometrie, Schwabstr. 13, 89075 Ulm, Deutschland, Telefon: &#43;49(0)731&#47;50-26895, Fax: &#43;49(0)731&#47;50-26902<Affiliation>Universit&#228;t Ulm, Institut f&#252;r Epidemiologie und Medizinische Biometrie, Ulm, Deutschland</Affiliation></Address>
        <Email>jens.dreyhaupt&#64;uni-ulm.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Mayer</Lastname>
          <LastnameHeading>Mayer</LastnameHeading>
          <Firstname>Benjamin</Firstname>
          <Initials>B</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Ulm University, Institute of Epidemiology and Medical Biometry, Ulm, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Ulm, Institut f&#252;r Epidemiologie und Medizinische Biometrie, Ulm, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Keis</Lastname>
          <LastnameHeading>Keis</LastnameHeading>
          <Firstname>Oliver</Firstname>
          <Initials>O</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Ulm University, Office of the Dean of Studies for Medicine, Ulm, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Ulm, Studiendekanat Medizin, Ulm, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>&#214;chsner</Lastname>
          <LastnameHeading>&#214;chsner</LastnameHeading>
          <Firstname>Wolfgang</Firstname>
          <Initials>W</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Ulm University, Office of the Dean of Studies for Medicine, Ulm, Germany</Affiliation>
          <Affiliation>University Hospital Ulm, Department of Cardiac Anesthesiology, Ulm, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Ulm, Studiendekanat Medizin, Ulm, Deutschland</Affiliation>
          <Affiliation>Universit&#228;tsklinik Ulm, Abteilung Kardioan&#228;sthesie, Ulm, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Muche</Lastname>
          <LastnameHeading>Muche</LastnameHeading>
          <Firstname>Rainer</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Ulm University, Institute of Epidemiology and Medical Biometry, Ulm, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Ulm, Institut f&#252;r Epidemiologie und Medizinische Biometrie, Ulm, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">cluster randomization</Keyword>
      <Keyword language="en">structural equivalence</Keyword>
      <Keyword language="en">educational research</Keyword>
      <Keyword language="en">study</Keyword>
      <Keyword language="en">sample size calculation</Keyword>
      <Keyword language="en">statistical analysis</Keyword>
      <Keyword language="de">Cluster-Randomisierung</Keyword>
      <Keyword language="de">Strukturgleichheit</Keyword>
      <Keyword language="de">Lehrforschung</Keyword>
      <Keyword language="de">Studie</Keyword>
      <Keyword language="de">Fallzahlplanung</Keyword>
      <Keyword language="de">Auswertung</Keyword>
      <SectionHeading language="en">Educational Research</SectionHeading>
      <SectionHeading language="de">Ausbildungsforschung</SectionHeading>
    </SubjectGroup>
    <DateReceived>20160816</DateReceived>
    <DateRevised>20161117</DateRevised>
    <DateAccepted>20161229</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20170515</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>34</Volume>
        <Issue>2</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>26</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>In der Lehrforschung werden immer h&#228;ufiger Studien zur Evaluation neuer Lehrmethoden und Ans&#228;tze durchgef&#252;hrt, wobei diese Studien bei einer strengeren Anwendung und Einhaltung von anerkannten Standards und Methoden wissenschaftlicher Untersuchungen noch effizienter durchgef&#252;hrt werden und &#252;berzeugendere Ergebnisse liefern k&#246;nnten. Insbesondere bei prospektiven zweiarmigen (Interventions)-Studien, in denen zwei verschiedene Lehrmethoden verglichen werden sollen, k&#246;nnte eine entsprechende Vorgehensweise zu einer substanziellen Qualit&#228;tssteigerung f&#252;hren. Ein wesentlicher Standard ist dabei die Randomisierung, mit der systematische Verzerrungen der Studienergebnisse durch Strukturungleichheiten in den zu vergleichenden Studienarmen weitestgehend ausgeschlossen werden k&#246;nnen. Dieser Standard sollte m&#246;glichst auch bei Studien in der Lehrforschung erreicht werden, wo er sich allerdings aktuell noch nicht allgemein durchgesetzt hat. Es gibt hierbei einige Schwierigkeiten und Vorbehalte, vor allem organisatorische und methodische Aspekte. Insbesondere muss beachtet werden, dass bei Studien in der Lehrforschung bedingt durch die Lehrsituation meist keine individuelle Randomisierung sondern eine Randomisierung ganzer Gruppen (sogenannte Cluster-Randomisierung) vorgenommen werden muss. Im Vergleich zu individuell randomisierten Studien sind bei cluster-randomisierten Studien meist (deutlich) h&#246;here Fallzahlen sowie eine komplexere Methodik der Fallzahlplanung notwendig. Weiterhin erfordern cluster-randomisierte Studien umfassendere Methoden zur statistischen Auswertung. Dies hat zur Konsequenz, dass die praktische Anwendung cluster-randomisierter Studien in allen ihren Phasen der Unterst&#252;tzung durch einen kompetenten Experten mit entsprechenden Spezialkenntnissen bedarf.</Pgraph><Pgraph>Eine verst&#228;rkte Anwendung der Randomisierung in Studien zur Beurteilung neuer Methoden in der Lehre ist notwendig, um wissenschaftlich &#252;berzeugende Ergebnisse zu erzielen. Um dazu beizutragen, werden in diesem Beitrag allgemeine Grundlagen der Cluster-Randomisierung beschrieben, deren Umsetzung und praktische Aspekte der Durchf&#252;hrung im Kontext von prospektiven zweiarmigen vergleichenden Studien in der Lehrforschung erl&#228;utert. </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>An increasing number of studies are being performed in educational research to evaluate new teaching methods and approaches. These studies could be performed more efficiently and deliver more convincing results if they more strictly applied and complied with recognized standards of scientific studies. Such an approach could substantially increase the quality in particular of prospective, two-arm (intervention) studies that aim to compare two different teaching methods. A key standard in such studies is randomization, which can minimize systematic bias in study findings; such bias may result if the two study arms are not structurally equivalent. If possible, educational research studies should also achieve this standard, although this is not yet generally the case. Some difficulties and concerns exist, particularly regarding organizational and methodological aspects. An important point to consider in educational research studies is that usually individuals cannot be randomized, because of the teaching situation, and instead whole groups have to be randomized (so-called &#8220;cluster randomization&#8221;). Compared with studies with individual randomization, studies with cluster randomization normally require (significantly) larger sample sizes and more complex methods for calculating sample size. Furthermore, cluster-randomized studies require more complex methods for statistical analysis. The consequence of the above is that a competent expert with respective special knowledge needs to be involved in all phases of cluster-randomized studies.</Pgraph><Pgraph>Studies to evaluate new teaching methods need to make greater use of randomization in order to achieve scientifically convincing results. Therefore, in this article we describe the general principles of cluster randomization and how to implement these principles, and we also outline practical aspects of using cluster randomization in prospective, two-arm comparative educational research studies.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><Pgraph>An increasing number of studies are being performed to evaluate new teaching methods and approaches in educational research, particularly in the field of medicine <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>; the increase has been particularly noticeable in Germany in recent years <TextLink reference="5"></TextLink>. These studies should also comply with recognized standards and methods of scientific research. The methods of clinical studies in drug development are well developed <TextLink reference="6"></TextLink>, &#91;<Hyperlink href="http:&#47;&#47;www.ich.org&#47;products&#47;guidelines&#47;efficacy&#47;article&#47;efficacy-guidelines.html">http:&#47;&#47;www.ich.org&#47;products&#47;guidelines&#47;efficacy&#47;article&#47;efficacy-guidelines.html</Hyperlink>&#93;, and the procedure is standardized worldwide to ensure that meaningful study results are achieved. These standards should therefore be established and applied as far as possible also in educational research studies. In addition to being important for observational studies, these standards are relevant mainly for prospective two-arm (intervention) studies that aim to compare two different teaching methods.</Pgraph><Pgraph>Studies in clinical research require a control arm that is statistically comparable to the test arm (structural equivalence) in order to prove the efficacy or superiority of a treatment. Randomization ensures that all confounders &#8211; known and unknown &#8211; are distributed equally across the control and test arms and that only random differences, if any, are present at the start of treatment <TextLink reference="7"></TextLink>. In the context of clinical studies, randomization does not mean that the patient is simply assigned to a treatment without any obvious criterion, but that a random experiment is formally performed that is independent of the participating clinician. If any other procedure is used to allocate volunteers or patients to the control and test arms, systematic distortions of the results are likely. Randomization is also an accepted method for educational research studies <TextLink reference="8"></TextLink>.</Pgraph><Pgraph>Educational research studies have some features and special requirements that are relevant for randomization. One of these features is that it is often not meaningful or possible to randomize individual students, for example because students are not always available as a result of their individual semester schedules. Furthermore, studies are usually performed in the natural learning situation of teaching in groups, such as joint lectures or seminars supervised by a lecturer. As a consequence of the above, in educational research studies it makes sense and is necessary to randomize whole groups (cluster randomization) rather than individual students.</Pgraph><Pgraph>In order to obtain scientifically convincing results in the sense of &#8220;evidence-based didactics,&#8221; educational research needs to make more use of randomization in studies to evaluate new teaching methods and approaches. To help increase the use of randomization, this paper describes the principles of cluster randomization and explains practical aspects in order to facilitate its use in prospective, two-arm comparative studies in educational research.</Pgraph><Pgraph>The first section presents the rationale of randomization. Subsequently, the distinctive features of scientific studies in educational research are discussed. The third section first describes the principles of cluster randomization and then discusses sample size calculation and approaches to analysing cluster-randomized studies, both of which differ from those of studies with individual randomization. Finally, a sample design for an educational research study with cluster randomization is presented as an example of its application.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><Pgraph>In der Lehrforschung, insbesondere im medizinischen Umfeld, werden immer h&#228;ufiger Studien zur Evaluation neuer Lehrmethoden und Ans&#228;tze durchgef&#252;hrt <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, wobei gerade in Deutschland in den letzten Jahren ein Ansteigen beobachtet wurde <TextLink reference="5"></TextLink>. Eine Einhaltung anerkannter Standards und Methoden wissenschaftlicher Untersuchungen sollte zweifelsohne auch bei diesen Studien erfolgen. In der Arzneimittelentwicklung sind die Methoden klinischer Studien weit entwickelt <TextLink reference="6"></TextLink>, &#91;<Hyperlink href="http:&#47;&#47;www.ich.org&#47;products&#47;guidelines&#47;efficacy&#47;article&#47;efficacy-guidelines.html">http:&#47;&#47;www.ich.org&#47;products&#47;guidelines&#47;efficacy&#47;article&#47;efficacy-guidelines.html</Hyperlink>&#93;. Das Vorgehen ist weltweit standardisiert, um zu aussagekr&#228;ftigen Studienergebnissen zu f&#252;hren. Diese Standards sollten daher m&#246;glichst auch bei Studien in der Lehrforschung etabliert werden und zur Anwendung kommen. Neben Beobachtungsstudien betrifft dies vor allem prospektive zweiarmige (Interventions)-Studien, in denen zwei verschiedene Lehrmethoden verglichen werden sollen.</Pgraph><Pgraph>In der klinischen Forschung ist f&#252;r den Wirksamkeitsnachweis oder den &#220;berlegenheitsnachweis einer Therapie ein Kontrollarm notwendig, mit welchen der Testarm im statistischen Sinne vergleichbar ist (Strukturgleichheit). Eine Randomisierung bewirkt, dass sich alle St&#246;rgr&#246;&#223;en &#8211; bekannte und unbekannte &#8211; gleichm&#228;&#223;ig auf Kontroll- und Testarm verteilen und sich bei Behandlungsbeginn h&#246;chstens zuf&#228;llige Unterschiede ergeben <TextLink reference="7"></TextLink>. Im Kontext klinischer Studien bedeutet Randomisierung <Mark3>nicht</Mark3>, dass der Patient ohne ersichtliches Kriterium einfach zugeteilt wird, sondern dass formal ein Zufallsexperiment durchgef&#252;hrt wird, welches unabh&#228;ngig vom beteiligten Kliniker ist. Bei Verwendung jedes anderen Zuteilungsverfahrens der Probanden oder Patienten auf Kontroll- und Testarm muss mit systematischen Verzerrungen der Ergebnisse gerechnet werden. Auch f&#252;r Studien in der Lehrforschung ist die Randomisierung als Methode anerkannt <TextLink reference="8"></TextLink>.</Pgraph><Pgraph>Bei Studien in der Lehrforschung gibt es dar&#252;ber hinaus einige Besonderheiten und spezielle Anforderungen beim Einsatz der Randomisierung. So ist es oft nicht sinnvoll oder m&#246;glich, einzelne Studierende individuell zu randomisieren, da beispielsweise durch individuelle Semesterpl&#228;ne die Studierenden nicht zu jedem Termin verf&#252;gbar sind. Weiterhin ist hier meist die nat&#252;rliche Studiensituation der Lehre in Gruppen vorgegeben, wie beispielsweise gemeinsame Vorlesungen oder Seminare, die von einem Dozierenden betreut werden. Aufgrund dieser Besonderheiten ist es sinnvoll und notwendig, bei Studien in der Lehrforschung eine Randomisierung ganzer Gruppen vorzunehmen (Cluster-Randomisierung) anstelle individueller Randomisierung einzelner Studierender.</Pgraph><Pgraph>Um wissenschaftlich &#252;berzeugende Ergebnisse im Sinne einer &#8220;evidence based didactics&#8221; zu erhalten, ist es wichtig, auch in der Lehrforschung verst&#228;rkt randomisierte Studien zur Evaluation neuer Lehrmethoden und Ans&#228;tze durchzuf&#252;hren. Um zu einer st&#228;rkeren Nutzung der Randomisierung beizutragen, werden in dieser Arbeit Grundlagen der Cluster-Randomisierung beschrieben und praktische Aspekte erl&#228;utert, um ihren Einsatz in der Lehrforschung im Kontext von prospektiven zweiarmigen vergleichenden Studien zu erleichtern. </Pgraph><Pgraph>Im ersten Abschnitt wird die Rationale der Randomisierung dargestellt. Anschlie&#223;end wird auf die besonderen Bedingungen bei wissenschaftlichen Studien in der Lehrforschung eingegangen. Im dritten Abschnitt wird das Prinzip der Cluster-Randomisierung dargestellt, danach wird auf Fallzahlplanung und Auswertungsans&#228;tze cluster-randomisierter Studien eingegangen, die sich von individuell randomisierten Studien unterscheiden. Zuletzt wird eine exemplarische Studienplanung mit Cluster-Randomisierung in der Lehrforschung als Anwendungsbeispiel vorgestellt.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. The reason for randomization: structural equivalence">
      <MainHeadline>2. The reason for randomization: structural equivalence</MainHeadline><Pgraph>In order to show why randomization is necessary, we will first explain some concepts that are relevant to educational research studies.</Pgraph><Pgraph><Mark1>Necessity of a control arm:</Mark1> In educational research, if a new method is used in a study with only one study arm (test arm), one cannot rule out that an observed effect could have arisen also without the new method. Thus, not all observed results in the test arm can be attributed to the new method. The efficacy of a new method only becomes evident if the specific result is better with this method than without it <TextLink reference="9"></TextLink>. Therefore, to obtain proof of efficacy a control arm, in which the previously used method is applied, is essential.</Pgraph><Pgraph><Mark1>Statistical comparability:</Mark1> Ensuring that differences in results observed when comparing the control and test arms really can be attributed only to the new method requires statistical comparability of the following: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">the structure of the control and test arms (structural equivalence); </ListItem><ListItem level="1" levelPosition="2" numString="2.">the interactions with students, with the exception of the specific new method being evaluated (equivalence of treatment conditions); and </ListItem><ListItem level="1" levelPosition="3" numString="3.">the observations (equivalence of observations). </ListItem></OrderedList></Pgraph><Pgraph>In this context, &#8220;statistically comparable&#8221; means that the control and test arms differ as little as possible and at the most by chance.</Pgraph><Pgraph><Mark1>Structural equivalence:</Mark1> Structural equivalence is given when the composition of the test and control arms is statistically comparable with respect to potential so-called &#8220;confounders&#8221; <TextLink reference="10"></TextLink>. Examples of such confounders are age and gender, which often influence results. In educational research, additional factors are personality factors, such as educational background and special skills, as well as interests and activities. Randomization is one approach to achieve structural equivalence. Random allocation of students to the control or test arm allows one to achieve a similar distribution of known and unknown confounders across both arms, or at least to assume that it has been achieved. In addition, stratification can be used to balance (a few) important known confounders between the control and test arms (see Section 4.2); however, the feasibility of stratification is limited in educational research.</Pgraph><Pgraph><Mark1>Equivalence of treatment conditions and observations</Mark1>: Equivalence of treatment conditions is achieved if all students in all groups receive and experience the same treatment conditions, apart from the new method being assessed. These treatment conditions (e.g. the same time for seminars, the same conditions for written examinations) should be specified in as much detail as possible in a study protocol &#8211; which should be written also for educational research studies &#8211; so that when the results are interpreted it is clear &#8220;what&#8221; was compared and under what conditions the observed effect arose. The control and test arms are considered to have &#8220;equivalence of observations&#8221; when situations are always observed and assessed according to the same rules (standardized conditions), e.g. the same evaluators are used to grade examinations. In clinical research, one procedure to achieve equivalence of treatment conditions and observations is the masking (blinding) of participants and investigators as to the treatment being received. In educational research studies, however, blinding is usually not possible and is only conceivable for evaluations, e.g. results in problem-based learning (PBL) can be evaluated by independent people who are not involved in the study.</Pgraph><Pgraph>If an educational research study has the above mentioned characteristics and if the success in the test arm is that much greater than in the control arm that the difference cannot be a coincidence, the study has shown that only the new method can be responsible for the outcome. However, if the control and test arms differ in other respects (i.e. they do not have structural equivalence or equivalence of treatment conditions or observations), the findings are difficult to interpret because an observed effect can no longer be exclusively attributed to the new method (blended effects). In such a situation, the specific effect of the new teaching method cannot be calculated and the study results usually cannot be interpreted according to the study question. Consequently, randomization is an important instrument to achieve structural equivalence in studies of the efficacy of new methods in educational research.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Der Hintergrund der Randomisierung: Strukturgleichheit">
      <MainHeadline>2. Der Hintergrund der Randomisierung: Strukturgleichheit</MainHeadline><Pgraph>Um aufzeigen zu k&#246;nnen, warum eine Randomisierung notwendig ist, sollen zun&#228;chst einige Begrifflichkeiten im Kontext von Studien in der Lehrforschung erl&#228;utert werden.</Pgraph><Pgraph><Mark1>Notwendigkeit eines Kontrollarms: </Mark1>Wird im Rahmen einer Studie in der Lehrforschung bei nur einem Studienarm eine neue Methode angewendet (Testarm), kann nicht ausgeschlossen werden, dass ein beobachteter Effekt auch ohne die neue Methode entstanden sein k&#246;nnte. Es k&#246;nnen also nicht alle beobachteten Erfolge im Testarm der neuen Methode zugerechnet werden. Die Wirksamkeit einer neuen Methode ist erst dann evident, wenn der spezifische Erfolg dieser Methode gr&#246;&#223;er ist als ohne diese <TextLink reference="9"></TextLink>. Deshalb ist f&#252;r einen solchen Wirksamkeitsnachweis ein Kontrollarm unabdingbar, in welcher die bisherige Methode angewendet wird.</Pgraph><Pgraph><Mark1>Statistische Vergleichbarkeit:</Mark1> Damit beobachtete Unterschiede hinsichtlich des Erfolgs im Vergleich zwischen Kontroll- und Testarm tats&#228;chlich nur auf die neue Methode zur&#252;ckgef&#252;hrt werden k&#246;nnen, muss statistische Vergleichbarkeit vorliegen: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">hinsichtlich der Struktur von Kontroll- und Testarm (Strukturgleichheit), </ListItem><ListItem level="1" levelPosition="2" numString="2.">im Umgang mit den Studierenden mit Ausnahme der spezifischen zu evaluierenden neuen Methode (Behandlungsgleichheit) und </ListItem><ListItem level="1" levelPosition="3" numString="3.">auch hinsichtlich der Beobachtung (Beobachtungsgleichheit). </ListItem></OrderedList></Pgraph><Pgraph>Dabei bedeutet statistisch gleich, dass sich Kontroll- und Testarm m&#246;glichst wenig, jedoch h&#246;chstens zuf&#228;llig unterscheiden.</Pgraph><Pgraph><Mark1>Strukturgleichheit: </Mark1>Strukturgleichheit ist gegeben, wenn Test- und Kontrollarm in ihrer Zusammensetzung hinsichtlich m&#246;glicher sogenannter &#8220;St&#246;rgr&#246;&#223;en&#8221; statistisch gleich sind <TextLink reference="10"></TextLink>. Beispiele f&#252;r solche St&#246;rgr&#246;&#223;en sind in der Lehrforschung Alter und Geschlecht, die oft einen Einfluss auf das Ergebnis haben. In der Lehrforschung sind dar&#252;ber hinaus Pers&#246;nlichkeitsfaktoren zu nennen, wie beispielsweise Vorbildung und spezielle F&#228;higkeiten sowie Interessen und Aktivit&#228;ten. Ein Instrument zum Erreichen der Strukturgleichheit stellt die Randomisierung dar. Sie bewirkt, dass man durch die Zufallszuteilung der Studierenden zu Kontroll- und Testarm eine &#228;hnliche Verteilung bekannter und unbekannter St&#246;rgr&#246;&#223;en auf beide Arme erreichen bzw. annehmen kann. Dar&#252;ber hinaus kann ein Gleichgewicht zwischen Kontroll- und Testarm hinsichtlich (weniger) wesentlicher bekannter St&#246;rgr&#246;&#223;en durch Schichtung erzeugt werden (siehe Abschnitt 4.2), was allerdings im Rahmen der Lehrforschung nur sehr eingeschr&#228;nkt praktikabel ist. </Pgraph><Pgraph><Mark1>Behandlungs- und Beobachtungsgleichheit:</Mark1> Behandlungsgleichheit liegt vor, wenn alle Studierenden aller Gruppen bis auf die zu beurteilende neue Methode die gleiche Behandlung erhalten und erfahren. Diese Behandlungen (z. B. gleiche Uhrzeiten f&#252;r Seminare, gleiche Bedingungen f&#252;r das Schreiben von Klausuren) sollten &#8211; auch bei Studien in der Lehrforschung &#8211; in einem Studienprotokoll m&#246;glichst detailliert festgelegt werden, damit bei der Interpretation der Ergebnisse klar ist, &#8220;was&#8221; miteinander verglichen wird und unter welchen Bedingungen der beobachtete Effekt entstanden ist. Kontroll- und Testarm gelten als &#8220;beobachtungsgleich&#8221;, wenn gleiche Sachverhalte stets nach gleichen Regeln beobachtet und beurteilt werden (standardisierte Bedingungen), z. B. gleiche Bewerter f&#252;r Klausuren. Ein Instrument zum Erreichen von Behandlungs- und Beobachtungsgleichheit stellt in der klinischen Forschung die Maskierung (Verblindung) von Therapien dar, was allerdings bei Studien in der Lehrforschung meist nicht m&#246;glich ist. Denkbar w&#228;re hier lediglich eine verblindete Bewertung, z. B. die Bewertung von Ergebnissen im Problem-basierten Lernen (PBL) durch unabh&#228;ngige und nicht an der Studie beteiligte Personen. </Pgraph><Pgraph>Hat eine Studie in der Lehrforschung die oben genannten Eigenschaften und ist der Erfolg im Testarm um so viel gr&#246;&#223;er als im Kontrollarm, dass dieser Unterschied nicht mehr mit dem Zufall vereinbar ist, wurde gezeigt, dass nur die neue Methode den Erfolg bewirkt haben kann. Unterscheiden sich Kontroll- und Testarm jedoch in weiterer Hinsicht (ist also Struktur-, Behandlungs- oder Beobachtungsgleichheit nicht erf&#252;llt), treten Interpretationsprobleme auf, da ein beobachteter Effekt nicht mehr ausschlie&#223;lich der neuen Methode zugeschrieben werden kann (vermengte Effekte). Der spezifische Effekt der neuen Lehrmethode kann in so einer Situation nicht berechnet werden, und in der Regel k&#246;nnen die Studienergebnisse auch nicht entsprechend der Fragestellung interpretiert werden. Die Randomisierung ist daher als Verfahren zur Erreichung der Strukturgleichheit ein wichtiges Instrument bei der Wirksamkeitsuntersuchung neuer Methoden in der Lehrforschung. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Conditions and requirements of educational research studies">
      <MainHeadline>3. Conditions and requirements of educational research studies</MainHeadline><Pgraph>Educational research studies take place in a special context. They usually face a natural cluster structure, because teaching is usually performed in groups of students. Examples are seminar groups, PBL groups, and groups of students attending a joint lecture. The group size varies greatly and ranges from 5-8 (PBL groups) to over 100 students in a joint lecture. The size of seminars varies, whereas in Germany one can assume because of legal specifications that in medicine a seminar group has up to 20 students &#91;<Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;index.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;index.html</Hyperlink>&#93;. All students within a group are exposed to the same conditions, such as the same teacher or the same facilities and times. Consequently, the intervention being studied (e.g. the use of a new teaching method by the lecturer) takes place at the level of the whole group. Thus, the outcomes of students in the same group are usually more similar than those of students in different groups. Furthermore, in addition to students&#8217; individual semester schedules an additional aspect to be considered in educational research studies is the time availability of appropriate resources (such as lecturers, seminar rooms, laboratories, lecture halls, computer pools). Also, if the number of students is limited and the group size is predefined, then a limited number of possible groups is available for a particular study. The above mentioned aspects mean that individual randomization can hardly be used in educational research studies, but that cluster randomization is meaningful and feasible. In cluster randomization, student groups or lecturers (who supervise groups of students) are randomized to the test and control arms, whereby the special characteristics mentioned above have to be taken into account.</Pgraph><Pgraph>Various outcome variables are conceivable in educational research studies: </Pgraph><Pgraph><UnorderedList><ListItem level="1">Evaluation results (e.g. student satisfaction, self-assessment of the achieved competence)</ListItem><ListItem level="1">Results of course assessments&#47;examinations (level of competence achieved)</ListItem><ListItem level="1">Measurement of the necessary learning effort (e.g. tracking of study time)</ListItem><ListItem level="1">Accompanying effects of studying the learning material (e.g. motivation curves, enthusiasm for the topic, awakening of interest, career planning)</ListItem></UnorderedList></Pgraph><Pgraph>In the following, we consider metric outcome variables (e.g. examination scores), which are assumed to be approximately normally distributed. We do not cover binary outcome variables (e.g. passed: yes&#47;no) in this paper because studies examining such variables usually require a significantly larger sample size and are thus almost impossible to conduct in the field of educational research.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Bedingungen und Anforderungen an Studien in der Lehrforschung">
      <MainHeadline>3. Bedingungen und Anforderungen an Studien in der Lehrforschung</MainHeadline><Pgraph>Studien in der Lehrforschung finden in einem besonderen Kontext statt. Es gibt meist eine nat&#252;rliche Clusterstruktur, da die Lehre in der Regel in Gruppen von Studierenden durchgef&#252;hrt wird. Beispiele sind Seminargruppen, PBL-Gruppen oder Gruppen von Studierenden, die eine gemeinsame Vorlesung besuchen. Die Gruppengr&#246;&#223;e ist sehr unterschiedlich und reicht von 5-8 (PBL-Gruppen) bis &#252;ber 100 Studierende in einer gemeinsamen Vorlesung. Die Gruppengr&#246;&#223;e in Seminaren ist unterschiedlich, wobei in der Medizin von bis zu 20 Studierenden pro Seminargruppe ausgegangen wird &#91;<Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;index.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;index.html</Hyperlink>&#93;. Alle Studierenden innerhalb einer Gruppe sind denselben Bedingungen ausgesetzt, wie beispielsweise derselben Lehrperson oder denselben R&#228;umlichkeiten und Zeiten. Dies hat zur Konsequenz, dass bei Studien die Intervention (z. B. Anwendung einer neuen Lehrmethode durch den Dozierenden) auf Ebene der gesamten Gruppe erfolgt. Somit ist das Ergebnis von Studierenden einer Gruppe in der Regel &#228;hnlicher als das Ergebnis von Studierenden verschiedener Gruppen. Dar&#252;ber hinaus ist bei Studien in der Lehrforschung neben den individuellen Semesterpl&#228;nen der Studierenden die zeitliche Verf&#252;gbarkeit geeigneter Ressourcen (wie Dozierende, Seminarr&#228;ume, Labore, H&#246;rs&#228;le, Computerpools) als weitere Rahmenbedingung zu beachten. Durch eine limitierte Anzahl der Studierenden ergibt sich -bei vorgegebener Gruppengr&#246;&#223;e- auch eine limitierte Anzahl m&#246;glicher Gruppen f&#252;r Studien in der Lehrforschung. Die genannten Aspekte f&#252;hren dazu, dass bei Studien in der Lehrforschung kaum individuelle Randomisierung erfolgen kann, sondern eine Cluster-Randomisierung sinnvoll und m&#246;glich ist. Dies bedeutet, dass Gruppen von Studierenden bzw. dass Dozierende (welche Gruppen von Studierenden betreuen) in Test- und Kontrollarm randomisiert werden, wobei die hier genannten Besonderheiten Ber&#252;cksichtigung finden m&#252;ssen.</Pgraph><Pgraph>In Studien der Lehrforschung sind verschiedene Zielgr&#246;&#223;en denkbar: </Pgraph><Pgraph><UnorderedList><ListItem level="1">Evaluationsergebnisse (z. B. Zufriedenheit der Studierenden, Selbsteinsch&#228;tzung der erreichten Kompetenz)</ListItem><ListItem level="1">Ergebnisse von Leistungsnachweisen&#47;Pr&#252;fungsergebnissen (erreichter Kompetenzgrad)</ListItem><ListItem level="1">&#220;berpr&#252;fung des erforderlichen Lernaufwands (z. B. Tracking von Lernzeiten)</ListItem><ListItem level="1">Begleiteffekte der Besch&#228;ftigung mit dem Lernstoff (z. B. Motivationskurven, Begeisterung f&#252;r das Fach, Interessensweckung, Karriereplanung)</ListItem></UnorderedList></Pgraph><Pgraph>Im Folgenden werden metrische Zielgr&#246;&#223;en betrachtet (z. B. Punktezahlen in Klausuren), die als ann&#228;hernd normalverteilt angenommen werden. Bin&#228;re Zielgr&#246;&#223;en (z. B. bestanden (ja&#47;nein)) werden in diesem Artikel nicht behandelt, da sie in der Regel eine deutlich h&#246;here Fallzahl ben&#246;tigen und damit im Rahmen von Studien in der Lehrforschung kaum anwendbar sind. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Cluster  randomization and its use in educational research">
      <MainHeadline>4. Cluster  randomization and its use in educational research</MainHeadline><Pgraph>The following sections explain the principles of cluster randomization and how they can be applied in the field of educational research. Furthermore, they provide information about study implementation, sample size calculation, and statistical analysis.</Pgraph><SubHeadline2>4.1. Definition and motivation </SubHeadline2><Pgraph>In a cluster-randomized study (also called a &#8220;group-randomized study,&#8221; &#8220;community randomization study,&#8221; or &#8220;community intervention study&#8221;), entire social groups or clusters of individuals are randomized, rather than individuals (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). </Pgraph><Pgraph>To date, this type of study has been performed particularly to evaluate non-therapeutic interventions, such as training programs, prevention programs, and health promotion measures. For the reasons mentioned in the last section, it seems to make sense to use cluster-randomized studies also in the field of educational research. Published cluster-randomized studies include studies with both small and large clusters: clusters are defined frequently by households, families, neighborhoods, municipalities, school classes, employers, hospitals, and doctors&#8217; practices. Thus, the number of individuals per cluster can range from 2 to several thousands. Various cluster sizes are also conceivable in educational research (see Section 3).</Pgraph><Pgraph>The main motivation for conducting a cluster-randomized study is wanting to avoid or reduce a contamination bias. If individual randomization was used in an educational research study, such a bias (distortion or systematic error) could be caused by interactions between individuals in different study arms. For example, if students in the control arm were individually randomized they could easily be encouraged by students in the test arm to carry out the specific methods of the test arm whose efficacy is being tested. Cluster randomization does not entirely eliminate this risk, however, but only reduces it. The widespread use of social media, such as Facebook, plays a role in contamination bias in educational research studies. Another important reason for the use of cluster randomization in educational research is the existence of natural clusters, because learning is usually done in groups (see Section 3).</Pgraph><Pgraph>Table 1 <ImgLink imgNo="1" imgType="table"/> presents important advantages and disadvantages of cluster randomization in the context of educational research. </Pgraph><SubHeadline2>4.2. Designs</SubHeadline2><Pgraph>In cluster-randomized studies, a distinction can be drawn between a completely randomized design, a stratified randomized design, and a matched design. In a completely randomized design, the clusters are assigned randomly to the groups and are neither stratified nor matched. An example is an educational research study in which seminar groups are randomized into either the test arm or the control arm. In the stratified randomized design, randomization is stratified on the basis of (a few) important known confounders so that the distribution of the confounders is similar in the test and control arms. Stratification is performed according to factors that are strongly associated with the outcome variables, such as cluster size, gender, or day. An example is an educational research study in which the day on which a seminar takes place is assumed to influence the outcome variable (i.e. it is a confounder). In this case, stratification can first be performed according to the day (e.g. Monday&#47;Wednesday&#47;Friday) and then seminar groups can be randomized into either the test or the control arm within each day. In this way, the confounder &#8220;day&#8221; is distributed almost equally across both arms. In the matched design, pairs of clusters are formed that are as similar as possible with respect to important factors that affect the outcome variable. One cluster of the pair is randomized to the test arm and the other to the control arm. This represents a good way to balance confounders (e.g. characteristics from the baseline evaluation, such as gender, semester, previous grade) between the two arms and thus to make the arms comparable. Not too many criteria should be used for the matching, however, because it may then become impossible to find a cluster that can form a pair with another.</Pgraph><Pgraph>As a result of the conditions and requirements described in Section 3 (specifications for cluster size; limited number of students and consequently limited number of clusters; availability of resources; individual semester schedules), educational research studies often can be assumed to have a relatively small number of clusters with a more or less fixed cluster size. In this context, stratified and matched designs are probably only feasible under special conditions. An example would be a multicenter study conducted at different institutions. For this reason, the completely randomized design will prevail in educational research.</Pgraph><SubHeadline2>4.3. Practical implementation</SubHeadline2><Pgraph>Educational research studies usually have to be reported to the responsible ethics committee. However, often it is not necessary to obtain written informed consent from the participating students and sufficient just to inform them about the study <TextLink reference="11"></TextLink>.</Pgraph><Pgraph>Inclusion and exclusion criteria must be defined at both the individual level (students) and the cluster level (teachers). One problem is that blinding usually is not possible in educational research studies. Consequently, there is a risk of bias in the outcome variable. This risk should be countered by measures to achieve equivalence of treatment conditions and observations. Examples are a strong standardization of the general approach and perhaps a blinded assessment of the outcome, e.g. by a third evaluator who is not involved in the study and who has no knowledge of the respective student&#39;s assignment to the test or control arm.</Pgraph><SubHeadline2>4.4. Sample size calculation</SubHeadline2><SubHeadline3>4.4.1. Why is sample size calculation different&#63;</SubHeadline3><Pgraph>Cluster randomization generates a special data structure, whereby observations within the clusters usually are more similar than observations from different clusters (i.e. there is statistical dependence). In the context of educational research studies, this means that the results of students within the same seminar group (e.g. grades in the written exam) are more similar than the results of students in different seminar groups. This results in a loss of efficiency and power, which affects sample size calculation: the effective sample size of a cluster-randomized study (i.e. the number of truly statistically independent individual observations) is lower than the actual sample size (i.e. the number of recruited students). Therefore, standard procedures that assume the statistical independence of all observations are unsuitable for calculating sample size for cluster-randomized studies and evaluating data from these studies. The use of standard procedures to calculate sample size would lead to studies with too little power in which the chance of proving a difference between the study arms that is actually present would be (significantly) lower than assumed in the calculation. In educational research, this may result in a new teaching method that is actually better not being recognized as such by the study, for example.</Pgraph><SubHeadline3>4.4.2. Determination of similarity - the intracluster correlation coefficient (ICC)</SubHeadline3><Pgraph>The intracluster correlation coefficient (synonym: intraclass correlation coefficient, ICC; &#961;) is used to quantify the similarity of observations within a cluster compared with observations from different clusters. The ICC can be defined in various ways <TextLink reference="12"></TextLink>; for metric outcome variables, it is often defined as a quotient of variances <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>:</Pgraph><Pgraph><ImgLink imgNo="1" imgType="inlineFigure"/></Pgraph><Pgraph>whereby <ImgLink imgNo="2" imgType="inlineFigure"/> is the variance between the clusters, <ImgLink imgNo="3" imgType="inlineFigure"/> the variance within the same cluster, and <ImgLink imgNo="4" imgType="inlineFigure"/> the total variance. This definition allows the ICC to be interpreted as the share of the total variance accounted for by the variance between the clusters, assuming that the variance <ImgLink imgNo="3" imgType="inlineFigure"/> is constant in each cluster. With this definition, the ICC can take values between 0 and 1. Its size is a measure of the strength of the similarity of the observations within the cluster compared with the similarity of the observations between the clusters. If the ICC is 1, the observations within each cluster are the same. In the context of educational research studies this would mean, for example, that in each seminar group all the students have the same examination grade (but not necessarily that all seminar groups in the study have the same grade). The ICC has the value 0 if all observations are statistically independent. In the case of educational research studies, this would mean, for example, that the students&#8217; examination grades within the same seminar group are not dependent, i.e. the seminar group has no influence on the examination grades.</Pgraph><Pgraph>Estimating the ICC a priori is often a challenge. The ICC can be calculated from data from a pilot study or from the literature, for example. Therefore, publications of cluster-randomized studies should include the post hoc calculation of their ICC, so that it is available for similar studies <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>. Furthermore, the ICC is only an estimate from a sample and thus subject to uncertainty (confidence interval <TextLink reference="17"></TextLink>). This is of particular importance for educational research studies because often only small studies with few clusters can be performed, so that the ICC cannot be reliably estimated.</Pgraph><Pgraph>In addition, different calculation methods can influence the value of the ICC. An overview of ICC calculation methods suitable for metric outcome variables is given in <TextLink reference="18"></TextLink>. For binary outcome variables, corresponding methods are available in <TextLink reference="19"></TextLink> and <TextLink reference="20"></TextLink>.</Pgraph><SubHeadline3>4.4.3. The design effect (DE)</SubHeadline3><Pgraph>In order to achieve the same power in a cluster-randomized study as in a study with individual randomization, usually more individuals have to be recruited in the former. The sample size required for a cluster-randomized study is calculated by multiplying the sample size of a study with individual randomization with the design effect (DE), which is calculated from the ICC &#961; and the fixed cluster size m:</Pgraph><Pgraph><Mark1>DE &#61; 1&#43;&#961;&#xB7;(m-1)</Mark1></Pgraph><Pgraph>The result is a total sample size and subsequently a number of clusters (with fixed cluster size) for a given power. For educational research studies, this means that initially a total number of students is calculated and then, on the basis of this, the number of seminar groups (with fixed group size m).</Pgraph><Pgraph>If cluster sizes are unequal, m can be replaced by the arithmetic mean or by the maximum cluster size. The use of the arithmetic mean of the cluster size is useful when there is little variability in cluster size <TextLink reference="12"></TextLink>; the use of the maximum cluster size is a conservative approach. If the ICC is &#961;&#61;0 (statistical independence of the observations, see above), DE&#61;1, which means that the cluster-randomized study has the same sample size as a corresponding study with individual randomization. In this case, the formation of clusters has no influence on the sample size. In practice, most ICCs are between 0.00 and 0.20, although there is a very wide range <TextLink reference="21"></TextLink>.</Pgraph><SubHeadline3>4.4.4. Procedure for calculating sample size</SubHeadline3><Pgraph>In general, two approaches can be considered when planning a study. One is an exploratory approach in which a minimum effect can be calculated for the given maximum sample size with a given power and cluster size or a power can be calculated for a given minimum effect and cluster size <TextLink reference="22"></TextLink>. This is particularly useful when only a limited number of observations are available. Figure 2 <ImgLink imgNo="2" imgType="figure"/> shows the schema for calculating the power or minimum effect for a given sample size in educational research studies.</Pgraph><Pgraph>The other is a confirmatory approach: a sample size (i.e. the number of students and a resulting cluster number) is calculated for a given power and a predetermined minimum effect. Figure 3 <ImgLink imgNo="3" imgType="figure"/> shows the schema for calculating sample size in educational research studies with a given power and minimum effect. </Pgraph><Pgraph>However, because of the special conditions in educational research (limited number of students and therefore of clusters and a given cluster size, see above and Section 3) confirmatory studies often cannot be implemented.</Pgraph><Pgraph>If additional covariates are to be included in the planning of a cluster-randomized study, the definition of the ICC can be expanded according to <TextLink reference="14"></TextLink>. Simulation is another option, especially for complex study designs (e.g. if several covariates are to be considered in a longitudinal design, presence of additional hierarchical levels) (e.g. <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>).</Pgraph><SubHeadline2>4.5. Statistical Analysis</SubHeadline2><Pgraph>In order to take into account the statistical dependencies within the clusters (in educational research studies, an example would be the dependence of examination results of students in the same seminar group), a cluster adjustment has to be performed during the analysis <TextLink reference="12"></TextLink>. A so-called &#8220;naive analysis&#8221; (cluster adjustment is not performed; standard methods are applied, such as a two-sample t-test) can result in the estimated confidence intervals and p values being too small <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. In educational research studies, this would result in studies being falsely reported as significant and thus new teaching methods appearing to be better than they actually are.</Pgraph><Pgraph>The methods used to plan a study should also be used to analyze it <TextLink reference="23"></TextLink>, <TextLink reference="28"></TextLink>, whereby the methods depend on the study design (see above). In the statistical analysis, a distinction can be made between the analysis at the cluster level and at the individual level <TextLink reference="28"></TextLink>, <TextLink reference="13"></TextLink>. Because of the complexity of the statistical methods, the support of a competent expert (e.g. statisticians with appropriate special knowledge) is recommended in particular for the analysis. Almost all medical faculties in Germany that have a medical or dental school are connected with methodically versed institutes (such as biometry departments), which could provide expertise accordingly.</Pgraph><Pgraph>Cluster-level analysis is the simplest evaluation method for a cluster-randomized study and can be viewed as a two-step process: initially, a composite measure (cluster-level summary) is calculated for each cluster (first stage), and then the composite measures are compared with a suitable statistical test (second stage), see e.g. <TextLink reference="16"></TextLink>. In educational research studies, for example, the mean cluster values (e.g. the mean grade in each seminar group) can be used in the analysis (e.g. ordinary two-sample t-test) instead of the students&#8217; individual results. Covariates can be considered in a simplified way via regressions <TextLink reference="13"></TextLink>. Analysis at the cluster level is robust, especially if the number of clusters is small, but has the disadvantage that it does not take into account the variability within the clusters. An alternative is to adjust univariate test statistics (e.g. the t value in the t-test) by considering the design effect, whereby the individual results may be evaluated as being statistically independent <TextLink reference="15"></TextLink>, <TextLink reference="29"></TextLink>.</Pgraph><Pgraph>Individual-level analysis is an alternative approach that is especially relevant for strongly varying cluster sizes, a situation in which cluster-level analysis is less efficient. The adjusted two-sample t-test is one simple statistical procedure that also allows an analysis to be performed at the individual level <TextLink reference="28"></TextLink>. If additional covariates are to be considered, regression models with random effects, mixed effects regression models, or generalized estimating equations (GEE models) can be applied. These approaches also allow factors to be considered as potential influencing variables in the event that stratification was not possible during cluster randomization, even though known prognostic factors were present. The use of one of these approaches has advantages over using cluster-level analysis methods because the effects of covariates can be examined on the same level as the effect of the study arm (as a regression coefficient with a confidence interval and p value). Individual-level analysis methods have the disadvantage, however, that they are less robust when there is a small number of clusters. One recommendation, therefore, is to use cluster-level analysis methods if there are fewer than 15 to 20 clusters per study arm <TextLink reference="13"></TextLink>. In studies with a larger number of clusters, individual-level analysis methods can have advantages, especially if cluster size is highly variable.</Pgraph><SubHeadline2>4.6. Reporting</SubHeadline2><Pgraph>The CONSORT Statement was developed for the reporting of randomized clinical trials but has been extended to cluster-randomized studies by Campbell et al. <TextLink reference="30"></TextLink>. The extended CONSORT statement considers the special characteristics of a cluster-randomized study and should be considered when publishing such a study. The stipulations include the following:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Describe the reasons for using cluster randomization</ListItem><ListItem level="1">Name the unit of randomization and the intervention</ListItem><ListItem level="1">In addition to the number of individuals, state the number of clusters and their size </ListItem><ListItem level="1">Show structural equivalence not only at the individual level but also at the cluster level</ListItem><ListItem level="1">Calculate and report the ICC (see above) </ListItem><ListItem level="1">Analyze the drop-outs on both the individual and the cluster level </ListItem><ListItem level="1">Draw a flowchart to show the number of study participants and clusters in the course of the study</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Cluster-Randomisierung und ihre Anwendung in der Lehrforschung">
      <MainHeadline>4. Cluster-Randomisierung und ihre Anwendung in der Lehrforschung</MainHeadline><Pgraph>In den folgenden Abschnitten wird das Prinzip der Cluster-Randomisierung erl&#228;utert und auf den Bereich der Lehrforschung angewendet. Weiterhin werden Informationen zu Studiendurchf&#252;hrung, Fallzahlplanung und Auswertung gegeben. </Pgraph><SubHeadline2>4.1. Definition und Motivation </SubHeadline2><Pgraph>In einer cluster-randomisierten Studie (engl. cluster randomised trial, Synonyme: &#8222;group randomised trial&#8220;, &#8222;community randomisation trial&#8220;, &#8222;community intervention trial&#8220;) werden komplette soziale Gruppen oder Cluster von Individuen, anstelle von einzelnen Individuen, randomisiert, siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>. </Pgraph><Pgraph>Studien dieses Typs findet man bisher insbesondere bei der Untersuchung nicht-therapeutischer Interventionen, wie z. B. der Bewertung von Schulungsprogrammen, Pr&#228;ventionsprogrammen oder Ma&#223;nahmen zur Gesundheitsf&#246;rderung. Aus den im letzten Abschnitt genannten Gr&#252;nden erscheint die Verwendung cluster-randomisierter Studien auch im Bereich der Lehrforschung sinnvoll. Unter publizierten cluster-randomisierten Studien finden sich sowohl Studien mit kleinen als auch Studien mit gro&#223;en Clustern: H&#228;ufig werden Cluster &#252;ber Haushalte, Familien, Nachbarschaften, Gemeinden, Schulklassen, Arbeitgeber, Krankenh&#228;user oder Praxen niedergelassener &#196;rzte definiert. Somit kann die Anzahl von Individuen pro Cluster zwischen 2 und mehreren Tausend liegen. Auch in der Lehrforschung sind verschiedene Clustergr&#246;&#223;en denkbar (siehe Abschnitt 3).</Pgraph><Pgraph>Hauptmotivation f&#252;r die Durchf&#252;hrung einer cluster-randomisierten Studie ist das Bestreben, einen Kontaminationsbias zu vermeiden oder zu verringern. Ein solcher Bias (Verzerrung oder systematischer Fehler) k&#246;nnte bei Randomisierung von Individuen durch Interaktion zwischen den Individuen aus verschiedenen Studienarmen hervorgerufen werden. Beispielsweise k&#246;nnten bei individueller Randomisierung Studierende des Kontrollarms leicht durch Studierende des Testarms animiert werden, die speziellen Methoden des Testarms durchzuf&#252;hren, deren Wirksamkeit gepr&#252;ft werden soll. Allerdings ist auch bei einer Cluster-Randomisierung diese M&#246;glichkeit nicht ausgeschlossen, sondern nur vermindert. Bei Studien in der Lehrforschung spielt im Zusammenhang mit Kontaminationsbias insbesondere die stark verbreitete Verwendung sozialer Medien wie Facebook eine Rolle. Ein weiterer wesentlicher Grund f&#252;r die Anwendung der Cluster-Randomisierung in der Lehrforschung ist das Vorliegen nat&#252;rlicher Cluster, da das Lernen in der Regel in Gruppen erfolgt (siehe Abschnitt 3). Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zeigt wichtige Vor- und Nachteile der Cluster-Randomisierung im Kontext der Lehrforschung.</Pgraph><SubHeadline2>4.2. Designs</SubHeadline2><Pgraph>Bei cluster-randomisierten Studien kann zwischen vollst&#228;ndig randomisiertem Design, stratifiziert randomisiertem Design und gematchtem Design unterschieden werden. Bei vollst&#228;ndig randomisiertem Design werden die Cluster zuf&#228;llig den Gruppen zugeteilt und es wird dabei weder stratifiziert noch gematcht. Ein Beispiel ist eine Studie in der Lehrforschung, bei welcher Seminargruppen entweder in den Testarm oder den Kontrollarm randomisiert werden. Beim stratifiziert randomisierten Design wird geschichtet nach (wenigen) wichtigen bekannten St&#246;rgr&#246;&#223;en randomisiert, so dass die Verteilung der St&#246;rgr&#246;&#223;en in Test- und Kontrollarm &#228;hnlich ist. Stratifiziert wird nach Faktoren, die stark mit der Zielgr&#246;&#223;e assoziiert sind, wie beispielsweise Clustergr&#246;&#223;e, Geschlecht oder Tag. Ein Beispiel ist eine Studie in der Lehrforschung, bei welcher angenommen wird, dass der Tag, an dem ein Seminar stattfindet, Einfluss auf die Zielgr&#246;&#223;e hat (d. h. eine St&#246;rgr&#246;&#223;e ist). Hier kann zun&#228;chst nach Tag stratifiziert werden (z. B. Montag&#47;Mittwoch&#47;Freitag) und innerhalb jedes Tages werden dann Seminargruppen entweder in den Testarm oder den Kontrollarm randomisiert. Auf diese Art und Weise wird erreicht, dass die St&#246;rgr&#246;&#223;e Tag ann&#228;hernd gleichm&#228;&#223;ig auf beide Arme verteilt wird. Im gematchten Design werden Paare von Clustern gebildet, die so &#228;hnlich wie m&#246;glich sind, in Bezug auf wichtige Faktoren, die die Zielgr&#246;&#223;e beeinflussen. Ein Cluster des Paares wird jeweils in den Testarm und das andere Cluster in den Kontrollarm randomisiert. Dadurch ist eine gute M&#246;glichkeit gegeben, St&#246;rgr&#246;&#223;en (z. B. Charakteristika aus der Baselineerhebung wie Geschlecht, Fachsemester, Vornote) zwischen beiden Armen zu balancieren, so dass eine Vergleichbarkeit der Arme erreicht wird. F&#252;r das Matching sollten nicht zu viele Kriterien herangezogen werden, da dann evtl. kein Cluster mehr gefunden werden kann, welches mit einem anderen ein Paar bilden kann. </Pgraph><Pgraph>Unter den in Abschnitt 3 genannten Bedingungen und Anforderungen (Vorgaben f&#252;r Clustergr&#246;&#223;e, limitierte Anzahl Studierender und damit limitierte Clusteranzahl, Verf&#252;gbarkeit von Ressourcen, individuelle Semesterpl&#228;ne) ist bei Studien in der Lehrforschung oft von einer vergleichsweise kleinen Clusteranzahl mit einer mehr oder weniger fest vorgegebenen Clustergr&#246;&#223;e auszugehen. Stratifizierte und gematchte Designs d&#252;rften in einem solchen Kontext nur unter besonderen Bedingungen realisierbar sein. Ein Beispiel ist eine multizentrische Studie, die an verschiedenen Einrichtungen durchgef&#252;hrt wird. Aus diesem Grund wird das vollst&#228;ndig randomisierte Design in der Lehrforschung &#252;berwiegen. </Pgraph><SubHeadline2>4.3. Praktische Durchf&#252;hrung</SubHeadline2><Pgraph>Studien in der Lehrforschung sind in der Regel bei der Ethikkommission anzuzeigen. Es ist oft allerdings kein schriftliches Einverst&#228;ndnis der beteiligten Studierenden erforderlich, lediglich eine Aufkl&#228;rung <TextLink reference="11"></TextLink>.</Pgraph><Pgraph>Ein- und Ausschlusskriterien m&#252;ssen sowohl auf Individualebene (Studierende) als auch auf Cluster-Ebene (Lehrende) definiert werden. Problematisch ist, dass bei Studien in der Lehrforschung meist keine Verblindung m&#246;glich sein wird. Damit besteht die Gefahr eines Bias in der Zielgr&#246;&#223;e. Dieser Gefahr sollte durch Ma&#223;nahmen zur Erreichung der Behandlungs- und Beobachtungsgleichheit entgegengewirkt werden. Beispiele sind eine starke Standardisierung des generellen Vorgehens, ggf. eine verblindete Beurteilung des Erfolgs, z. B. durch einen dritten, nicht in die Studie involvierten Bewerter, der keine Kenntnis &#252;ber die Zugeh&#246;rigkeit des jeweiligen Studierenden zu Test- und Kontrollarm hat.</Pgraph><SubHeadline2>4.4. Fallzahlplanung</SubHeadline2><SubHeadline3>4.4.1. Warum eine eigene Fallzahlplanung&#63;</SubHeadline3><Pgraph>Durch die Cluster-Randomisierung wird eine spezielle Datenstruktur erzeugt, wobei Beobachtungen innerhalb der Cluster meist &#228;hnlicher sind als Beobachtungen aus verschiedenen Clustern (Vorliegen von statistischer Abh&#228;ngigkeit). Dies bedeutet im Kontext von Studien in der Lehrforschung, dass die Ergebnisse (z. B. Leistungen in der Klausur) von Studierenden innerhalb der gleichen Seminargruppe &#228;hnlicher sind als Ergebnisse von Studierenden verschiedener Seminargruppen. Dadurch kommt es zu einem Effizienz- und Powerverlust, was sich auf die Fallzahlplanung auswirkt: Die effektive Fallzahl einer cluster-randomisierten Studie (d. h. die Anzahl der wirklich statistisch unabh&#228;ngigen individuellen Beobachtungen) ist niedriger als die tats&#228;chliche Fallzahl (d. h. die Anzahl rekrutierter Studierender). Daher sind Standardverfahren, die von der statistischen Unabh&#228;ngigkeit aller Beobachtungen ausgehen, f&#252;r Fallzahlplanung und Auswertung solcher Daten ungeeignet. Die Anwendung von Standardverfahren f&#252;r die Fallzahlplanung w&#252;rde zu Studien mit zu geringer Power f&#252;hren, in denen die Chance einen tats&#228;chlich vorhandenen Unterschied zwischen den Studienarmen nachzuweisen, (deutlich) geringer ist, als in der Planung angenommen. In der Lehrforschung kann dies beispielsweise dazu f&#252;hren, dass eine neue Lehrmethode, die in der Wirklichkeit besser ist, mit der Studie nicht erkannt wird.</Pgraph><SubHeadline3>4.4.2. &#196;hnlichkeitsbestimmung &#8211; der Intracluster-Korrelationskoeffizient ICC</SubHeadline3><Pgraph>Um die &#196;hnlichkeit der Beobachtungen innerhalb der Cluster im Vergleich zu Beobachtungen aus verschiedenen Clustern zu quantifizieren wird als Ma&#223;zahl der <Mark3>Intracluster-Korrelationskoeffizient</Mark3> (synonym: Intraclass-Korrelationskoeffizient; abgek&#252;rzt ICC, &#961;), verwendet. Der ICC kann auf verschiedene Art definiert werden <TextLink reference="12"></TextLink>. F&#252;r metrische Zielgr&#246;&#223;en wird der ICC oft als Quotient von Varianzen definiert <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>:</Pgraph><Pgraph><ImgLink imgNo="1" imgType="inlineFigure"/></Pgraph><Pgraph>wobei <ImgLink imgNo="2" imgType="inlineFigure"/> die Varianz zwischen den Clustern, <ImgLink imgNo="3" imgType="inlineFigure"/> die Varianz innerhalb desselben Clusters und <ImgLink imgNo="4" imgType="inlineFigure"/> die Gesamtvarianz bezeichnet. Mit dieser Definition kann der ICC als Anteil der Varianz zwischen den Clustern an der Gesamtvarianz interpretiert werden, wobei davon ausgegangen wird, dass die Varianz <ImgLink imgNo="3" imgType="inlineFigure"/> in jedem Cluster konstant ist. Der ICC kann mit dieser Definition Werte zwischen 0 und 1 annehmen. Seine Gr&#246;&#223;enordnung ist ein Ma&#223; f&#252;r die St&#228;rke der &#196;hnlichkeit der Beobachtungen innerhalb der Cluster im Vergleich zur &#196;hnlichkeit der Beobachtungen zwischen den Clustern. Hat der ICC den Wert 1 sind die Beobachtungen innerhalb jedes Clusters gleich. Im Kontext von Studien in der Lehrforschung w&#252;rde dies beispielsweise bedeuten, dass in jeder Seminargruppe alle Studierenden dieselbe Klausurnote haben (aber nicht notwendigerweise, dass alle Seminargruppen in der Studie dieselbe Note haben). Der ICC hat den Wert 0, wenn alle Beobachtungen statistisch unabh&#228;ngig sind. Bei Studien in der Lehrforschung w&#252;rde dies beispielsweise bedeuten, dass die Klausurnoten von Studierenden innerhalb derselben Seminargruppe nicht abh&#228;ngig sind, d. h. dass kein Einfluss der Seminargruppe auf die Klausurnoten besteht. </Pgraph><Pgraph>Eine Herausforderung ist oft, eine apriori Sch&#228;tzung des ICC zu erhalten. Der ICC kann z. B. aus Daten einer Pilotstudie berechnet oder der Literatur entnommen werden. Cluster-randomisierte Studien sollten daher ihre post-hoc ermittelten Intracluster-Korrelationskoeffizienten publizieren, damit diese f&#252;r &#228;hnliche Studien zur Verf&#252;gung stehen <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>. Weiterhin ist der ICC nur eine Sch&#228;tzung aus einer Stichprobe und somit mit Unsicherheit behaftet (Konfidenzintervall <TextLink reference="17"></TextLink>). Dies hat besonders f&#252;r Studien in der Lehrforschung Bedeutung, da hier oft nur kleine Studien mit wenigen Clustern durchgef&#252;hrt werden k&#246;nnen, bei denen der ICC nicht zuverl&#228;ssig gesch&#228;tzt werden kann. </Pgraph><Pgraph>Dar&#252;ber hinaus k&#246;nnen unterschiedliche Berechnungsverfahren Einfluss auf den Wert des ICC haben. Eine &#220;bersicht &#252;ber f&#252;r metrische Zielgr&#246;&#223;en geeignete Berechnungsverfahren des ICC gibt <TextLink reference="18"></TextLink>. F&#252;r bin&#228;re Zielgr&#246;&#223;en sind entsprechende Methoden in <TextLink reference="19"></TextLink> und <TextLink reference="20"></TextLink> verf&#252;gbar. </Pgraph><SubHeadline3>4.4.3. Der Designeffekt (DE)</SubHeadline3><Pgraph>Um in einer cluster-randomisierten Studie die gleiche Power wie in einer individuell randomisierten Studie zu erreichen, m&#252;ssen in der cluster-randomisierten Studie in der Regel mehr Individuen rekrutiert werden. Die f&#252;r eine cluster-randomisierte Studie notwendige Fallzahl ergibt sich aus der Fallzahl f&#252;r die individuell randomisierte Studie durch Multiplikation mit dem <Mark3>Designeffekt</Mark3> (DE), der aus dem ICC &#961; und der festen Clustergr&#246;&#223;e m berechnet wird: </Pgraph><Pgraph><Mark1>DE &#61; 1&#43;</Mark1><Mark1>&#961;</Mark1><Mark1>&#xB7;(m-1)</Mark1></Pgraph><Pgraph>Das Ergebnis ist eine Gesamtfallzahl und eine sich daraus ergebende Anzahl von Clustern (mit fester Clustergr&#246;&#223;e) f&#252;r eine vorgegebene Power. F&#252;r Studien in der Lehrforschung bedeutet dies, dass zun&#228;chst eine Gesamtanzahl Studierender berechnet wird und daraus anschlie&#223;end eine Anzahl an Seminargruppen (mit fester Gruppengr&#246;&#223;e m). </Pgraph><Pgraph>Bei ungleicher Clustergr&#246;&#223;e kann m ersetzt werden durch das arithmetische Mittel oder durch die maximale Clustergr&#246;&#223;e. Die Verwendung des arithmetischen Mittels der Clustergr&#246;&#223;e ist sinnvoll, wenn nur wenig Variabilit&#228;t in der Clustergr&#246;&#223;e besteht <TextLink reference="12"></TextLink>, die Verwendung der maximalen Clustergr&#246;&#223;e ein konservativer Ansatz. Bei einem Intracluster-Korrelationskoeffizienten von &#961;&#61;0 (statistische Unabh&#228;ngigkeit aller Beobachtungen, siehe oben) ist der Designeffekt DE&#61;1, was bedeutet, dass die cluster-randomisierte Studie dieselbe Fallzahl wie die entsprechende individuell randomisierte Studie hat. Die Bildung von Clustern hat in dem Fall keinen Einfluss auf die Fallzahl. In der Praxis liegt die Gr&#246;&#223;enordnung der meisten ICC zwischen 0.00 und 0.20, wobei eine sehr gro&#223;e Spannweite besteht <TextLink reference="21"></TextLink>.</Pgraph><SubHeadline3>4.4.4. Vorgehensweisen bei der Fallzahlplanung</SubHeadline3><Pgraph>Allgemein k&#246;nnen bei der Studienplanung zwei Herangehensweisen betrachtet werden. Zum einen kann im Rahmen eines explorativen Ansatzes f&#252;r die gegebene maximale Fallzahl bei gegebener Power und Clustergr&#246;&#223;e ein Mindesteffekt oder bei gegebenem Mindesteffekt und Clustergr&#246;&#223;e eine Power berechnet werden <TextLink reference="22"></TextLink>. Dies ist insbesondere dann sinnvoll, wenn nur eine stark limitierte Anzahl von Beobachtungen zur Verf&#252;gung steht. Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt das Schema der Berechnung von Power bzw. Mindesteffekt in Studien in der Lehrforschung bei gegebener Fallzahl. </Pgraph><Pgraph>Zum anderen kann ein konfirmatorischer Ansatz gew&#228;hlt werden: F&#252;r eine vorgegebene Power und einen vorgegebenen Mindesteffekt wird eine Fallzahl (d. h. Anzahl Studierender und eine sich daraus ergebende Clusteranzahl) berechnet. Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> zeigt das Schema der Fallzahlberechnung in Studien in der Lehrforschung bei vorgegebener Power und Mindesteffekt. </Pgraph><Pgraph>Wegen der speziellen Bedingungen in der Lehrforschung (limitierte Anzahl Studierender und damit Cluster sowie eine vorgegebene Clustergr&#246;&#223;e, vergleiche oben und Abschnitt 3) ist die Durchf&#252;hrung konfirmatorischer Studien allerdings limitiert. </Pgraph><Pgraph>Sollen in die Planung einer cluster-randomisierten Studie noch zus&#228;tzlich Kovariaten einbezogen werden, ist eine Erweiterung der Definition des ICC nach <TextLink reference="14"></TextLink> m&#246;glich. Eine weitere M&#246;glichkeit, insbesondere f&#252;r komplexe Studiendesigns (beispielsweise Ber&#252;cksichtigung mehrerer Kovariaten im longitudinalen Design, weitere Hierarchieebenen), bietet auch die Simulation (z. B. <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>). </Pgraph><SubHeadline2>4.5. Auswertung</SubHeadline2><Pgraph>Um die statistischen Abh&#228;ngigkeiten innerhalb der Cluster zu ber&#252;cksichtigen (bei Studien in der Lehrforschung: z. B. Abh&#228;ngigkeit von Klausurergebnissen von Studierenden in derselben Seminargruppe), muss bei der Auswertung eine Cluster-Adjustierung durchgef&#252;hrt werden <TextLink reference="12"></TextLink>. Eine sogenannte &#8222;naive Analyse&#8220; (Cluster-Adjustierung bleibt unber&#252;cksichtigt; Anwendung von Standardverfahren wie beispielsweise Zweistichproben-t-Test) kann zur Sch&#228;tzung von zu kleinen Konfidenzintervallen und p-Werten f&#252;hren <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. F&#252;r Studien in der Lehrforschung h&#228;tte dies zur Konsequenz, dass falsch signifikante Studien berichtet und damit neue Lehrmethoden als vermeintlich besser dargestellt w&#252;rden. </Pgraph><Pgraph>Die im Rahmen der Studienplanung angewendeten Methoden sollten auch zur Auswertung genutzt werden <TextLink reference="23"></TextLink>, <TextLink reference="28"></TextLink>, wobei die Methoden vom Studiendesign (siehe oben) abh&#228;ngen. Bei der statistischen Analyse kann zwischen der Analyse auf Cluster-Ebene oder auf Individuen-Ebene unterschieden werden <TextLink reference="28"></TextLink>, <TextLink reference="13"></TextLink>. Wegen der sehr komplexen statistischen Methoden ist insbesondere f&#252;r die Auswertung die Unterst&#252;tzung durch einen kompetenten Experten (z. B. Statistiker mit entsprechenden Spezialkenntnissen) empfehlenswert. In Bezug auf die human-&#47;zahnmedizinische Lehre sind an fast allen Medizinischen Fakult&#228;ten in Deutschland methodisch versierte Institute (z.B. Biometrie-Abteilungen) angebunden, die hierbei entsprechend ihre Expertise einbringen k&#246;nnten.</Pgraph><Pgraph>Die Analyse auf Cluster-Ebene ist die einfachste Auswertemethode einer cluster-randomisierten Studie und kann als zweistufiger Prozess angesehen werden: Zun&#228;chst wird f&#252;r jedes Cluster ein Summenma&#223; berechnet (erste Stufe), welches dann mit einem geeigneten statistischen Test verglichen wird (zweite Stufe), siehe z. B. <TextLink reference="16"></TextLink>. In Studien in der Lehrforschung k&#246;nnen beispielsweise anstelle der individuellen Ergebnisse der Studierenden die Clusterdurchschnittswerte (z. B. die Durchschnittsnote f&#252;r jede Seminargruppe) in der Analyse (z. B. gew&#246;hnlicher Zweistichproben-t-Test) verwendet werden. Eine vereinfachte Ber&#252;cksichtigung von Kovariaten ist &#252;ber Regressionen m&#246;glich <TextLink reference="13"></TextLink>. Die Analyse auf Cluster-Ebene ist robust insbesondere bei kleiner Clusteranzahl, hat jedoch den Nachteil, dass die Variabilit&#228;t innerhalb der Cluster unber&#252;cksichtigt bleibt. Eine Alternative besteht in der Anpassung univariater Teststatistiken (z. B. T-Wert beim T-Test) mit dem Designeffekt, wobei die individuellen Ergebnisse als statistisch unabh&#228;ngig ausgewertet werden d&#252;rfen <TextLink reference="15"></TextLink>, <TextLink reference="29"></TextLink>.</Pgraph><Pgraph>Die Analyse auf Individuen-Ebene bietet speziell bei stark variierenden Clustergr&#246;&#223;en eine Alternative, da die Analyse auf Cluster-Ebene in dieser Situation nicht so effizient ist. Ein einfaches statistisches Verfahren, welches auch eine Analyse auf Individuen-Ebene bietet, ist der adjustierte Zweistichproben-t-Test <TextLink reference="28"></TextLink>. Sollen noch zus&#228;tzlich Kovariaten ber&#252;cksichtigt werden, k&#246;nnen Regressionsmodelle mit zuf&#228;lligen Effekten, gemischte Regressionsmodelle oder verallgemeinerte Sch&#228;tzgleichungen (GEE Modelle) angewendet werden. Diese Methoden erlauben auch die Ber&#252;cksichtigung von Faktoren als potentielle Einflussgr&#246;&#223;en f&#252;r den Fall, dass -trotz bekannter prognostischer Faktoren- eine Stratifizierung bei der Cluster-Randomisierung nicht realisiert werden konnte. Im Vergleich zu den Verfahren f&#252;r die Analyse auf Cluster-Ebene ist dies ein Vorteil, da die Effekte von Kovariaten auf gleicher Ebene wie der Effekt des Studienarms untersucht werden k&#246;nnen (als Regressionskoeffizient mit Konfidenzintervall und p-Wert). Die Methoden f&#252;r die Analyse auf Individuen-Ebene haben den Nachteil, dass sie weniger robust sind, wenn die Clusteranzahl klein ist. Eine Empfehlung ist daher die Verwendung von Methoden der Analyse auf Cluster-Ebene bei weniger als 15 bis 20 Cluster pro Studienarm <TextLink reference="13"></TextLink>. Bei Studien mit gr&#246;&#223;erer Clusteranzahl k&#246;nnen die Methoden der Analyse auf Individuen-Ebene Vorteile bieten, insbesondere bei stark variabler Clustergr&#246;&#223;e. </Pgraph><SubHeadline2>4.6. Berichterstattung</SubHeadline2><Pgraph>F&#252;r die Berichterstattung randomisierter klinischer Studien wurde das CONSORT Statement entwickelt, welches von Campbell et al. f&#252;r cluster-randomisierte Studien erweitert wurde <TextLink reference="30"></TextLink>. Das erweiterte CONSORT-Statement nimmt Bezug auf die Besonderheiten einer cluster-randomisierten Studie und die Publikation einer solchen Studie sollte sich daran orientieren. So wird u.a. gefordert</Pgraph><Pgraph><UnorderedList><ListItem level="1">die Gr&#252;nde f&#252;r die Cluster-Randomisierung zu beschreiben</ListItem><ListItem level="1">die Einheit der Randomisierung und die der Intervention zu nennen</ListItem><ListItem level="1">neben der Anzahl der Individuen auch die Anzahl der Cluster und ihre Gr&#246;&#223;e anzugeben</ListItem><ListItem level="1">die Strukturgleichheit nicht nur auf Individuen-Ebene sondern auch auf Cluster-Ebene zu zeigen</ListItem><ListItem level="1">den ICC (siehe oben) zu berechnen und zu berichten </ListItem><ListItem level="1">die Drop-outs auf Individuen- und auf Cluster-Ebene zu analysieren </ListItem><ListItem level="1">ein Flowchart zur Anzahl der Studienteilnehmer und Cluster im Studienablauf zu zeichnen</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Example of application">
      <MainHeadline>5. Example of application</MainHeadline><Pgraph>In this section, we will use an example to outline the planning, implementation, and analysis of a cluster-randomized study in educational research. The example is based on the NANA study <TextLink reference="31"></TextLink>, which is used to illustrate studies in clinical research. The study is conducted as a two-arm, prospective observational study and compares people with a sweet tooth (&#8220;NAschkatzen&#8221; in German) with people who like to nibble (&#8220;NAgetiere&#8221; in German) with regard to parameters such as the body mass index. The name of the study also is of relevance to Ulm University, which has a large NANA statue in front of it (see Figure 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph><Pgraph>The example cluster-randomized study is supposed to evaluate whether the use of a new &#8220;active seminar concept&#8221; (as part of the NANA study) influences the test results in the biometry education of medical students. The &#8220;active seminar concept&#8221; (planning, implementation, and analysis of a small empirical study during the seminar) is to be compared with the previous standard concept (working on practice exercises in the form of a &#8220;classical seminar&#8221;). For the study (balanced, prospective, cluster-randomized), whole seminar groups are to be randomized to either a test arm (&#8220;active seminar concept&#8221;) or a control arm (&#8220;classical seminar&#8221;). The study is to be carried out at the medical faculty of Ulm University during a winter semester.</Pgraph><Pgraph>A maximum total of about 320 students can be assumed. The students are supervised in seminar groups, each with one lecturer and approximately 20 students. This results in a maximum number of 16 clusters (i.e. seminar groups) in the overall study (i.e. 8 clusters per study arm), making it a smaller study <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>Figure 5 <ImgLink imgNo="5" imgType="figure"/> shows a possible result of the cluster randomization for the example study.</Pgraph><Pgraph>The primary outcome variable is the number of points achieved in the examination, assessed for the individual students (i.e. on the individual level). Because the composition of the groups plays a role, in addition to the influence of the lecturer, we can assume that the examination results of the students in the same seminar group are more similar than the results of students in different seminar groups. The outcome variable is assumed to be metric and approximately normally distributed.</Pgraph><Pgraph><Mark1>Pilot data:</Mark1> The results of the cohort from the winter semester 2015&#47;2016 are available as pilot data: an arithmetic mean of 92.5 points (maximum score: 120) was determined with a standard deviation of 9.16 points (see Table 2 <ImgLink imgNo="2" imgType="table"/>).</Pgraph><Pgraph>The results of the pilot data are used for the control arm. For the test arm, the score is assumed to improve by a mean of 3 points (i.e. from 92.5 to 95.5). The ICC for the outcome variable &#8220;points&#8221; was estimated by a linear mixed effects regression model <TextLink reference="12"></TextLink>: the model fit resulted in the variances <ImgLink imgNo="2" imgType="inlineFigure"/> &#61; 1.67 and <ImgLink imgNo="3" imgType="inlineFigure"/> &#61; 82.36, so that the ICC is estimated to be &#961;&#61;1.67&#47;(1.67&#43;82.63)&#61;0.02. The design effect (DE&#61;1&#43;&#961;&#xB7;(m-1)) is thus calculated as DE&#61;1&#43;0.02&#xB7;(20-1)&#61;1.38, whereby m represents the mean cluster size (here: number of students per seminar group; m&#61;20). </Pgraph><Pgraph><Mark1>Study planning: </Mark1>Both of the approaches mentioned in Section 4.4 (exploratory and confirmatory approaches) will be applied below to calculate the sample size for the example study.</Pgraph><Pgraph><Mark2>Exploratory approach: Calculation of the power or minimum effect for a particular sample size</Mark2></Pgraph><Pgraph>The implementation of steps 1 to 4 of the schema shown in Figure 2 <ImgLink imgNo="2" imgType="figure"/> is described below for the example study. Assuming a maximum number of 320 students per semester, a maximum of 16 clusters (seminar groups with 20 students each) are possible in the planned study. For a design effect of 1.38 (calculation: see above), the maximum number of 320 students in the cluster-randomized study corresponds to an effective sample size of a maximum of approximately 320&#47;1.38 &#126; 232 students (even number because of 1: 1 randomization) in a study with individual randomization (i.e. 116 students per study arm). For this sample size, in order to achieve a power of 80&#37; with a two-sided type 1 error of 5&#37; the two-sample t-test requires a minimum difference of 3.4 points (with a standard deviation of 9.16), which corresponds with an effect size of 0.37 according to Cohen (small effect). If a difference of 3 points is assumed (original planning), a two-sided type 1 error of 5&#37; will achieve a power of only 70&#37; (with a given standard deviation of 9.16). Table 3 <ImgLink imgNo="3" imgType="table"/> shows the impact of different sizes of the ICC on the minimum effect and power. The calculations were performed with the two-sample t-test, assuming the same variances in both arms.</Pgraph><Pgraph>The planning and implementation of the example study on the basis of this exploratory approach is pragmatic. This approach often appears to be more realistic than the confirmatory approach, because the latter often results in unfeasibly high sample sizes.</Pgraph><Pgraph><Mark2>Confirmatory approach: Calculation of the sample size for a given power and minimum effect</Mark2></Pgraph><Pgraph>The implementation of steps 1 to 5 of the schema shown in Figure 3 <ImgLink imgNo="3" imgType="figure"/> is described below for the example study. The outcome variable is assumed to be metric and approximately normally distributed. For the test arm, the score is assumed to change by a mean of 3 points (i.e. from 92.5 to 95.5, see above). The calculations are performed with the two-sample t-test, whereby the same variances are assumed in both arms (9.16, see above). For sample size calculation, a power of 80&#37; and a type 1 error of 5&#37; (two-sided) are assumed. First, this information is used to calculate the sample size for a study with individual randomization (e.g. <TextLink reference="12"></TextLink>): the calculation shows that a total of 148 students per study arm (296 students in total) would have to be included in a study that randomizes individuals (i.e. does not consider the clustering). This number now has to be corrected by the design effect (DE&#61;1.38, calculation see above): this correction indicates that 148&#xB7;1.38&#126; 205 students would have to be included in each study arm (total study: 409 students, which would mean a total of approximately k&#61;21 seminar groups). Table 4 <ImgLink imgNo="4" imgType="table"/> shows the impact of the size of the ICC and seminar groups on the total sample size and the number of seminar groups for the above mentioned effects of the example study. The total sample size was rounded to the nearest whole number, and the number of seminar groups was rounded to the nearest even number because the example study will use a 1:1 randomization. This approach results in a higher actual total sample size than the total sample size given in the column N<Subscript>tot</Subscript>, which means that the power reaches values higher than 80&#37;.</Pgraph><Pgraph>Because of the given framework conditions (maximum of 320 students, seminar group size m&#61;20), it would not be possible to complete the study in one semester. However, it would not be advisable to perform the study over several semesters or as a multicenter study because of the considerable differences between different academic years (students and lecturers, other framework conditions) and universities. Consequently, a confirmatory study is not realistic in this setting. In such a situation, the exploratory approach therefore appears to be advisable, i.e. calculation of power or minimum effect for a fixed given sample size.</Pgraph><Pgraph>A modification of the design would be the use of a stratified cluster randomization by weekday (Tuesday, Thursday, Friday).</Pgraph><Pgraph><Mark1>Statistical analysis: </Mark1>Because the study is rather small and has a small number of clusters and because the cluster size is almost constant, cluster-level analysis is recommended (see Section 4.5). One option to perform such an analysis would be to calculate cluster mean values from the study results and use the two-sample t-test. Further examples with practical examples of analyses of cluster-randomized studies are given in <TextLink reference="30"></TextLink>, <TextLink reference="32"></TextLink>, and <TextLink reference="33"></TextLink>.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Anwendungsbeispiel">
      <MainHeadline>5. Anwendungsbeispiel</MainHeadline><Pgraph>In diesem Abschnitt werden anhand eines Beispiels Planung, Durchf&#252;hrung und Auswertung einer cluster-randomisierten Studie in der Lehrforschung skizziert. Das Beispiel ist angelehnt an die NANA Studie <TextLink reference="31"></TextLink>, die zur Illustration von Studien in der klinischen Forschung dient. Die Studie wird als zweiarmige prospektive Beobachtungsstudie durchgef&#252;hrt. Dabei werden die NAschkatzen (mit Vorliebe f&#252;r S&#252;&#223;igkeiten) verglichen mit NAgetieren (mit Vorliebe f&#252;r Knabberei) bez&#252;glich Parametern wie z. B. dem Body Mass Index. Der Name hat aber auch einen Bezug zur Universit&#228;t Ulm, vor der prominent eine gro&#223;e NANA-Figur steht (siehe Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph><Pgraph>Die cluster-randomisierte Studie soll pr&#252;fen, ob die Anwendung eines neuen &#8222;aktiven Seminarkonzepts&#8220; (anhand der NANA-Studie) in der Biometrieausbildung von Studierenden der Medizin Einfluss auf das Pr&#252;fungsergebnis hat. Das &#8222;aktive Seminarkonzept&#8220; (Planung, Durchf&#252;hrung und Auswertung einer kleinen empirischen Untersuchung w&#228;hrend des Seminars) soll verglichen werden mit dem bisherigen Standardkonzept (Behandlung von &#220;bungsaufgaben in Form eines &#8222;klassischen Seminars&#8220;). F&#252;r die Studie (balanziert, prospektiv, cluster-randomisiert) sollen ganze Seminargruppen entweder in einen Testarm (&#8222;aktives Seminarkonzept&#8220;) oder einen Kontrollarm (&#8222;klassisches Seminar&#8220;) randomisiert werden. Die Studie soll an der Medizinischen Fakult&#228;t der Universit&#228;t Ulm w&#228;hrend eines Wintersemesters durchgef&#252;hrt werden.</Pgraph><Pgraph>Es ist von insgesamt maximal etwa 320 Studierenden auszugehen, die in Seminargruppen von ca. 20 Studierenden von jeweils einem Dozierenden betreut werden. Hieraus ergibt sich eine maximale Anzahl von 16 Clustern (d. h. Seminargruppen) in der Gesamtstudie (d. h. 8 Cluster pro Studienarm), was eher einer kleineren Studie entspricht <TextLink reference="32"></TextLink>. Ein m&#246;gliches Ergebnis der Cluster-Randomisierung f&#252;r das Beispiel zeigt Abbildung 5 <ImgLink imgNo="5" imgType="figure"/>.</Pgraph><Pgraph>Die prim&#228;re Zielgr&#246;&#223;e ist die erreichte Punktezahl in der Klausur, gemessen bei den einzelnen Studierenden (d. h. auf der individuellen Ebene). Da neben dem Einfluss des Dozierenden noch die Gruppenzusammensetzung eine Rolle spielt, ist davon auszugehen, dass die Klausurergebnisse von Studierenden innerhalb der Seminargruppen &#228;hnlicher sind als Ergebnisse von Studierenden verschiedener Seminargruppen. F&#252;r die Zielgr&#246;&#223;e wird angenommen, dass sie metrisch und ann&#228;hernd normalverteilt ist. </Pgraph><Pgraph><Mark1>Pilotdaten:</Mark1> Als Pilotdaten stehen die Ergebnisse der Kohorte des Wintersemesters 2015&#47;2016 zur Verf&#252;gung: Es wurde ein arithmetisches Mittel von 92,5 Punkten (maximale Punktzahl: 120) bei einer Standardabweichung von 9,16 Punkten ermittelt (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). </Pgraph><Pgraph>Die Ergebnisse der Pilotdaten werden f&#252;r den Kontrollarm verwendet. F&#252;r den Testarm wird angenommen, dass sich die Punktezahl im Mittel um 3 Punkte verbessert (d. h. von 92,5 auf 95,5). Der ICC f&#252;r die Zielgr&#246;&#223;e Punktezahl wurde mittels eines linearen gemischten Regressionsmodells gesch&#228;tzt <TextLink reference="12"></TextLink>: Im Ergebnis der Modellanpassung wurde f&#252;r die Varianzen <ImgLink imgNo="2" imgType="inlineFigure"/> &#61; 1,67 und  <ImgLink imgNo="3" imgType="inlineFigure"/> &#61; 82,36 erhalten, so dass der ICC als &#961;&#61;1,67&#47;(1,67&#43;82,63)&#61;0,02 gesch&#228;tzt wird. Der Designeffekt (DE&#61;1&#43;&#961;&#xB7;(m-1)) ergibt sich damit aus DE&#61;1&#43;0,02&#xB7;(20-1)&#61;1,38, wobei m die mittlere Clustergr&#246;&#223;e bezeichnet (hier: Anzahl Studierender pro Seminar; m&#61;20). </Pgraph><Pgraph><Mark1>Studienplanung: </Mark1>F&#252;r die Fallzahlberechnung der Beispielstudie sollen im Folgenden beide der in Abschnitt 4.4 genannten Methoden angewendet werden. Zun&#228;chst wird der explorative Ansatz beschrieben.</Pgraph><Pgraph><Mark2>Explorative Methode: Berechnung von Power bzw. Mindesteffekt bei gegebener Fallzahl</Mark2></Pgraph><Pgraph>Eine Umsetzung der Schritte 1. bis 4. des Schemas in Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> ist im Folgenden f&#252;r die Beispielstudie beschrieben. Ausgehend von der Maximalzahl von 320 Studierenden pro Semester sind h&#246;chstens 16 Cluster (Seminargruppen mit je 20 Studierenden) in der zu planenden Studie m&#246;glich. Bei einem Designeffekt von 1,38 (Berechnung: siehe oben) entspricht die Fallzahl von maximal 320 Studierenden in der cluster-randomisierten Studie einer effektiven Fallzahl von maximal etwa 320&#47;1,38&#126;232 Studierenden (gerade Anzahl wegen 1:1 Randomisierung) in einer individuell randomisierten Studie (d. h. 116 Studierende pro Studienarm). Um eine Power von 80&#37; bei einem zweiseitigen Fehler 1. Art von 5&#37; zu erreichen, ist bei dieser Fallzahl mit dem Zweistichproben-t-Test ein Mindestunterschied von 3,4 Punkten notwendig (bei einer Standardabweichung von 9,16), was einer Effektst&#228;rke von 0,37 nach Cohen entspricht (kleiner Effekt). Wird von einem Unterschied von 3 Punkten ausgegangen (urspr&#252;ngliche Planung), wird bei einem zweiseitigen Fehler 1. Art von 5&#37; eine Power von nur 70&#37; erreicht (bei gegebener Standardabweichung von 9,16). Tabelle 3 <ImgLink imgNo="3" imgType="table"/> zeigt die Auswirkungen der Gr&#246;&#223;enordnungen des ICC auf Mindesteffekt und Power. Die Berechnungen sind mit dem Zweistichproben-t-Test erfolgt, unter der Annahme gleicher Varianzen in beiden Armen. </Pgraph><Pgraph>Die Planung und Durchf&#252;hrung der Beispielstudie nach dieser explorativen Methode ist pragmatisch und erscheint in vielen F&#228;llen realistischer als die Anwendung der konfirmatorischen Methode, da bei dieser oft unrealisierbar hohe Fallzahlen berechnet werden. </Pgraph><Pgraph><Mark2>Konfirmatorische Methode: Berechnung der Fallzahl bei vorgegebener Power und Mindesteffekt </Mark2></Pgraph><Pgraph>Eine Umsetzung der Schritte 1. bis 5. des Schemas in Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> ist im Folgenden f&#252;r die Beispielstudie beschrieben. F&#252;r die Zielgr&#246;&#223;e wird angenommen, dass sie metrisch und ann&#228;hernd normalverteilt ist. F&#252;r den Testarm wird angenommen, dass sich die Punktezahl im Mittel um 3 Punkte ver&#228;ndert (d. h. von 92,5 auf 95,5, siehe oben). Die Berechnungen sind mit dem Zweistichproben-t-Test erfolgt, unter der Annahme gleicher Varianzen in beiden Armen (9,16, siehe oben). F&#252;r die Fallzahlplanung werden eine Power von 80&#37; und ein Fehler 1. Art von 5&#37; (zweiseitig) angenommen. Aus diesen Angaben ist zun&#228;chst die Fallzahl f&#252;r eine individuell randomisierte Studie zu berechnen (z. B. <TextLink reference="12"></TextLink>): Es ergibt sich eine Anzahl von 148 Studierenden pro Studienarm (296 Studierende insgesamt), die in die Studie bei individueller Randomisierung (also ohne Ber&#252;cksichtigung der Clusterung) eingeschlossen werden m&#252;ssen. Diese Anzahl muss nun noch um den Designeffekt (DE&#61;1,38, Berechnung siehe oben) korrigiert werden: Pro Studienarm m&#252;ssten 148&#xB7;1,38&#126;205 Studierende eingeschlossen werden (Gesamtstudie: 409 Studierende was insgesamt ca. k&#61;21 Seminargruppen bedeuten w&#252;rde). Die Auswirkungen der Gr&#246;&#223;enordnung des ICC und Gr&#246;&#223;e der Seminargruppen auf die Gesamtfallzahl und Anzahl der Seminargruppen ist f&#252;r die oben beschriebenen Effekte der Beispielstudie in Tabelle 4 <ImgLink imgNo="4" imgType="table"/> enthalten. Die Gesamtfallzahl wurde auf die n&#228;chste ganze Zahl gerundet. Die Anzahl der Seminargruppen wurde auf die n&#228;chste gerade Zahl gerundet, da in der Beispielstudie eine 1:1 Randomisierung vorgenommen werden soll. Dadurch ist die tats&#228;chliche Gesamtfallzahl h&#246;her als die in der Spalte N<Subscript>ges</Subscript> genannte Gesamtfallzahl, womit die Power h&#246;here Werte als 80&#37; erreicht. </Pgraph><Pgraph>Aufgrund der gegebenen Rahmenbedingungen (maximal 320 Studierende, Seminargruppengr&#246;&#223;e m&#61;20) ist damit die Studie w&#228;hrend eines Semesters nicht durchf&#252;hrbar. Eine Durchf&#252;hrung der Studie &#252;ber mehrere Semester oder als multizentrische Studie erscheint wegen zu starker Unterschiede zwischen verschiedenen Jahrg&#228;ngen (Studierende und Dozierende, weitere Rahmenbedingungen) oder Universit&#228;ten nicht empfehlenswert. Eine konfirmatorische Studie ist in diesem Setting also nicht realistisch. In einer solchen Situation erscheint daher der zuerst genannte explorative Ansatz empfehlenswert, d. h. eine Berechnung von Power bzw. Mindesteffekt bei fester gegebener Fallzahl. </Pgraph><Pgraph>Eine Modifikation des Designs w&#228;re die Anwendung einer stratifizierten Cluster-Randomisierung nach Wochentag (Dienstag, Donnerstag, Freitag). </Pgraph><Pgraph><Mark1>Auswertung: </Mark1>Aufgrund der eher kleinen Studie mit einer geringen Clusteranzahl und der nahezu konstanten Clustergr&#246;&#223;e erscheint f&#252;r die statistische Auswertung eine Analyse auf Cluster-Ebene empfehlenswert (vergleiche Abschnitt 4.5). Dies kann beispielsweise mittels Berechnung von Clusterdurchschnittswerten aus den Ergebnissen der Studie und der Anwendung des Zweistichproben-t-Tests realisiert werden. Weitere Beispiele mit praktischen Darstellungen von Auswertungen cluster-randomisierter Studien sind in <TextLink reference="30"></TextLink>, <TextLink reference="32"></TextLink> und <TextLink reference="33"></TextLink> enthalten.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="6. Discussion and recommendations">
      <MainHeadline>6. Discussion and recommendations</MainHeadline><Pgraph>In addition to studies with other designs (e.g. observational studies), prospective two-arm (intervention) studies are frequently used in educational research to compare different teaching methods. These studies should adhere to recognized standards and methods of scientific research, in particular the presence of a control arm and the achievement of statistical equivalence (i.e. structural equivalence &#8211; achieved by randomization and possibly stratification &#8211; and equivalence of treatment conditions and observations). Unless there is a legitimate reason not to do so, comparative scientific studies should no longer be performed without a control arm. Quasi-experimental studies with a control arm but without randomization should also be avoided. A major criticism of the results of such studies is the lack of structural equivalence combined with the risk of confounded effects. The best approach to avoid such problems is to assign the study participants to the study arms randomly, by either individual or cluster randomization. Because of the advantages of randomization, if at all possible the extra effort should be made, especially because the effort required to perform randomization is small compared with the effort associated with the entire study: the implementation of a study usually requires many resources, whereas randomization requires comparatively few. However, randomization results in large gains in the interpretability and validity of the study findings.</Pgraph><Pgraph>Compared with studies from other fields, however, studies in educational research have some special conditions and requirements that affect their planning, implementation, and analysis. Because of the existence of natural clusters, cluster randomization usually is the only option to perform randomization if there is a limited number of students and a given approximately constant cluster size. Furthermore, the time- and location-related availability of different resources, such as lecturers, seminar rooms, laboratories, lecture halls, and computer pools, must be considered. When calculating sample size, it is necessary to take the cluster structure into account because the outcome is more similar among students within a cluster (e.g. within seminar groups) than among students from different clusters (e.g. different seminar groups). Depending on the strength of this similarity (measured by the ICC), in cluster-randomized studies the sample size required to achieve a certain power can be significantly higher than the sample size of a corresponding study with individual randomization. For this reason, i.e. because of their limited maximum sample size, many studies in educational research have only exploratory character (for reasons of feasibility). Structural equivalence is particularly important so that differences found in the study can be attributed to the method being studied. When performing the statistical analysis of cluster-randomized studies, one should also ensure that an adequate statistical methodology is being used that gives appropriate consideration to the dependencies resulting from the cluster structure. Because of the complex statistical methods required in all phases of a cluster-randomized study, support from a competent expert with appropriate specialist knowledge is recommended during the practical implementation of such studies. Such experts may be scientific staff at biometric institutions, for example, which are part of most universities with a medical faculty.</Pgraph><Pgraph>In addition to the disadvantages mentioned in Table 1 <ImgLink imgNo="1" imgType="table"/>, compared with studies with individual randomization studies with cluster randomization have a higher risk of not achieving structural equivalence at the individual level, which may jeopardize the internal validity. Another reason to critically scrutinize internal validity is that cluster-randomized studies usually are not blinded <TextLink reference="12"></TextLink>. Consequently, an adjustment for the unequally distributed characteristics must be made during the statistical analysis, e.g. by a suitable regression method <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. As with all clinical studies, even if cluster-randomized studies have internal validity external validity can only be established heuristically. This is probably more difficult in educational research studies than in clinical studies because the conditions at the various teaching institutions are so different. Because of the larger sample sizes and the more complex methodology, one should consider at the planning stage of educational research studies whether a cluster randomization is justified and necessary <TextLink reference="34"></TextLink>.</Pgraph><Pgraph>Finally, the following recommendations summarize important measures that take clusters into account and ensure the quality of prospective, two-arm studies in educational research:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Teaching is usually performed in groups of students, so that a natural cluster structure is given and cluster randomization is the most appropriate approach.</ListItem><ListItem level="1" levelPosition="2" numString="2.">Attention must be paid to cluster randomization during study design, sample size calculation, analysis, and reporting. </ListItem><ListItem level="1" levelPosition="3" numString="3.">A cluster-randomized study should not include too few clusters, i.e. no fewer than 8-10 <TextLink reference="32"></TextLink>.</ListItem><ListItem level="1" levelPosition="4" numString="4.">In the case of very few or very different clusters, it may make sense to match clusters.</ListItem><ListItem level="1" levelPosition="5" numString="5.">Blinding usually is not possible. The use of outcome variables that are as objective as possible and a blind assessment, for example the evaluation of PBL outcomes by independent people who are not participating in the study, is therefore recommended and serves to improve the internal validity.</ListItem><ListItem level="1" levelPosition="6" numString="6.">As far as possible, structural equivalence should be maintained by creating the same conditions for the groups, for example the same times and seminar rooms for the study arms being compared.</ListItem></OrderedList></Pgraph><Pgraph>On the basis of our experience and the arguments presented here, we recommend the use of control arms and suitable randomization in prospective, two-arm comparative educational research studies in order to achieve good and convincing results also in studies in this field. Cluster randomization can be a crucial building block in this context, and therefore it should be increasingly used in educational research studies.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="6. Diskussion und Empfehlungen">
      <MainHeadline>6. Diskussion und Empfehlungen</MainHeadline><Pgraph>Neben anderen Studiendesigns (wie beispielsweise Beobachtungsstudien) werden in der Lehrforschung auch h&#228;ufig prospektive zweiarmige (Interventions)-Studien zum Vergleich verschiedener Lehrmethoden angewendet. Hierbei sollten anerkannte Standards und Methoden wissenschaftlicher Untersuchungen eingehalten werden. Dies sind insbesondere das Vorhandensein eines Kontrollarms und das Erreichen von statistischer Gleichheit (Strukturgleichheit (durch Randomisierung, ggf. Stratifizierung), Behandlungsgleichheit, Beobachtungsgleichheit). Ohne relevante Gr&#252;nde sollten vergleichende wissenschaftliche Studien nicht mehr ohne Kontrollarm durchgef&#252;hrt werden. Aber auch quasi-experimentelle Studien mit Kontrollarm, jedoch ohne Randomisierung sollten vermieden werden. Ein wesentlicher Kritikpunkt an den Ergebnissen solcher Studien ist der Mangel an Strukturgleichheit verbunden mit der Gefahr vermengter Effekte. Theoretisch kann man sich dagegen sch&#252;tzen, indem man die Studienteilnehmer den Studienarmen streng zuf&#228;llig zuweist, entweder durch individuelle Randomisierung oder Cluster-Randomisierung. Wegen der Vorteile der Randomisierung sollte der zus&#228;tzliche Aufwand, wenn irgend m&#246;glich, in Kauf genommen werden, vor allem, da dieser im Vergleich zum Aufwand der gesamten Studie gering ist: Die Durchf&#252;hrung einer Studie erfordert meist viele Ressourcen, die Randomisierung dagegen vergleichsweise wenig. Der Gewinn an Interpretierbarkeit und Aussagekraft der Studienergebnisse ist aber enorm. </Pgraph><Pgraph>Im Vergleich zu Studien aus anderen Bereichen gibt es in der Lehrforschung jedoch einige besondere Bedingungen und Anforderungen, welche die Planung, Durchf&#252;hrung und Auswertung von Studien beeinflussen. Wegen des Vorliegens nat&#252;rlicher Cluster kann eine Randomisierung in diesem Bereich meist nur als Cluster-Randomisierung realisiert werden, bei einer limitierten Anzahl Studierender und einer vorgegebenen ann&#228;hernd konstanten Clustergr&#246;&#223;e. Weiterhin muss die r&#228;umliche und zeitliche Verf&#252;gbarkeit verschiedener Ressourcen wie Dozierende, Seminarr&#228;ume, Labore, H&#246;rs&#228;le, Computerpools beachtet werden. Bei der Fallzahlplanung ist die Clusterstruktur zu ber&#252;cksichtigen, da die Ergebnisse Studierender innerhalb der Cluster (z. B. innerhalb von Seminargruppen) &#228;hnlicher sind als Ergebnisse Studierender aus verschiedenen Seminargruppen. Je nach St&#228;rke dieser &#196;hnlichkeit (gemessen &#252;ber den ICC) kann die zum Erreichen einer bestimmten Power notwendige Fallzahl bei cluster-randomisierten Studien deutlich &#252;ber der Fallzahl einer entsprechenden individuell randomisierten Studie liegen. Daher werden viele Studien in der Lehrforschung aufgrund ihrer limitierten maximal m&#246;glichen Fallzahl (aus Gr&#252;nden der Machbarkeit) lediglich explorativen Charakter besitzen. Speziell hier ist die Strukturgleichheit wichtig, damit gefundene Unterschiede mit den in der Studie untersuchten Methoden erkl&#228;rt werden k&#246;nnen. Auch bei der statistischen Auswertung cluster-randomisierter Studien ist auf eine ad&#228;quate statistische Methodik zu achten, die die aus der Clusterstruktur sich ergebenden Abh&#228;ngigkeiten angemessen ber&#252;cksichtigt. Wegen der komplexen statistischen Methoden, die in allen Phasen einer cluster-randomisierten Studie notwendig sind, ist bei der praktischen Durchf&#252;hrung solcher Studien Unterst&#252;tzung durch einen kompetenten Experten mit entsprechenden Spezialkenntnissen empfehlenswert. Dies k&#246;nnen beispielweise wissenschaftliche Mitarbeiter von biometrischen Institutionen sein, welche es an den meisten Universit&#228;ten mit einer Medizinischen Fakult&#228;t gibt. </Pgraph><Pgraph>Neben den in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> genannten Nachteilen besteht in cluster-randomisierten Studien -im Vergleich zu konventionell randomisierten Studien- eine h&#246;here Gefahr, dass die Strukturgleichheit auf Individualebene nicht erreicht wird. Dies kann die interne Validit&#228;t gef&#228;hrden, welche auch wegen der meist fehlenden Verblindung bei cluster-randomisierten Studien kritisch zu hinterfragen ist <TextLink reference="12"></TextLink>. Hier muss im Rahmen der statistischen Auswertung eine Adjustierung f&#252;r die ungleich verteilten Merkmale erfolgen, z. B. durch ein geeignetes Regressionsverfahren <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. Wie bei allen klinischen Studien kann auch bei cluster-randomisierten Studien bei erf&#252;llter interner Validit&#228;t die externe Validit&#228;t nur heuristisch begr&#252;ndet werden. Dies ist in der Lehrforschung vermutlich schwieriger als in klinischen Studien, da die Bedingungen an den verschiedenen Lehreinrichtungen zu verschieden sind. Wegen der h&#246;heren Fallzahlen und der komplexeren Methodik sollte deshalb gerade bei Studien in der Lehrforschung in der Planungsphase &#252;berlegt werden, ob eine Cluster-Randomisierung gerechtfertigt und notwendig ist <TextLink reference="34"></TextLink>. </Pgraph><Pgraph>Abschlie&#223;end fassen die folgenden Empfehlungen wesentliche Ma&#223;nahmen zur Qualit&#228;tssicherung von prospektiven zweiarmigen Studien in der Lehrforschung unter Ber&#252;cksichtigung von Clustern zusammen. </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Lehre wird meist in Gruppen von Studierenden durchgef&#252;hrt, so dass eine nat&#252;rliche Cluster-Struktur gegeben ist, was zu einer Cluster-Randomisierung f&#252;hrt.</ListItem><ListItem level="1" levelPosition="2" numString="2.">Die Cluster-Randomisierung muss bei Studiendesign, Fallzahlplanung, Auswertung und Berichterstattung ber&#252;cksichtigt werden. </ListItem><ListItem level="1" levelPosition="3" numString="3.">In eine cluster-randomisierte Studie sollten nicht zu wenige Cluster eingeschlossen werden: Weniger als 8-10 Cluster sollten nicht eingeschlossen werden <TextLink reference="32"></TextLink>.</ListItem><ListItem level="1" levelPosition="4" numString="4.">Bei sehr wenigen oder stark unterschiedlichen Clustern kann ein Matching von Clustern sinnvoll sein.</ListItem><ListItem level="1" levelPosition="5" numString="5.">Verblindung ist meist nicht m&#246;glich. Die Verwendung m&#246;glichst objektiver Zielgr&#246;&#223;en und eine verblindete Bewertung, wie beispielsweise die Bewertung von Ergebnissen im PBL durch unabh&#228;ngige und nicht an der Studie beteiligte Personen, ist daher empfehlenswert und dient der Verbesserung der internen Validit&#228;t.</ListItem><ListItem level="1" levelPosition="6" numString="6.">M&#246;glichst Aufrechterhaltung der Strukturgleichheit: Schaffung gleicher Bedingungen wie z. B. Uhrzeiten, Seminarr&#228;ume f&#252;r die zu vergleichenden Studienarme.</ListItem></OrderedList></Pgraph><Pgraph>Auf Grund unserer Erfahrungen und der hier genannten Argumente empfehlen wir bei prospektiven zweiarmigen vergleichenden Studien die Nutzung von Kontrollarmen und eine ad&#228;quate Randomisierung, um auch in der Lehrforschung gute und &#252;berzeugende Ergebnisse zu erreichen. </Pgraph><Pgraph>Insbesondere die Cluster-Randomisierung kann hierbei ein entscheidender Baustein sein, der daher bei Studien im Bereich der Lehrforschung verst&#228;rkt genutzt werden sollte.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>The authors thank Jacquie Klesing, Board-certified Editor in the Life Sciences (ELS), for editing assistance with the manuscript.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>Wir bedanken uns bei Jacquie Klesing, Board-certified Editor in the Life Sciences (ELS) und &#220;bersetzerin, f&#252;r ihre Unterst&#252;tzung mit dem Manuskript.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Buss B</RefAuthor>
        <RefAuthor>Wagner R</RefAuthor>
        <RefAuthor>Bauder M</RefAuthor>
        <RefAuthor>Fenik Y</RefAuthor>
        <RefAuthor>Riessen R</RefAuthor>
        <RefAuthor>Lammerding-K&#246;ppel M</RefAuthor>
        <RefAuthor>Gawaz M</RefAuthor>
        <RefAuthor>Fateh-Moghadam S</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>Celebi N</RefAuthor>
        <RefTitle>Student tutors for hands-on training in focused emergency echocardiography &#8211; a randomized controlled trial</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>101</RefPage>
        <RefTotal>Buss B, Wagner R, Bauder M, Fenik Y, Riessen R, Lammerding-K&#246;ppel M, Gawaz M, Fateh-Moghadam S, Weyrich P, Celebi N. Student tutors for hands-on training in focused emergency echocardiography &#8211; a randomized controlled trial. BMC Med Educ. 2012;12:101. DOI: 10.1186&#47;1472-6920-12-101</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-12-101</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Herter DA</RefAuthor>
        <RefAuthor>Wagner R</RefAuthor>
        <RefAuthor>Holderried F</RefAuthor>
        <RefAuthor>Fenik Y</RefAuthor>
        <RefAuthor>Riessen R</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>Celebi N</RefAuthor>
        <RefTitle>Effect of supervised students&#39; involvement on diagnostic accuracy in hospitalized medical patients--a prospective controlled study</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>PLoS One</RefJournal>
        <RefPage>e44866</RefPage>
        <RefTotal>Herter DA, Wagner R, Holderried F, Fenik Y, Riessen R, Weyrich P, Celebi N. Effect of supervised students&#39; involvement on diagnostic accuracy in hospitalized medical patients--a prospective controlled study. PLoS One. 2012;7(9):e44866. DOI: 10.1371&#47;journal.pone.0044866</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1371&#47;journal.pone.0044866</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Werner A</RefAuthor>
        <RefAuthor>Holderried F</RefAuthor>
        <RefAuthor>Sch&#228;ffeler N</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>Riessen R</RefAuthor>
        <RefAuthor>Zipfel S</RefAuthor>
        <RefAuthor>Celebi N</RefAuthor>
        <RefTitle>Communication training for advanced medical students improves information recall of medical laypersons in simulated informed consent talks - a randomized controlled trial</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>13-15</RefPage>
        <RefTotal>Werner A, Holderried F, Sch&#228;ffeler N, Weyrich P, Riessen R, Zipfel S, Celebi N. Communication training for advanced medical students improves information recall of medical laypersons in simulated informed consent talks - a randomized controlled trial. BMC Med Educ. 2013;1:13-15. DOI: 10.1186&#47;1472-6920-13-15</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-13-15</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Herrmann-Werner A</RefAuthor>
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>Keifenheim K</RefAuthor>
        <RefAuthor>Bosse HM</RefAuthor>
        <RefAuthor>Lund F</RefAuthor>
        <RefAuthor>Wagner R</RefAuthor>
        <RefAuthor>Celebi N</RefAuthor>
        <RefAuthor>Zipfel S</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefTitle>Best practice&#34; skills lab training vs. a &#34;see one, do one&#34; approach in undergraduate medical education: an RCT on students&#39; long-term ability to perform procedural clinical skills</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>PLoS One</RefJournal>
        <RefPage>e76354</RefPage>
        <RefTotal>Herrmann-Werner A, Nikendei C, Keifenheim K, Bosse HM, Lund F, Wagner R, Celebi N, Zipfel S, Weyrich P. Best practice&#34; skills lab training vs. a &#34;see one, do one&#34; approach in undergraduate medical education: an RCT on students&#39; long-term ability to perform procedural clinical skills. PLoS One. 2013;8(9):e76354. DOI: 10.1371&#47;journal.pone.0076354</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1371&#47;journal.pone.0076354</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Ackel-Eisnach K</RefAuthor>
        <RefAuthor>Raes P</RefAuthor>
        <RefAuthor>H&#246;nikl L</RefAuthor>
        <RefAuthor>Bauer D</RefAuthor>
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>Is German Medical Education Research on the rise&#63; An analysis of publications from the years 2004 to 2013</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc30</RefPage>
        <RefTotal>Ackel-Eisnach K, Raes P, H&#246;nikl L, Bauer D, Wagener S, M&#246;ltner A, J&#252;nger J, Fischer MR. Is German Medical Education Research on the rise&#63; An analysis of publications from the years 2004 to 2013. GMS Z Med Ausbild. 2015;32(3):Doc30. DOI: 10.3205&#47;zma000972</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000972</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Schumacher M</RefAuthor>
        <RefAuthor>Schulgen G</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2008</RefYear>
        <RefBookTitle>Methodik Klinischer Studien, Methodische Grundlagen der Planung, Durchf&#252;hrung und Auswertung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Schumacher M, Schulgen G. Methodik Klinischer Studien, Methodische Grundlagen der Planung, Durchf&#252;hrung und Auswertung. 3. Auflage. Heidelberg: Springer Verlag; 2008.</RefTotal>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Armitage P</RefAuthor>
        <RefTitle>The role of randomization in clinical trials</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>345-352</RefPage>
        <RefTotal>Armitage P. The role of randomization in clinical trials. Stat Med. 1982;1:345-352. DOI: 10.1002&#47;sim.4780010412</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;sim.4780010412</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Boet S</RefAuthor>
        <RefAuthor>Sharma S</RefAuthor>
        <RefAuthor>Goldman J</RefAuthor>
        <RefAuthor>Reeves S</RefAuthor>
        <RefTitle>Review article: medical education research: an overview of methods</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Can J Anaesth</RefJournal>
        <RefPage>159-170</RefPage>
        <RefTotal>Boet S, Sharma S, Goldman J, Reeves S. Review article: medical education research: an overview of methods. Can J Anaesth. 2012;59(2):159-170. DOI: 10.1007&#47;s12630-011-9635-y</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s12630-011-9635-y</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Fisher LD</RefAuthor>
        <RefTitle>Ethics of Randomized Trials</RefTitle>
        <RefYear>1998</RefYear>
        <RefBookTitle>Encyclopedia of Biostatistics</RefBookTitle>
        <RefPage>1394-1398</RefPage>
        <RefTotal>Fisher LD. Ethics of Randomized Trials. In: Armitage P, Colton T (Hrsg). Encyclopedia of Biostatistics. Chichester: Wiley &#38; Sons Ltd; 1998. P.1394-1398.</RefTotal>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Gaus</RefAuthor>
        <RefAuthor>W</RefAuthor>
        <RefAuthor>Muche</RefAuthor>
        <RefAuthor>R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2013</RefYear>
        <RefBookTitle>Medizinische Statistik</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Gaus, W, Muche, R. Medizinische Statistik. Stuttgart: Schattauer Verlag; 2013.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Chenot JF</RefAuthor>
        <RefTitle>Cluster-randomisierte Studien: eine wichtige Methode in der allgemeinmedizinischen Forschung</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Z Evid Fortbild Qual Gesundheitswes</RefJournal>
        <RefPage>475-480</RefPage>
        <RefTotal>Chenot JF. Cluster-randomisierte Studien: eine wichtige Methode in der allgemeinmedizinischen Forschung. Z Evid Fortbild Qual Gesundheitswes. 2009;103(7):475-480. DOI: 10.1016&#47;j.zefq.2009.07.004</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.zefq.2009.07.004</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Korzilius H</RefAuthor>
        <RefTitle>EU-Verordnung &#252;ber klinische Pr&#252;fungen. Kompromiss verabschiedet</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Dtsch &#196;rztebl</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Korzilius H. EU-Verordnung &#252;ber klinische Pr&#252;fungen: Kompromiss verabschiedet. Dtsch &#196;rztebl. 2014;5.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Eldridge SM</RefAuthor>
        <RefAuthor>Kerry S</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2012</RefYear>
        <RefBookTitle>A Practical Guide to Cluster Randomised Trials in Health Services Research</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Eldridge SM, Kerry S. A Practical Guide to Cluster Randomised Trials in Health Services Research. Weinheim: Wiley; 2012. DOI: 10.1002&#47;9781119966241</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;9781119966241</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Hayes RJ</RefAuthor>
        <RefAuthor>Moulton LH</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2009</RefYear>
        <RefBookTitle>Cluster Randomised Trials</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hayes RJ, Moulton LH. Cluster Randomised Trials. Oxford: Oxford University Press; 2009. DOI: 10.1201&#47;9781584888178</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1201&#47;9781584888178</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Eldridge SM</RefAuthor>
        <RefAuthor>Ukoumunne OC</RefAuthor>
        <RefAuthor>Carlin JB</RefAuthor>
        <RefTitle>The intra-cluster correlation coefficient in cluster randomized trials: a review of definitions</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Int Stat Rev</RefJournal>
        <RefPage>378-394</RefPage>
        <RefTotal>Eldridge SM, Ukoumunne OC, Carlin JB. The intra-cluster correlation coefficient in cluster randomized trials: a review of definitions. Int Stat Rev. 2009;77:378-394. DOI: 10.1111&#47;j.1751-5823.2009.00092.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1751-5823.2009.00092.x</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Kerry SM</RefAuthor>
        <RefAuthor>Bland JM</RefAuthor>
        <RefTitle>The intracluster correlation coefficient in cluster randomisation</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>BMJ</RefJournal>
        <RefPage>1455</RefPage>
        <RefTotal>Kerry SM, Bland JM. The intracluster correlation coefficient in cluster randomisation. BMJ. 1998;316(7142):1455. DOI: 10.1136&#47;bmj.316.7142.1455</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.316.7142.1455</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Ukoumunne OC</RefAuthor>
        <RefTitle>A comparison of confidence interval methods for the intraclass correlation coefficient in cluster randomized trials</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Stat Med</RefJournal>
        <RefPage>3757-3774</RefPage>
        <RefTotal>Ukoumunne OC. A comparison of confidence interval methods for the intraclass correlation coefficient in cluster randomized trials. Stat Med. 2002;21:3757-3774. DOI: 10.1002&#47;sim.1330</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;sim.1330</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Donner A</RefAuthor>
        <RefTitle>A Review of Inference Procedures for the Intraclass Correlation Coefficient in the One-Way Random Effects Model</RefTitle>
        <RefYear>1986</RefYear>
        <RefJournal>Int Stat Rev</RefJournal>
        <RefPage>67-82</RefPage>
        <RefTotal>Donner A. A Review of Inference Procedures for the Intraclass Correlation Coefficient in the One-Way Random Effects Model. Int Stat Rev. 1986;54(1):67-82. DOI: 10.2307&#47;1403259</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2307&#47;1403259</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Ridout MS</RefAuthor>
        <RefAuthor>Dem&#233;trio CG</RefAuthor>
        <RefAuthor>Firth D</RefAuthor>
        <RefTitle>Estimating intraclass correlation for binary data</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Biometrics</RefJournal>
        <RefPage>137-148</RefPage>
        <RefTotal>Ridout MS, Dem&#233;trio CG, Firth D. Estimating intraclass correlation for binary data. Biometrics. 1999;55(1):137-148. DOI: 10.1111&#47;j.0006-341X.1999.00137.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.0006-341X.1999.00137.x</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Wu S</RefAuthor>
        <RefAuthor>Crespi CM</RefAuthor>
        <RefAuthor>Wong WK</RefAuthor>
        <RefTitle>Comparison of methods for estimating the intraclass correlation coefficient for binary responses in cancer prevention cluster randomized trials</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Contemp Clin Trials</RefJournal>
        <RefPage>869-880</RefPage>
        <RefTotal>Wu S, Crespi CM, Wong WK. Comparison of methods for estimating the intraclass correlation coefficient for binary responses in cancer prevention cluster randomized trials. Contemp Clin Trials. 2012;33(5):869-880. DOI: 10.1016&#47;j.cct.2012.05.004</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.cct.2012.05.004</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Adams G</RefAuthor>
        <RefAuthor>Gulliford MC</RefAuthor>
        <RefAuthor>Ukoumunne OC</RefAuthor>
        <RefAuthor>Eldridge S</RefAuthor>
        <RefAuthor>Chinn S</RefAuthor>
        <RefAuthor>Campbell MJ</RefAuthor>
        <RefTitle>Patterns of intra-cluster correlation from primary care research to inform study design and analysis</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>785-794</RefPage>
        <RefTotal>Adams G, Gulliford MC, Ukoumunne OC, Eldridge S, Chinn S, Campbell MJ. Patterns of intra-cluster correlation from primary care research to inform study design and analysis. J Clin Epidemiol. 2004;57(8):785-794. DOI: 10.1016&#47;j.jclinepi.2003.12.013</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.jclinepi.2003.12.013</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Hemming K</RefAuthor>
        <RefAuthor>Girling AJ</RefAuthor>
        <RefAuthor>Sitch AJ</RefAuthor>
        <RefAuthor>Marsh J</RefAuthor>
        <RefAuthor>Lilford RJ</RefAuthor>
        <RefTitle>Sample size calculations for cluster randomised controlled trials with a fixed number of clusters</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>BMC Med Res Methodol</RefJournal>
        <RefPage>102</RefPage>
        <RefTotal>Hemming K, Girling AJ, Sitch AJ, Marsh J, Lilford RJ. Sample size calculations for cluster randomised controlled trials with a fixed number of clusters. BMC Med Res Methodol. 2011;11:102. DOI: 10.1186&#47;1471-2288-11-102</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1471-2288-11-102</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Dang Q</RefAuthor>
        <RefAuthor>Mazumdar S</RefAuthor>
        <RefAuthor>Houck PR</RefAuthor>
        <RefTitle>Sample size and power calculations based on generalized linear mixed models with correlated binary outcomes</RefTitle>
        <RefYear>200</RefYear>
        <RefJournal>Comput Methods Programs Biomed</RefJournal>
        <RefPage>122-127</RefPage>
        <RefTotal>Dang Q, Mazumdar S, Houck PR. Sample size and power calculations based on generalized linear mixed models with correlated binary outcomes. Comput Methods Programs Biomed. 200;91(2):122-127.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Dreyhaupt J</RefAuthor>
        <RefTitle>Instrumente f&#252;r Power- und Fallzahlberechnungen bei komplexen hierarchischen Studiendesigns in der Versorgungsforschung</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Monit Versorgungsforsch</RefJournal>
        <RefPage>49-54</RefPage>
        <RefTotal>Dreyhaupt J. Instrumente f&#252;r Power- und Fallzahlberechnungen bei komplexen hierarchischen Studiendesigns in der Versorgungsforschung. Monit Versorgungsforsch. 2015;6:49-54.</RefTotal>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Dreyhaupt J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Generelle Fallzahl- und Powerabsch&#228;tzung &#252;ber Simulation bei Studien mit komplexen hierarchischen Daten als Unterst&#252;tzung der Studienplanung in der Versorgungsforschung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Dreyhaupt J. Generelle Fallzahl- und Powerabsch&#228;tzung &#252;ber Simulation bei Studien mit komplexen hierarchischen Daten als Unterst&#252;tzung der Studienplanung in der Versorgungsforschung. Ulm: Universit&#228;t Ulm; 2015. Zug&#228;nglich unter&#47;available from:  URL: http:&#47;&#47;vts.uni-ulm.de&#47;query&#47;longview.meta.asp&#63;document&#95;id&#61;9509</RefTotal>
        <RefLink>http:&#47;&#47;vts.uni-ulm.de&#47;query&#47;longview.meta.asp&#63;document&#95;id&#61;9509</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Landau S</RefAuthor>
        <RefAuthor>Stahl D</RefAuthor>
        <RefTitle>Sample size and power calculations for medical studies by simulation when closed form expressions are not available</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Stat Methods Med Res</RefJournal>
        <RefPage>324-345</RefPage>
        <RefTotal>Landau S, Stahl D. Sample size and power calculations for medical studies by simulation when closed form expressions are not available. Stat Methods Med Res. 2013;22(3):324-345. DOI: 10.1177&#47;0962280212439578</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0962280212439578</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Bland JM</RefAuthor>
        <RefAuthor>Kerry SM</RefAuthor>
        <RefTitle>Trials randomised in clusters</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>BMJ</RefJournal>
        <RefPage>600</RefPage>
        <RefTotal>Bland JM, Kerry SM. Trials randomised in clusters. BMJ. 1997;315(7108):600. DOI: 10.1136&#47;bmj.315.7108.600</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.315.7108.600</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Donner A</RefAuthor>
        <RefAuthor>Klar N</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2010</RefYear>
        <RefBookTitle>Design and Analysis of Cluster Randomization trials in Health Research</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Donner A, Klar N. Design and Analysis of Cluster Randomization trials in Health Research. Weinheim: John Wiley &#38; Sons, Ltd; 2010.</RefTotal>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Campbell MK Analysis of cluster randomized trials in primary care: a practical approach</RefAuthor>
        <RefTitle>BMJ</RefTitle>
        <RefYear>1998</RefYear>
        <RefTotal>Campbell MK Analysis of cluster randomized trials in primary care: a practical approach. BMJ. 1998;316:1455.</RefTotal>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Campbell MK</RefAuthor>
        <RefAuthor>Mollison J</RefAuthor>
        <RefAuthor>Steen N</RefAuthor>
        <RefAuthor>Grimshaw JM</RefAuthor>
        <RefAuthor>Eccles M</RefAuthor>
        <RefTitle>Analysis of cluster randomized trials in primary care: a practical approach</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Fam Pract</RefJournal>
        <RefPage>192-196</RefPage>
        <RefTotal>Campbell MK, Mollison J, Steen N, Grimshaw JM, Eccles M. Analysis of cluster randomized trials in primary care: a practical approach. Fam Pract. 2000;17(2):192-196. DOI: 10.1093&#47;fampra&#47;17.2.192</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1093&#47;fampra&#47;17.2.192</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Campbell MK</RefAuthor>
        <RefAuthor>Piaggio G</RefAuthor>
        <RefAuthor>Elbourne DR</RefAuthor>
        <RefAuthor>Altman DG</RefAuthor>
        <RefAuthor>CONSORT Group (2012)</RefAuthor>
        <RefTitle>Consort 2010 statement: extension to cluster randomised trials</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>BMJ</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Campbell MK, Piaggio G, Elbourne DR, Altman DG; CONSORT Group (2012). Consort 2010 statement: extension to cluster randomised trials. BMJ. 2012. DOI: 10.1136&#47;bmj.e5661</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.e5661</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Mayer B</RefAuthor>
        <RefAuthor>Danner B</RefAuthor>
        <RefTitle>Von Naschkatzen und Nagetieren &#8211; Eine interaktive Einf&#252;hrung in die Medizinische Biometrie mit der NANA-Studie</RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Zeig mir Biostatistik&#33; Ideen und Material f&#252;r einen guten Biometrie-Unterricht</RefBookTitle>
        <RefPage>3-14</RefPage>
        <RefTotal>Mayer B, Danner B. Von Naschkatzen und Nagetieren &#8211; Eine interaktive Einf&#252;hrung in die Medizinische Biometrie mit der NANA-Studie. In: Rauch G, Muche R, Vonthein R (Hrsg). Zeig mir Biostatistik&#33; Ideen und Material f&#252;r einen guten Biometrie-Unterricht. Heidelberg: Springer Verlag; 2014. S.3-14. DOI: 10.1007&#47;978-3-642-54336-4&#95;1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;978-3-642-54336-4&#95;1http:&#47;&#47;dx.doi.org&#47;10.1007&#47;978-3-642-54336-4&#95;1</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Eldridge SM</RefAuthor>
        <RefAuthor>Costeloe CE</RefAuthor>
        <RefAuthor>Kahan BC</RefAuthor>
        <RefAuthor>Lancaster GA</RefAuthor>
        <RefAuthor>Kerry SM</RefAuthor>
        <RefTitle>How big should the pilot study for my cluster randomised trial be&#63; Stat</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Methods Med Res</RefJournal>
        <RefPage>1039-1056</RefPage>
        <RefTotal>Eldridge SM, Costeloe CE, Kahan BC, Lancaster GA, Kerry SM. How big should the pilot study for my cluster randomised trial be&#63; Stat. Methods Med Res. 2016:1039-1056. DOI: 10.1177&#47;0962280215588242</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0962280215588242</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Ku&#223; O</RefAuthor>
        <RefAuthor>Jahn P</RefAuthor>
        <RefAuthor>Renz P</RefAuthor>
        <RefAuthor>Landenberger M</RefAuthor>
        <RefTitle>Cluster-randomisierte Studien in der Pflegewissenschaft</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Halle Beitr Gesundheit Pflegewissenschaft</RefJournal>
        <RefPage>302-310</RefPage>
        <RefTotal>Ku&#223; O, Jahn P, Renz P, Landenberger M. Cluster-randomisierte Studien in der Pflegewissenschaft. Halle Beitr Gesundheit Pflegewissenschaft. 2009;8(1):302-310.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Advantages and disadvantages of cluster randomization in educational research studie (adopted from &#91;15&#93;) </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Vor- und Nachteile der Cluster-Randomisierung bei Studien in der Lehrforschung (nach &#91;15&#93;)</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Results from the winter semester 2015&#47;2016 cohort: arithmetic mean and standard deviations of the score in the total group and in the individual course groups</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Ergebnisse der Kohorte des Wintersemesters 2015&#47;2016: Arithmetische Mittel und Standardabweichungen der Punktzahlen in der Gesamtgruppe und in den einzelnen Kursgruppen</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Impact of the size of the intracluster correlation coefficient (ICC) on the minimum effect (a) and power (b) for a predefined number of 320 students in 16 seminar groups with 20 students each. ESS &#61; effective sample size (italics &#61; study situation)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Auswirkungen der Gr&#246;&#223;enordnung des ICC auf Mindesteffekt (a) bzw. Power (b) bei einer vorgegebenen Anzahl von 320 Studierenden in 16 Seminargruppen mit je 20 Studierenden. ESS &#61; effektive Fallzahl (kursiv&#61;Studiensituation)</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Impact of the size of the intracluster correlation coefficient (ICC) and the size of the seminar groups on the total sample size and the number of seminar groups in the overall study (italics &#61; study situation</Mark1>)</Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Auswirkungen der Gr&#246;&#223;enordnung des ICC und Gr&#246;&#223;e der Seminargruppen auf Gesamtfallzahl und Anzahl der Seminargruppen in der Gesamtstudie (kursiv&#61;Studiensituation)</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>4</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="268" width="576">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Randomization of individuals vs. randomization of clusters (reproduced from &#91;15&#93;). </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Randomisierung von Individuen vs. Randomisierung von Clustern aus &#91;15&#93;</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="373" width="727">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Schema for calculating power or minimum effect in educational research studies if the sample size is predetermined</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Schema f&#252;r Berechnung von Power bzw. Mindesteffekt bei Studien in der Lehrforschung bei vorgegebener Fallzahl</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="383" width="727">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Schema for calculating sample size in educational research studies with a given power and minimum effect</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Schema f&#252;r Fallzahlberechnung bei Studien in der Lehrforschung bei vorgegebener Power und Mindesteffekt</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="341" width="184">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 4: NANA in front of Ulm University</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 4: NANA vor Uni Ulm</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="287" width="667">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 5: Sample result of cluster randomization for the sample study</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 5: Beispielhaftes Ergebnis der Cluster-Randomisierung f&#252;r die Beispielstudie</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>5</NoOfPictures>
      </Figures>
      <InlineFigures>
        <Figure format="png" height="51" width="159">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <AltText>Formel 1</AltText>
        </Figure>
        <Figure format="png" height="20" width="17">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <AltText>Formel 2</AltText>
        </Figure>
        <Figure format="png" height="19" width="19">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <AltText>Formel 3</AltText>
        </Figure>
        <Figure format="png" height="20" width="109">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <AltText>Formel 4</AltText>
        </Figure>
        <NoOfPictures>4</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>