<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001335</Identifier>
    <IdentifierDoi>10.3205/zma001335</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0013354</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Formative assessment of practical skills with peer-assessors: quality features of an OSCE in general medicine at the Heidelberg Medical Faculty</Title>
      <TitleTranslated language="de">Formatives Pr&#252;fen praktischer Fertigkeiten mit studentischen Pr&#252;fern: Qualit&#228;tseigenschaften des OSCE Allgemeinmedizin der Medizinischen Fakult&#228;t Heidelberg</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>M&#246;ltner</Lastname>
          <LastnameHeading>M&#246;ltner</LastnameHeading>
          <Firstname>Andreas</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">University Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Im Neuenheimer Feld 346, D-69120 Heidelberg, Germany<Affiliation>University Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany</Affiliation></Address>
        <Address language="de">Universit&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Im Neuenheimer Feld 346, 69120 Heidelberg, Deutschland<Affiliation>Universit&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation></Address>
        <Email>andreas.moeltner&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Lehmann</Lastname>
          <LastnameHeading>Lehmann</LastnameHeading>
          <Firstname>Mirijam</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>mirijam.lehmann&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Wachter</Lastname>
          <LastnameHeading>Wachter</LastnameHeading>
          <Firstname>Cornelia</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Med. Fakult&#228;t, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>cornelia.wachter&#64;uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kurczyk</Lastname>
          <LastnameHeading>Kurczyk</LastnameHeading>
          <Firstname>Sonia</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Med. Fakult&#228;t, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>sonia.kurczyk&#64;uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Schwill</Lastname>
          <LastnameHeading>Schwill</LastnameHeading>
          <Firstname>Simon</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Med. Fakult&#228;t, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>simon.schwill&#64;uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Loukanova</Lastname>
          <LastnameHeading>Loukanova</LastnameHeading>
          <Firstname>Svetla</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Med. Fakult&#228;t, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>svetla.loukanova&#64;uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">formative</Keyword>
      <Keyword language="en">OSCE</Keyword>
      <Keyword language="en">student examiners</Keyword>
      <Keyword language="en">generalizability theory</Keyword>
      <Keyword language="de">formativ</Keyword>
      <Keyword language="de">OSCE</Keyword>
      <Keyword language="de">studentische Pr&#252;fer</Keyword>
      <Keyword language="de">Generalisierbarkeitstheorie</Keyword>
      <SectionHeading language="en">Formative Assessment</SectionHeading>
      <SectionHeading language="de">Formatives Pr&#252;fen</SectionHeading>
    </SubjectGroup>
    <DateReceived>20190514</DateReceived>
    <DateRevised>20200324</DateRevised>
    <DateAccepted>20200415</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20200615</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>37</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>42</ArticleNo>
    <Fundings>
      <Funding fundId="01PL17011C">Bundesministerium f&#252;r Bildung und Forschung</Funding>
    </Fundings>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund: </Mark1>Objective Structured Clinical Examinations (OSCEs) sind mittlerweile ein etabliertes Pr&#252;fungsformat an deutschen medizinischen Fakult&#228;ten. &#220;blicherweise werden darin praktische und kommunikative Fertigkeiten von medizinischen Experten summativ bewertet. Der Einsatz des OSCEs als formatives Pr&#252;fungsformat mit studentischen Pr&#252;fern findet bislang eher wenig Anwendung.</Pgraph><Pgraph><Mark1>Zielsetzung: </Mark1>Der an der Medizinischen Fakult&#228;t Heidelberg im Fach Allgemeinmedizin durchgef&#252;hrte formative OSCE, der von Peer-Tutoren durchgef&#252;hrt und bewertet wird, soll hinsichtlich seiner G&#252;tekriterien untersucht und mit denen summativer OSCEs aus anderen Fachbereichen verglichen werden. </Pgraph><Pgraph><Mark1>Methodik: </Mark1>Schwierigkeiten und Trennsch&#228;rfen der einzelnen Stationen werden f&#252;r die summativen sowie den formativen OSCE bestimmt und einander gegen&#252;bergestellt. Zur Beurteilung der Messzuverl&#228;ssigkeit wird eine Analyse der Daten mittels der Generalisierbarkeitstheorie durchgef&#252;hrt. Zus&#228;tzlich findet ein Vergleich zwischen den Bewertungen der studentischen Pr&#252;fer und Zweitbewertungen medizinischer Experten statt.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Stationen des formativen OSCEs weisen &#228;hnliche Schwierigkeiten wie die der summativen Vergleichs-OSCEs auf (P<Subscript>form</Subscript>&#61;0.882; P<Subscript>sum</Subscript>&#61;0.845 &#8211; 0.902). Bez&#252;glich der Messzuverl&#228;ssigkeit zeigen sich keine Unterschiede zwischen dem OSCE Allgemeinmedizin und denen der anderen F&#228;cher. Die Bewertungen der studentischen Pr&#252;fer und der medizinischen Experten korrelieren hoch (r&#61;0.888).</Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Der formative OSCE Allgemeinmedizin ist hinsichtlich seiner Qualit&#228;tskriterien vergleichbar mit denen der summativen Vergleichsformate. Der Einsatz studentischer Pr&#252;fer kann bei formativen OSCEs eine verl&#228;ssliche Alternative zu medizinischen Experten darstellen. </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background: </Mark1>Objective Structured Clinical Examinations (OSCEs) have become an established examination format at German medical faculties. Medical experts routinely use a summative assessment to evaluate practical and communicative skills, while the use of the OSCE format by student examiners, as a formative examination, remains rather limited.</Pgraph><Pgraph><Mark1>Objective:</Mark1> The formative OSCE program of the Department of General Practice and Implementation Research at the Heidelberg Medical Faculty, which is conducted and evaluated by peer tutors, is examined with regard to its quality criteria and compared with summative OSCEs from other departments. </Pgraph><Pgraph><Mark1>Methods:</Mark1> Difficulties and discriminatory power of individual testing stations were determined for the summative, as well as the formative OSCE, and compared with each other. To assess the reliability of the measurements, an analysis of the data was carried out using the Generalizability theory. In addition, a comparison is made between the assessments of student examiners and second assessments by medical experts.</Pgraph><Pgraph><Mark1>Results: </Mark1>The stations of the formative OSCE show similar difficulties as those of the summative comparison OSCEs (P<Subscript>form</Subscript>&#61;0.882; P<Subscript>sum</Subscript>&#61;0.845 &#8211; 0.902). With respect to measurement reliability, there are no differences between the OSCE in General Medicine and the other subjects. The assessments of student examiners and medical experts correlate highly (r&#61;0.888).</Pgraph><Pgraph><Mark1>Conclusion: </Mark1>The formative OSCE in General Medicine is comparable to the summative comparison formats in terms of its quality criteria. The use of student examiners can be a reliable alternative to medical experts in formative OSCEs. </Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><Pgraph>Practical clinical skills and anamnesis are already being taught at various medical faculties in the preclinical study semesters and tested with the help of an Objective Structured Clinical Examination (OSCE). It has been shown that an early learning of practical skills leads to better results in the clinical examination sections and clinical skills <TextLink reference="1"></TextLink>. </Pgraph><Pgraph>Traditionally, the teaching content is taught by faculty physicians, but increasingly also by student tutors of higher semesters. An advantage of peer tutors (Peer Assisted Learning, PAL) is the higher acceptance by students <TextLink reference="2"></TextLink>, lower costs <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink> and the possibility of smaller learning groups <TextLink reference="5"></TextLink>. In addition, the students benefit from a reduction of stress and anxiety factors <TextLink reference="6"></TextLink> and the student tutors <TextLink reference="2"></TextLink>, <TextLink reference="7"></TextLink> benefit from their own in-depth study of the learning content. When comparing the student tutors with faculty members, the PAL students achieve the same results in final exams <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink> and the same or even higher quality of feedback <TextLink reference="10"></TextLink>. Prerequisites for this are precisely defined student tutor training courses and checklists <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>.</Pgraph><Pgraph>Since 2013, practical skills and anamnesis techniques have been taught at the Heidelberg Medical Faculty in the pre-clinical part of the AaLPLUS courses (AaL: &#8220;Living Anatomy Plus&#8221;) of the Department of General Practice and Implementation Research with the help of peer tutors and subsequently examined in a formative OSCE, also conducted by student tutors <TextLink reference="14"></TextLink>. A detailed description of the program and the evaluation of the OSCE by students and peer tutors can be found in <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>Black and Wiliam <TextLink reference="16"></TextLink> see five essential aspects of formative examinations. These are adapted to the context of University education:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Clarification and exchange of learning goals and success criteria</ListItem><ListItem level="1" levelPosition="2" numString="2.">Initiating effective discussions and other learning tasks that demonstrate students&#39; understanding of the learning content</ListItem><ListItem level="1" levelPosition="3" numString="3.">Feedback that is useful for the students</ListItem><ListItem level="1" levelPosition="4" numString="4.">Encouraging students to act as a mutual learning resource</ListItem><ListItem level="1" levelPosition="5" numString="5.">Encouraging students to see themselves as initiators of their own learning activities </ListItem></OrderedList></Pgraph><Pgraph>These objectives involve a whole process of teaching in which more or less continuously formative examinations are integrated. This is often logistically difficult to achieve fully in formative practical examinations in the form of OSCEs in medical education, so that the formative OSCE considered here should rather be seen as an instrument <TextLink reference="17"></TextLink>, which comes at the end of the pre-clinical part of the study. In order to achieve the goals announced by Black and Wiliam, other forms of formative examination procedures should be suitable <TextLink reference="18"></TextLink>. Despite this limited function of the formative OSCE, it can be expected to have a positive effect on the learning behaviour of the examined students <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>In a review article by Khan et al. from 2017, 13 publications on the topic of &#8220;Students as examiners in OSCEs&#8221; are presented in more detail <TextLink reference="21"></TextLink>. Some of the papers listed there examine the assessments of students and experts with regard to basic characteristics such as differences in the scores awarded and the correlation of the assessments of students and experts as examiners. A more detailed quantitative analysis, which also includes a differentiation of station- and examiner effects and their consequences for measurement reliability, is only provided in the works of Moineau et al. <TextLink reference="10"></TextLink> and Basehore et al. <TextLink reference="22"></TextLink>. In both studies, double evaluations at the stations by students and experts are investigated (in <TextLink reference="22"></TextLink> the experts evaluated using videos of the examinations). However, it was not investigated whether student examiners differ from experts with regard to the extent of exam effects. </Pgraph><Pgraph>Besides the comparison of student examiners and experts in the same formative examination, the quality of the formative examination in relation to the summative examinations established at the faculty is also of interest. Formative examinations differ in their objectives and structure (e.g. higher importance of feedback) and relevance of summative examinations to the examined students. The latter in particular, can have an effect on the reliability and accuracy of measurements, e.g. if the performance of the candidates is less differentiated due to reduced motivation.</Pgraph><SubHeadline2>Aim of the study</SubHeadline2><Pgraph>The aim of the study was to demonstrate </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">that students in the context of formative examinations of practical skills can replace experts as examiners without compromising the quality of the examination and </ListItem><ListItem level="1" levelPosition="2" numString="2.">that the quality of such formative examinations reaches the same standards as established summative examinations.</ListItem></OrderedList></Pgraph><Pgraph>To this end, the formative OSCE in General Medicine at the Heidelberg Medical Faculty, which was held in 2018 and involved tutors as examiners, was examined with regard to its quality criteria (characteristics of the stations, measurement reliability of the exam, extent of examiner effects). A comparison was made with summative OSCEs, and a matching between the assessments of student examiners and those of experts (&#8220;supervisors&#8221;) was considered.</Pgraph><Pgraph>Other aspects of the formative OSCE in General Medicine with student examiners, such as acceptance by both examiners and examined students, assessment of the quality of feedback and subjective benefit to both students and examiners of the skills assessed in the OSCE are described in detail in <TextLink reference="15"></TextLink>. The present study focuses exclusively on the quality characteristics of the OSCE that can be measured by statistical parameters of the examination results.</Pgraph><Pgraph>Standard analyses of tests usually include basic parameters such as difficulty, selectivity and reliability (see 3.1.1). Based on the Generalizability theory, the facets (influencing factors) &#8220;students&#8221; (differences in the ability of students), &#8220;station&#8221; (difference in the difficulty of stations), &#8220;examiner&#8221; (difference in the &#8220;strictness&#8221; of examiners) and the interaction &#8220;station x examiner&#8221; (different strictness of examiners at different stations) and their effects on generalizability and absolute measurement accuracy (see 3.1.2) were examined.</Pgraph><Pgraph>To compare the characteristic values of the OSCE General Medicine with established summative OSCEs of the Heidelberg Medical Faculty, the OSCEs of the subjects Surgery and Internal Medicine of the winter semester (winter term) 2017&#47;2018, the summer semester (summer term) 2018 and the winter term 2018&#47;2019 were used.</Pgraph><Pgraph>Finally, a comparison of double assessments by student examiners and experts within the formative OSCE General Medicine was conducted (3.2).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><Pgraph>Praktische klinische F&#228;higkeiten und Anamneseerhebung werden bereits an verschiedenen medizinischen Fakult&#228;ten in den vorklinischen Studiensemestern vermittelt und mit Hilfe eines Objektive Structured Clinical Examination (OSCE) &#252;berpr&#252;ft. Es konnte gezeigt werden, dass das fr&#252;he Erlernen praktischer F&#228;higkeiten zu besseren Ergebnissen in klinischen Examensabschnitten und in den klinischen Fertigkeiten f&#252;hrt <TextLink reference="1"></TextLink>. </Pgraph><Pgraph>Die Vermittlung der Lehrinhalte erfolgt traditionsgem&#228;&#223; durch Lehr&#228;rzte der Fakult&#228;t, in zunehmendem Ma&#223;e jedoch auch durch studentische Tutoren h&#246;herer Semester. Ein Vorteil von Peer-Tutoren (Peer Assisted Learning, PAL) sind die h&#246;here Akzeptanz durch die Studierenden <TextLink reference="2"></TextLink>, die niedrigeren Kosten <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink> und der M&#246;glichkeit von kleineren Lerngruppen <TextLink reference="5"></TextLink>. Zudem profitieren hierbei sowohl die Studierenden durch eine Reduktion von Stress- und Angstfaktoren <TextLink reference="6"></TextLink> wie auch die studentischen Tutoren <TextLink reference="2"></TextLink>, <TextLink reference="7"></TextLink> durch die eigene Vertiefung der Lerninhalte. Beim Vergleich der Studententutoren mit Lehr&#228;rzten der Fakult&#228;t erzielen die Studierenden beim PAL einen gleichen Ergebnisstand in abschlie&#223;enden Pr&#252;fungen <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink> und eine gleiche bis h&#246;here Qualit&#228;t des Feedbacks <TextLink reference="10"></TextLink>. Voraussetzungen hierbei sind genau definierte Studententutoren-Schulungen und Checklisten <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>.</Pgraph><Pgraph>Seit dem Jahr 2013 werden an der Medizinischen Fakult&#228;t Heidelberg im vorklinischen Studienabschnitt im Rahmen der AaLPLUS -Veranstaltungen (AaL: &#8222;Anatomie am Lebenden&#8220;) der Abteilung Allgemeinmedizin praktische F&#228;higkeiten und Anamnesetechniken mit Hilfe von Peer-Tutoren vermittelt und anschlie&#223;end in einem ebenfalls von Studententutoren durchgef&#252;hrten formativen OSCE &#252;berpr&#252;ft <TextLink reference="14"></TextLink>. Eine detaillierte Darstellung des Programms und der Evaluation des OSCEs durch Studierende und Peer-Tutoren findet sich in <TextLink reference="15"></TextLink>.</Pgraph><Pgraph>Black und Wiliam <TextLink reference="16"></TextLink> sehen f&#252;nf wesentliche Aspekte bei formativen Pr&#252;fungen. Angepasst an den Kontext der universit&#228;ren Ausbildung sind dies:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Kl&#228;rung und Austausch von Lernabsichten und Erfolgskriterien</ListItem><ListItem level="1" levelPosition="2" numString="2.">Ansto&#223; von effektiven Diskussionen und anderen Lernaufgaben, die das Verst&#228;ndnis der Studierenden f&#252;r die Lerninhalte belegen</ListItem><ListItem level="1" levelPosition="3" numString="3.">R&#252;ckmeldungen, die f&#252;r die Studierenden n&#252;tzlich sind</ListItem><ListItem level="1" levelPosition="4" numString="4.">Aktivierung der Studierenden, als gegenseitige Lernquelle zu fungieren</ListItem><ListItem level="1" levelPosition="5" numString="5.">Aktivierung der Studierenden, sich als Initiator ihrer eigenen Lernaktivit&#228;ten zu sehen. </ListItem></OrderedList></Pgraph><Pgraph>Diese Zielsetzungen beinhalten einen ganzen Prozess der Lehre, in dem mehr oder weniger kontinuierlich formative Pr&#252;fungen integriert sind. Dies ist in vollem Umfang bei formativen praktischen Pr&#252;fungen in Form von OSCEs in der medizinischen Ausbildung logistisch oft schwer zu erf&#252;llen, so dass der hier betrachtete formative OSCE eher als Instrument zu sehen ist <TextLink reference="17"></TextLink>, der am Ende des vorklinischen Abschnitts des Studiums steht. Um die von Black und Wiliam avisierten Ziele zu erreichen, d&#252;rften andere Formen formativer Pr&#252;fungsverfahren geeignet sein <TextLink reference="18"></TextLink>. Trotz dieser begrenzten Funktion des formativen OSCEs kann erwartet werden, dass er sich positiv auf das Lernverhalten der Pr&#252;fungsteilnehmer auswirkt <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>In einem &#220;bersichtsartikel von Khan et al. aus dem Jahr 2017 werden 13 Publikationen zum Thema &#8222;Studierende als Pr&#252;fer in OSCEs&#8220; n&#228;her dargestellt <TextLink reference="21"></TextLink>. Einige der dort aufgef&#252;hrten Arbeiten untersuchen die Bewertungen von Studierenden und Experten hinsichtlich basaler Kennwerte wie Unterschiede bei den vergebenen Punktzahlen und die Korrelation der Bewertungen durch Studierende und Experten als Pr&#252;fer. Eine eingehendere quantitative Analyse, die auch eine Differenzierung von Stations- und Pr&#252;fereffekten und deren Konsequenzen f&#252;r die Messzuverl&#228;ssigkeit enth&#228;lt, erfolgt nur in den Arbeiten von Moineau et al. <TextLink reference="10"></TextLink> und Basehore et al. <TextLink reference="22"></TextLink>. Bei beiden Arbeiten werden Doppelbewertungen an den Stationen durch Studierende und Experten untersucht (in <TextLink reference="22"></TextLink> bewerteten die Experten anhand von Videos der Pr&#252;fungen). Nicht untersucht wurde jedoch, ob sich studentische Pr&#252;fer hinsichtlich des Ausma&#223;es an Pr&#252;fereffekten von Experten unterscheiden.</Pgraph><Pgraph>Neben dem Vergleich von studentischen Pr&#252;fern und Experten bei der gleichen formativen Pr&#252;fung ist auch die Qualit&#228;t der formativen Pr&#252;fung in Relation zu an der Fakult&#228;t etablierten summativen Pr&#252;fungen von Interesse. Formative Pr&#252;fungen unterscheiden sich von Ihrer Zielsetzung und Struktur (z. B. h&#246;here Bedeutung des Feedbacks) und der Relevanz f&#252;r die Pr&#252;flinge von summativen Pr&#252;fungen. Insbesondere Letzteres kann Auswirkungen auf die Messzuverl&#228;ssigkeit und -genauigkeit haben, z. B. etwa dann, wenn durch eine verringerte Motivation der Pr&#252;flinge deren Leistungen weniger differenziert erbracht werden.</Pgraph><SubHeadline2>Ziel der Studie</SubHeadline2><Pgraph>Ziel der Studie ist, </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">nachzuweisen, dass Studierende im Kontext formativer Pr&#252;fungen praktischer Fertigkeiten, Experten als Pr&#252;fer ersetzen k&#246;nnen, ohne dass dadurch die Qualit&#228;t der Pr&#252;fung leidet und </ListItem><ListItem level="1" levelPosition="2" numString="2.">dass die Qualit&#228;t solcher formativen Pr&#252;fungen die gleichen Standards erreicht wie etablierte summative Pr&#252;fungen.</ListItem></OrderedList></Pgraph><Pgraph>Hierzu soll der im Jahr 2018 durchgef&#252;hrte formative OSCE Allgemeinmedizin an der Medizinischen Fakult&#228;t Heidelberg, bei dem Tutoren als Pr&#252;fer eingesetzt werden, hinsichtlich seiner G&#252;tekriterien (Kennwerte der Stationen, Messzuverl&#228;ssigkeit der Pr&#252;fung, Ausma&#223; von Pr&#252;fereffekten) untersucht werden, ein Vergleich mit summativen OSCEs erfolgen und die &#220;bereinstimmung der Bewertungen studentischer Pr&#252;fer mit denen von Experten (&#8222;Supervisoren&#8220;) betrachtet werden .</Pgraph><Pgraph>Andere Aspekte des formativen OSCE Allgemeinmedizin mit studentischen Pr&#252;fern, wie etwa die Akzeptanz seitens der pr&#252;fenden wie auch der gepr&#252;ften Studierenden, die Einsch&#228;tzung der Qualit&#228;t des Feedbacks und des subjektiven Nutzens hinsichtlich der im OSCE abgepr&#252;ften Fertigkeiten f&#252;r die Pr&#252;fungsteilnehmer und die Pr&#252;fer sind ausf&#252;hrlich in <TextLink reference="15"></TextLink> dargestellt. Die vorliegende Studie thematisiert ausschlie&#223;lich die durch statistische Kennwerte der Pr&#252;fungsergebnisse erfassbaren Qualit&#228;tseigenschaften des OSCE.</Pgraph><Pgraph>Standardanalysen von Pr&#252;fungen umfassen meist basale Kennwerte wie Schwierigkeit, Trennsch&#228;rfe und Reliabilit&#228;t (s. 3.1.1). Auf Basis der Generalisierbarkeitstheorie werden dar&#252;ber hinaus die Facetten (Einflussfaktoren) &#8222;Studierende&#8220; (Unterschiede in der F&#228;higkeit der Studierenden), &#8222;Station&#8220; (Unterschied in der Schwierigkeit der Stationen), &#8222;Pr&#252;fer&#8220; (Unterschied bei der &#8222;Strenge&#8220; der Pr&#252;fer) und der Interaktion &#8222;Station x Pr&#252;fer&#8220; (Unterschiedliche Strenge von Pr&#252;fern an verschiedenen Stationen) und deren Auswirkungen auf Generalisierbarkeit und absolute Messgenauigkeit (s. 3.1.2) untersucht.</Pgraph><Pgraph>Zum Vergleich der Kennwerte des OSCEs Allgemeinmedizin mit etablierten summativen OSCEs der Medizinischen Fakult&#228;t Heidelberg wurden die OSCEs der F&#228;cher Chirurgie und Innere Medizin des Wintersemesters (WS) 2017&#47;2018, des Sommersemesters (SS) 2018 und des WS 2018&#47;2019 herangezogen.</Pgraph><Pgraph>Abschlie&#223;end erfolgt ein Vergleich von Doppelbewertungen durch studentische Pr&#252;fer und Experten innerhalb des formativen OSCEs Allgemeinmedizin (3.2).</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Methods">
      <MainHeadline>2. Methods</MainHeadline><SubHeadline2>2.1. Implementation of the OSCE</SubHeadline2><Pgraph>The formative OSCE General Medicine in May 2018 was attended by 300 students of the fourth semester. The OSCE took place over two days and comprised four testing stations. One of the four stations (&#8220;venous blood sampling&#8221;) was completed by all students. Various clinical examinations had to be performed at two stations. These stations were not identical for the participating students, but alternated between the different parcours. A total of 11 different tasks were used (general examination of the abdomen, examination of spleen&#47;kidney&#47;appendicitis signs, blood pressure measurement, examination of the heart, liver, lymph node status, pulse status, thyroid gland, thorax, spine and a neurological examination). Furthermore, a complete anamnesis had to be taken. Here too, the contents changed (back, abdomen and head). Trained acting patients were used for the clinical examinations and the anamnesis. The contents of the stations and the essential criteria for evaluation were known to the participating students from the previous tutorials and given materials.</Pgraph><Pgraph>Each participant went through a total of four stations of eight minutes duration (5 minutes per task and 3 minutes feedback). The assessment of performance was carried out using checklists by students with basic didactic training who were at least in their sixth semester. A total of 25 points could be achieved at each of the stations. An exception to this were the three stations where an anamnesis had to be taken. In these, 30 points were to be achieved.</Pgraph><Pgraph>32 students were used as examiners, 26 of whom examined at several (up to five) stations during the course of the OSCE (see table 1 <ImgLink imgNo="1" imgType="table"/>). The assessments were recorded using tablet computers (Programm tOSCE des UCAN-Pr&#252;fungsverbunds) <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>Five supervisors were appointed to monitor the quality of implementation and evaluation, who carried out random second evaluation (135 evaluations in total). The trained examiners were (medical) staff members of the Department of General Practice and Implementation Research and, for the assessment of communicative skills at the three anamnesis stations, lecturers of the Department of Medical Psychology.</Pgraph><SubHeadline2>2.2. Comparison with summative OSCEs</SubHeadline2><Pgraph>Six OSCEs of the subjects Surgery and Internal Medicine of the winter semesters 2017&#47;2018 and 2018&#47;2019 and of the summer semester 2018 of the Heidelberg Medical Faculty were used to compare the quality criteria of the OSCE General Medicine. The inclusion of several comparative OSCEs from two different subjects and semesters ensures that an estimate of the variability of their characteristic values (e.g. proportion of examiner influences) can be made for the comparative OSCEs. </Pgraph><Pgraph>The OSCEs in Internal Medicine comprised 10 stations, those in surgery 13 stations. A maximum of 25 points could be achieved at all stations of these OSCEs (see table 2 <ImgLink imgNo="2" imgType="table"/>). These OSCEs were performed on two to three days in two parallel courses (viz. &#8220;parcours&#8221;). The stations were partly changed in the different parcours. The two subjects Internal Medicine and Surgery were chosen because: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">different examiners were used at the same testing stations and </ListItem><ListItem level="1" levelPosition="2" numString="2.">the examiners were generally employed at different stations. </ListItem></OrderedList></Pgraph><Pgraph>This allows an estimation of the examiner, stations and the interaction effect station x station during the evaluation.</Pgraph><SubHeadline2>2.3. Statistical analysis</SubHeadline2><Pgraph>Difficulty P and corrected selectivities <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2> (correlations of the number of points achieved at one station with the points achieved at all other stations) as well as the mean inter-correlations with all other stations <Mark2>r</Mark2><Mark2><Subscript>ij</Subscript></Mark2> (mean inter-item correlation) were determined for the stations of all mentioned OSCEs. The product-moment correlation (according to Pearson, two-tailed P value) was used throughout as a correlation measure.</Pgraph><Pgraph>In order to achieve equivalence of the stations, the point values obtained at the anamnesis stations, where 30 points were to be achieved, were rescaled to the range of 0-25 points for all analyses presented.</Pgraph><Pgraph>To assess the reliability of the measurements, the data were analysed using the Generalisability theory <TextLink reference="24"></TextLink>. The facets considered were &#8220;students&#8221;, &#8220;stations&#8221;, &#8220;examiners&#8221; and the interaction &#8220;station x examiner&#8221;. From the variance components found by applying the Generalizability theory, the &#8220;generalizability&#8221; <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> (as an analogy to internal consistency&#47;Cronbachs &#945;) and the &#8220;dependability&#8221;<Mark2> &#934;</Mark2> can be determined as a measure of absolute measurement accuracy:</Pgraph><Pgraph>If n denotes the number of stations, then<LineBreak></LineBreak><ImgLink imgNo="1" imgType="inlineFigure"/> <ImgLink imgNo="2" imgType="inlineFigure"/></Pgraph><Pgraph>In order to analyse the matching between the assessments of the student examiners and the supervisors, the scores awarded for each station were compared (Wilcoxon signed-rank test) and the correlations determined. Furthermore, an analysis of variance of the total data set (examiners and supervisors) with the fixed factor &#8220;student examiner&#47;supervisor&#8221; and the facets &#8220;students&#8221;, &#8220;stations&#8221;, &#8220;student examiners&#8221;, &#8220;supervisor&#8221; and the interaction &#8220;station x examiner&#8221; was carried out.</Pgraph><Pgraph>Note: When analysing with the Generalizability theory, a distinction must be made between so-called fixed and random factors. If the facet &#8220;student&#8221; is considered a random factor, the intention is to generalise to equivalent groups of students (i.e. in the same semester, same demographic composition, equivalent teaching etc.). The group of students considered in the examination being analysed should therefore be regarded as a sample from a population. The same applies to the facet &#8220;station&#8221;: As a random factor, the focus is on generalizability to equivalently constructed stations, while the facet &#8220;examiners&#8221; involves examiners from a potential group of examiners. When modelling the station or examiner as a fixed factor, however, the focus is on the stations or examiners actually used in the exam: Are individual stations particularly easy or difficult, are examiners too strict or too lenient&#63; Since the present study focuses on generalizability, only the results for the analyses with &#8220;student&#8221;, &#8220;station&#8221; and &#8220;examiner&#8221; are presented as random factors.</Pgraph><Pgraph>The statistical analyses were performed with R Version 3.5.1. For the mixed model analyses for evaluation with the model of generalizability theory the packages &#8220;lme4&#8221; and &#8220;lmerTest&#8221; were used.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Methoden">
      <MainHeadline>2. Methoden</MainHeadline><SubHeadline2>2.1. Durchf&#252;hrung des OSCEs</SubHeadline2><Pgraph>An dem formativen OSCE Allgemeinmedizin im Mai 2018 nahmen 300 Studierende des vierten Fachsemesters teil. Der OSCE fand an zwei Tagen statt und umfasste vier Stationen. Eine der vier Stationen (&#8222;Ven&#246;se Blutentnahme&#8220;) wurde von allen Studierenden durchlaufen. An zwei Stationen mussten verschiedene klinische Untersuchungen durchgef&#252;hrt werden. Diese Stationen waren f&#252;r die teilnehmenden Studierenden nicht identisch, sondern wechselten zwischen den verschiedenen Parcours. Insgesamt wurden 11 verschiedene Aufgaben (Allgemeine Untersuchung des Abdomens, Untersuchung von Milz&#47;Niere&#47;Appendizitiszeichen, Blutdruckmessung, Untersuchung des Herzens, der Leber, des Lymphknotenstatus, des Pulsstatus, der Schilddr&#252;se, des Thorax, der Wirbels&#228;ule und eine neurologische Untersuchung) verwendet. Weiter musste eine vollst&#228;ndige Anamnese durchgef&#252;hrt werden. Auch hier wechselten die Inhalte (R&#252;cken-, Bauch- und Kopfschmerz). F&#252;r die klinischen Untersuchungen und die Anamnesen wurden geschulte Schauspielpatienten eingesetzt. Die Inhalte der Stationen und die wesentlichen Kriterien zur Beurteilung waren den teilnehmenden Studierenden aus den Kursen und -materialien bekannt.</Pgraph><Pgraph>Jeder Teilnehmende durchlief insgesamt vier Stationen von achtmin&#252;tiger Dauer (5 Minuten pro Aufgabe und 3 Minuten Feedback). Die Bewertung der Leistung erfolgte anhand von Checklisten durch basisdidaktisch geschulte Studierende, die mindestens im sechsten Semester waren. Insgesamt konnten an den Stationen jeweils 25 Punkte erreicht werden. Eine Ausnahme hiervon bildeten die drei Stationen, an denen eine Anamnese durchgef&#252;hrt werden musste. Bei diesen waren 30 Punkte zu erreichen.</Pgraph><Pgraph>Als Pr&#252;fer waren 32 Studierende im Einsatz, von denen im Verlauf des OSCEs 26 an mehreren (bis zu f&#252;nf) Stationen gepr&#252;ft haben (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Die Erfassung der Bewertungen erfolgte mit Tablets (Programm tOSCE des UCAN-Pr&#252;fungsverbunds) <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>Zur Qualit&#228;tskontrolle der Durchf&#252;hrung und Bewertung waren f&#252;nf Supervisoren eingesetzt, die stichprobenartig Zweitbewertungen durchf&#252;hrten (insgesamt 135 Bewertungen). Die geschulten Pr&#252;fer waren (&#228;rztliche) Mitarbeiter der Abteilung Allgemeinmedizin und f&#252;r die Beurteilung der kommunikativen Fertigkeiten an den drei Anamnesestationen Lehrende der Abteilung Medizinische Psychologie.</Pgraph><SubHeadline2>2.2. Vergleich mit summativen OSCEs</SubHeadline2><Pgraph>Zum Vergleich der G&#252;tekriterien des OSCEs Allgemeinmedizin wurden sechs OSCEs der F&#228;cher Chirurgie und Innere Medizin der Wintersemester 2017&#47;2018 und 2018&#47;2019 und des Sommersemesters 2018 der Medizinischen Fakult&#228;t Heidelberg herangezogen. Durch die Einbeziehung mehrerer Vergleichs-OSCEs aus zwei verschiedenen F&#228;chern und Semestern wird sichergestellt, dass bei den Vergleichs-OSCEs eine Absch&#228;tzung der Variabilit&#228;t ihrer Kennwerte (z. B. Anteil von Pr&#252;fereinfl&#252;ssen) vorgenommen werden kann. </Pgraph><Pgraph>Die OSCEs der Inneren Medizin umfassten jeweils 10, die der Chirurgie 13 Stationen. An allen Stationen dieser OSCEs konnten maximal 25 Punkte erreicht werden (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Diese OSCEs wurden jeweils an zwei bis drei Tagen in jeweils zwei zeitlich parallelen Parcours durchgef&#252;hrt. Die Stationen wurden teilweise in den verschiedenen Parcours gewechselt. Die beiden F&#228;cher Innere Medizin und Chirurgie wurden gew&#228;hlt, da bei diesen </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">an denselben Stationen unterschiedliche Pr&#252;fer und </ListItem><ListItem level="1" levelPosition="2" numString="2.">die Pr&#252;fer i. A. an verschiedenen Stationen eingesetzt wurden. </ListItem></OrderedList></Pgraph><Pgraph>Dies erm&#246;glicht bei der Auswertung eine Absch&#228;tzung von Pr&#252;fer-, Stations- und dem Interaktionseffekt Station x Station.</Pgraph><SubHeadline2>2.3. Statistische Analyse</SubHeadline2><Pgraph>F&#252;r die Stationen aller genannten OSCEs wurden Schwierigkeiten P und korrigierte Trennsch&#228;rfen <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2> (Korrelationen der an einer Station erreichten Punktzahl mit den an allen anderen Stationen erreichten Punkten) sowie die gemittelten Interkorrelationen mit allen anderen Stationen <Mark2>r</Mark2><Mark2><Subscript>ij</Subscript></Mark2> (Average inter-item correlation) bestimmt. Als Korrelationsma&#223; wurde durchweg die Produkt-Moment-Korrelation (nach Pearson) verwandt.</Pgraph><Pgraph>Um eine Gleichwertigkeit der Stationen zu erzielen, wurden f&#252;r alle dargestellten Analysen die an den Anamnesestationen, an denen 30 Punkte zu erreichen waren, erzielten Punktwerte auf den Bereich von 0-25 Punkten reskaliert.</Pgraph><Pgraph>Zur Beurteilung der Messzuverl&#228;ssigkeit wurde eine Analyse der Daten mittels der Generalisierbarkeitstheorie <TextLink reference="24"></TextLink> durchgef&#252;hrt. Die betrachteten Facetten waren &#8222;Studierende&#8220;, &#8222;Stationen&#8220;, &#8222;Pr&#252;fer&#8220; und die Interaktion &#8222;Station x Pr&#252;fer&#8220;. Aus den durch die Anwendung der Generalisierbarkeitstheorie gefundenen Varianzkomponenten lassen sich die &#8222;Generalizability&#8220; <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> (als Analogon zur internen Konsistenz&#47;Cronbachs &#945;) und die &#8222;Dependability&#8220; &#934; als Ma&#223; der absoluten Messgenauigkeit bestimmen:</Pgraph><Pgraph>Bezeichne <Mark2>n</Mark2> die Zahl der Stationen, so ist <LineBreak></LineBreak><ImgLink imgNo="1" imgType="inlineFigure"/> <ImgLink imgNo="2" imgType="inlineFigure"/></Pgraph><Pgraph>Zur Analyse der &#220;bereinstimmung der Bewertungen der studentischen Pr&#252;fer und der Supervisoren wurden je Station die vergebenen Punktzahlen verglichen (Wilcoxon-Vorzeichen-Rang-Tests) und die Korrelationen bestimmt. Weiterhin erfolgte eine Varianzanalyse des Gesamtdatensatzes (Pr&#252;fer und Supervisoren) mit dem festen Faktor &#8222;Studentischer Pr&#252;fer&#47;Supervisor&#8220; und den Facetten &#8222;Studierende&#8220;, &#8222;Stationen&#8220;, &#8222;studentische Pr&#252;fer&#8220;, &#8222;Supervisor&#8220; sowie der Interaktion &#8222;Station x Pr&#252;fer&#8220;.</Pgraph><Pgraph>Anmerkung: Bei der Analyse mittels der Generalisierbarkeitstheorie muss unterschieden werden zwischen sog. festen und Zufallsfaktoren (&#8222;fixed&#8220; bzw. &#8222;random factors&#8220;). Wird die Facette &#8222;Student&#8220; als Zufallsfaktor betrachtet, so intendiert man eine Verallgemeinerbarkeit auf &#228;quivalente Studentengruppen (also im selben Semester, gleiche demographische Zusammensetzung, gleichwertige Lehre etc.). Die in der untersuchten Pr&#252;fung betrachtete Studierendengruppe ist demzufolge als Stichprobe aus einer Population aufzufassen. &#196;hnliches gilt f&#252;r die Facette &#8222;Station&#8220;: Als Zufallsfaktor steht die Verallgemeinerbarkeit auf &#228;quivalent konstruierte Stationen im Zentrum, bei der Facette &#8222;Pr&#252;fer&#8220; die Einbeziehung von Pr&#252;fern aus einer potentiellen Gruppe von Pr&#252;fern. Bei der Modellierung von Station oder Pr&#252;fer als fester Faktor zielt man hingegen auf die in der Pr&#252;fung tats&#228;chlich eingesetzten Stationen bzw. Pr&#252;fer ab: Sind einzelnen Stationen besonders leicht oder schwer, sind Pr&#252;fer zu streng oder zu nachsichtig&#63; Da in der vorliegenden Studie die Verallgemeinerbarkeit im Fokus steht, werden nur die Ergebnisse f&#252;r die Analysen mit &#8222;Student&#8220;, &#8222;Station&#8220; und &#8222;Pr&#252;fer&#8220; als Zufallsfaktoren dargestellt.</Pgraph><Pgraph>Die statistischen Analysen wurden mit R Version 3.5.1 durchgef&#252;hrt. F&#252;r die Mixed-Model-Analysen zur Auswertung mit dem Modell der Generalisierbarkeitstheorie wurden die Pakete &#8222;lme4&#8220; und &#8222;lmerTest&#8220; verwendet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Results">
      <MainHeadline>3. Results</MainHeadline><SubHeadline2>3.1. Characteristic values of the test</SubHeadline2><SubHeadline3>3.1.1. Difficulties and selectivity of testing stations</SubHeadline3><Pgraph>The basic parameters (mean score achieved x, difficulty P and corrected selectivity rit) of the scores obtained at the stations are listed in table 3 <ImgLink imgNo="3" imgType="table"/>. Figure 1 <ImgLink imgNo="1" imgType="figure"/> contains a graphical representation of the distributions as a box plot.</Pgraph><Pgraph>The difficulties at the individual stations range from P&#61;0.794 at the &#8220;Anamnesis Abdomen&#8221; station to P&#61;0.959 at the &#8220;Blood Pressure Measurement&#8221; station. An average of 87.632 out of a maximum of 100 points was achieved. Please note that in contrast to dichotomous items, where only 0 or 1 point can be achieved, with finer granular evaluations (here 0-25 points) selectivities can possibly be interpreted even if the difficulties are numerically high. </Pgraph><Pgraph>Eleven of the 15 stations have part-hole corrected selectivities of more than 0.300, two stations are just below this limit with selectivities of 0.276 and 0.296 (&#8220;Physical Examination Blood Pressure&#8221; and &#8220;Physical Examination Neurology&#8221;). Significantly lower are the stations &#8220;Physical Examination Liver&#8221; with <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.112 and &#8220;Pulse status&#8221; with<Mark2> r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.099.</Pgraph><SubHeadline3>Comparison with summative OSCEs</SubHeadline3><Pgraph>Figure 2 <ImgLink imgNo="2" imgType="figure"/> shows the distribution of the scores achieved at the stations of OSCE General Medicine compared to the summative OSCEs in Internal Medicine and Surgery in the last three semesters (see also table 4 <ImgLink imgNo="4" imgType="table"/>).</Pgraph><Pgraph>In comparison to the considered OSCEs of Internal Medicine and Surgery, the stations of the OSCE General Medicine were almost equally heavy (P&#61;0.882 compared to P&#61;0.876).</Pgraph><Pgraph>The corrected selectivities were on average lower than in the comparative OSCEs, only the OSCE Internal Medicine SS 2018 showed lower values (<Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.358 compared to 0.386, see table 4 <ImgLink imgNo="4" imgType="table"/> and figure 3 <ImgLink imgNo="3" imgType="figure"/>). In this comparison, however, it must be taken into account that in the OSCE General Medicine, the point total of the other stations used for the corrected selectivity is determined from only three stations, in contrast to Internal Medicine and Surgery with nine and twelve stations, respectively. This means that this sum is subject to more error variance in the OSCE General Medicine. A better possibility for comparison is offered here by the average of all correlations of the point sum from one ward with all other stations <Mark2>r</Mark2><Mark2><Subscript>ij</Subscript></Mark2> (&#8220;mean inter-item correlation&#8221;). Here it can be seen that three of the comparison OSCEs each have lower and higher values (see table 4<ImgLink imgNo="4" imgType="table"/>  and figure 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph><SubHeadline3>3.1.2. Measurement reliability</SubHeadline3><Pgraph>Methods of Generalizability theory were used to analyse measurement reliability. A model with the facets &#8220;student&#8221;, &#8220;station&#8221;, &#8220;examiner&#8221; and the interaction &#8220;station x examiner&#8221; was analysed. Table 5 <ImgLink imgNo="5" imgType="table"/> shows the estimated variance components of the facets.</Pgraph><Pgraph>Nearly 53&#37; of the variance can be explained by the effects of the model, with 22&#37; attributable to differences between students in terms of performance. The variability of the stations accounts for 21&#37;, while the combined examiner influence was around 10&#37;. The interaction effect station x examiner was not detectable or significantly different from 0.</Pgraph><Pgraph>The expected correlation of the point values achieved in the OSCE with an equivalent OSCE is <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.647. These values do not take into account the effects of station and examiner, since in an equivalent parcours, all students pass through the same stations with the same examiners, so their total achieved points are only changed by these facets by a value that is constant for all and is not taken into account in a correlation (<Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> is thus a measure of the relative measurement accuracy). In contrast, the Dependability &#934;, as a measure of the absolute measurement accuracy, takes these factors into account, and is &#934;&#61;0.525 for the test.</Pgraph><SubHeadline3>Comparison with summative OSCEs</SubHeadline3><Pgraph>Figure 5 <ImgLink imgNo="5" imgType="figure"/> shows graphically the percentage shares of the variance components for the OSCEs. A quality comparison of the OSCE General Medicine with those of Internal Medicine and Surgery with regard to the quality of the stations and the extent of the examiner&#8217;s influences must take into account the different number of stations. As an example, table 6 <ImgLink imgNo="6" imgType="table"/> lists the values obtained on a Parcour with ten stations. It can be seen that for <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> three of the six comparison OSCEs have both lower and higher values. The absolute accuracy is higher for four comparison OSCEs. As can be seen in figure 5, this is mainly due to the higher variability of the stations.</Pgraph><SubHeadline2>3.2. Supervision</SubHeadline2><Pgraph>In 135 assessments, an additional examination was carried out by a supervisor (medical staff of the Department of General Practice and Implementation Research and Medical Psychology), which serves as quality assurance of the OSCE (see table 1 <ImgLink imgNo="1" imgType="table"/>). Table 7 <ImgLink imgNo="7" imgType="table"/> shows the mean values of the assessments by the examiners, as well as those of the supervisors for the wards with double assessments. In addition, the significance value of the test for difference of assessments (Wilcoxon signed-rank test) is given. Only one station (&#8220;Anamnesis Abdomen&#8221;) shows a statistically significant difference.</Pgraph><Pgraph>Table 7 <ImgLink imgNo="7" imgType="table"/> contains the correlations between examiners and supervisors at the stations, these ranged from 0.729 to 0.989. As examples, the scatter plots (bubble chart) of the assessments for the wards &#8220;Back Anamnesis&#8221; and &#8220;Physical Examination Neurology&#8221; are shown in figure 6 <ImgLink imgNo="6" imgType="figure"/>.</Pgraph><Pgraph>An overall analysis based on the Generalizability theory of all data (student examiners and supervisors) with the examiner group as a fixed factor and with separate variance components for the two examiner groups is shown in table 8 <ImgLink imgNo="8" imgType="table"/>. The supervisors give 0.568 points less than the student examiners, but the effect is not significant (p&#61;0.152). The examiner effects have a standard deviation of 0.700 points (see also table 5 <ImgLink imgNo="5" imgType="table"/>). For the five supervisors, no variance component other than zero can be demonstrated (p&#61;0.117), which is equivalent to the fact that no difference can be demonstrated with regard to their strictness.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Ergebnisse">
      <MainHeadline>3. Ergebnisse</MainHeadline><SubHeadline2>3.1. Kennwerte der Pr&#252;fung</SubHeadline2><SubHeadline3>3.1.1. Schwierigkeiten und Trennsch&#228;rfe der Stationen</SubHeadline3><Pgraph>Die Basiskennwerte (mittlere erreichte Punktzahl x, Schwierigkeit P und korrigierte Trennsch&#228;rfe <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>) der an den Stationen erzielten Punktwerte sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> aufgef&#252;hrt. Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> enth&#228;lt eine grafische Darstellung der Verteilungen als Boxplot.</Pgraph><Pgraph>Die Schwierigkeiten an den einzelnen Stationen reichen von <Mark2>P</Mark2>&#61;0.794 bei der Station &#8222;Anamnese Bauch&#8220; bis <Mark2>P</Mark2>&#61;0.959 an der Station &#8222;KU Blutdruck&#8220;. Im Mittel wurden 87.632 von maximal 100 Punkten erreicht. Man beachte, dass im Unterschied zu dichotomen Items, bei denen nur 0 oder 1 Punkt erreicht werden kann, bei feiner granulierten Bewertungen (hier 0-25 Punkte) Trennsch&#228;rfen u. U. auch dann interpretiert werden k&#246;nnen, wenn die Schwierigkeiten numerisch hoch sind. </Pgraph><Pgraph>Elf der 15 Stationen weisen Part-whole-korrigierte Trennsch&#228;rfen von &#252;ber 0.300 auf, zwei Stationen liegen mit Trennsch&#228;rfen von 0.276 und 0.296 knapp unter dieser Grenze (&#8222;KU Blutdruck&#8220; bzw. &#8222;KU Neurologie&#8220;). Deutlich niedriger sind die der Stationen &#8222;KU Leber&#8220; mit <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.112 und &#8222;Pulsstatus&#8220; mit <Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.099.</Pgraph><SubHeadline3>Vergleich mit summativen OSCEs</SubHeadline3><Pgraph>Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> zeigt die Verteilung der an den Stationen erreichten Punktzahlen des OSCEs Allgemeinmedizin im Vergleich zu den summativen OSCEs der Inneren Medizin und der Chirurgie der vergangenen drei Semester (siehe auch Tabelle 4 <ImgLink imgNo="4" imgType="table"/>).</Pgraph><Pgraph>Im Vergleich zu den betrachteten OSCEs der Inneren Medizin und der Chirurgie waren die Stationen des OSCE Allgemeinmedizin ann&#228;hernd gleich schwer (<Mark2>P</Mark2>&#61;0.882 gegen&#252;ber <Mark2>P</Mark2>&#61;0.876).</Pgraph><Pgraph>Die korrigierten Trennsch&#228;rfen waren im Mittel etwas geringer als bei den Vergleichs-OSCEs, lediglich der OSCE Innere Medizin SS 2018 wies hier niedrigere Werte auf (<Mark2>r</Mark2><Mark2><Subscript>it</Subscript></Mark2>&#61;0.358 gegen&#252;ber 0.386, siehe Tabelle 4 <ImgLink imgNo="4" imgType="table"/> und Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). Bei diesem Vergleich ist jedoch zu ber&#252;cksichtigen, dass beim OSCE Allgemeinmedizin die f&#252;r die korrigierte Trennsch&#228;rfe verwendete Punktsumme der anderen Stationen nur aus drei Stationen bestimmt wird, im Gegensatz zur Inneren Medizin und der Chirurgie mit neun bzw. zw&#246;lf Stationen. Damit ist diese Summe beim OSCE Allgemeinmedizin mit mehr Fehlervarianz behaftet. Eine bessere Vergleichsm&#246;glichkeit bietet hier das Mittel aus allen Korrelationen der Punktsumme aus einer Station mit allen anderen Stationen rij (&#8222;averaged inter-item correlation&#8220;). Hier zeigt sich, dass jeweils drei der Vergleichs-OSCEs niedrigere und h&#246;here Werte aufweisen (siehe Tabelle 4 <ImgLink imgNo="4" imgType="table"/> und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>).</Pgraph><SubHeadline3>3.1.2. Messzuverl&#228;ssigkeit</SubHeadline3><Pgraph>Zur Analyse der Messzuverl&#228;ssigkeit wurden Verfahren der Generalisierbarkeitstheorie eingesetzt. Analysiert wurde ein Modell mit den Facetten &#8222;Studierender&#8220;, &#8222;Station&#8220;, &#8222;Pr&#252;fer&#8220; und der Interaktion &#8222;Station x Pr&#252;fer&#8220;.</Pgraph><Pgraph>In Tabelle 5 <ImgLink imgNo="5" imgType="table"/> sind die gesch&#228;tzten Varianzkomponenten der Facetten aufgef&#252;hrt.</Pgraph><Pgraph>Nahezu 53&#37; der Varianz k&#246;nnen durch die Effekte des Modells erkl&#228;rt werden, wobei 22&#37; auf die Unterschiede zwischen den Studierenden hinsichtlich ihrer Leistungen zur&#252;ckgef&#252;hrt werden k&#246;nnen. Auf die Variabilit&#228;t der Stationen entfallen 21&#37;, die zusammengefassten Pr&#252;fereinfl&#252;sse betragen etwa 10&#37;. Dabei ist der Interaktionseffekt Station x Pr&#252;fer nicht als signifikant von 0 verschieden nachweisbar.</Pgraph><Pgraph>Die zu erwartende Korrelation der beim OSCE erreichten Punktwerte mit einem &#228;quivalenten OSCE betr&#228;gt <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.647. In diesen Werte gehen die Effekte von Station und Pr&#252;fer nicht mit ein, da bei einem &#228;quivalenten Parcours alle Studierenden die gleichen Stationen mit den gleichen Pr&#252;fern durchlaufen, ihre erreichte Punktsumme daher durch diese Facetten nur durch einen f&#252;r alle konstanten Wert ver&#228;ndert sind, der bei einer Korrelation nicht ber&#252;cksichtigt wird (<Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> ist somit ein Ma&#223; f&#252;r die relative Messgenauigkeit). Im Unterschied dazu ber&#252;cksichtigt die Dependability &#934; als Ma&#223; f&#252;r die absolute Messgenauigkeit diese Faktoren, und betr&#228;gt f&#252;r die Pr&#252;fung &#934;&#61;0.525.</Pgraph><SubHeadline3>Vergleich mit summativen OSCEs</SubHeadline3><Pgraph>Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> zeigt graphisch die prozentualen Anteile der Varianzkomponenten f&#252;r die OSCEs. Ein Qualit&#228;tsvergleich des OSCEs Allgemeinmedizin mit denen der Inneren Medizin und der Chirurgie hinsichtlich der Stationsqualit&#228;t und des Umfangs der Pr&#252;fereinfl&#252;sse muss die unterschiedliche Zahl von Stationen ber&#252;cksichtigen. Bei Normierung auf einem Parcours von zehn Stationen erh&#228;lt man die in Tabelle 6 <ImgLink imgNo="6" imgType="table"/> aufgef&#252;hrten Werte. Es zeigt sich, dass f&#252;r <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2> drei der sechs Vergleichs-OSCEs niedrigere wie auch h&#246;here Werte aufweisen. Die absolute Genauigkeit ist bei vier Vergleichs-OSCEs h&#246;her. Wie aus Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> zu entnehmen ist, ist dies im Wesentlichen auf die h&#246;here Variabilit&#228;t der Stationen zur&#252;ckzuf&#252;hren.</Pgraph><SubHeadline2>3.2. Supervision</SubHeadline2><Pgraph>Bei 135 Bewertungen wurde eine Zweitbewertung durch einen Supervisor (&#228;rztliche Mitarbeiter der Abteilung Allgemeinmedizin und Medizinische Psychologie) vorgenommen, die der Qualit&#228;tssicherung des OSCE dient (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). In Tabelle 7 <ImgLink imgNo="7" imgType="table"/> sind die Mittelwerte der Bewertungen durch die Pr&#252;fer sowie die der Supervisoren f&#252;r die Stationen mit Doppelbewertungen aufgef&#252;hrt, zus&#228;tzlich ist der Signifikanzwert des Tests auf Unterschied der Bewertungen (Wilcoxon-Vorzeichen-Rang-Test) angegeben. Nur bei einer Station (&#8222;Anamnese Bauch&#8220;) zeigt sich ein statistisch signifikanter Unterschied.</Pgraph><Pgraph>Tabelle 7 <ImgLink imgNo="7" imgType="table"/> enth&#228;lt weiterhin die Korrelationen zwischen Pr&#252;fern und Supervisoren an den Stationen, diese lagen zwischen 0.729 und 0.989. Als Beispiele sind die Streudiagramme (Blasendiagramme) der Bewertungen f&#252;r die Stationen &#8222;Anamnese R&#252;cken&#8220; und &#8222;KU Neurologie&#8220; in Abbildung 6 <ImgLink imgNo="6" imgType="figure"/> dargestellt.</Pgraph><Pgraph>Eine Gesamtanalyse auf Basis der Generalisierbarkeitstheorie aller Daten (studentische Pr&#252;fer und Supervisoren) mit der Pr&#252;fergruppe als fester Faktor und mit getrennten Varianzkomponenten f&#252;r die beiden Pr&#252;fergruppen enth&#228;lt Tabelle 8 <ImgLink imgNo="8" imgType="table"/>. Die Supervisoren vergeben 0.568 Punkte weniger als die studentischen Pr&#252;fer, der Effekt ist jedoch nicht signifikant (<Mark2>p</Mark2>&#61;0.152). Die Pr&#252;fereffekte haben eine Standardabweichung von 0.700 Punkten (vgl. auch Tabelle 5 <ImgLink imgNo="5" imgType="table"/>). Bei den f&#252;nf Supervisoren kann keine von Null verschiedene Varianzkomponente nachgewiesen werden (<Mark2>p</Mark2>&#61;0.117), was gleichbedeutend damit ist, dass kein Unterschied hinsichtlich ihrer Strenge nachzuweisen ist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Discussion">
      <MainHeadline>4. Discussion</MainHeadline><Pgraph>The results show that the stations of the OSCE General Medicine 2018 essentially fulfill the same quality criteria as the stations that are tested in the OSCEs in the subjects of Surgery and Internal Medicine, which have been established for years. In two of the physical examination stations, a review is recommended due to low selectivity. The matching of the assessments of the student examiners with those of the supervisors can be described as good to very good at all stations. Systematic differences between the assessments of the student examiners and the supervisors cannot be demonstrated. Although there is a relative influence of the examiners, the examiner effects tend to be even lower than in the comparison OSCEs. </Pgraph><Pgraph>The generalizability standardized on ten stations is noticeably higher in the OSCE General Medicine with <Mark2>E</Mark2><Mark2>&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.82 compared to the two studies mentioned in Khan&#39;s review <TextLink reference="21"></TextLink>, in which an analysis was carried out using the Generalizability theory, in <TextLink reference="10"></TextLink> and marginally higher in <TextLink reference="22"></TextLink> (<Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.51 for the checklist and <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.63 for the &#8220;global score&#8221; and <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.80 for the &#8220;total score&#8221;).</Pgraph><Pgraph>Apart from the number of stations, the measurement reliability of the OSCE examination in General Medicine is fully in line with the summative comparative OSCEs in the subjects of Surgery and Internal Medicine in the last three semesters.</Pgraph><Pgraph>This shows that with appropriate preparation: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">students instead of experts can be used as examiners of practical skills and </ListItem><ListItem level="1" levelPosition="2" numString="2.">the quality of a formative examination with student examiners is similar to that of established summative OSCEs with experts as examiners. </ListItem></OrderedList></Pgraph><Pgraph>Since the implementation of practical format-based exams, which record the level of knowledge for students themselves as well as for teachers in a structured manner, often fails at the faculties due to the availability of examiners from the teaching staff, students in higher semesters offer a convenient alternative to substitute them.</Pgraph><Pgraph>The only weakness of the OSCE General Medicine is the small number of four stations that the examined students have to pass through. However, the fact that four stations does not provide a measurement reliability that meets the requirements of high-quality examinations is not surprising. This is in line with the literature, which demands significantly higher numbers of stations for OSCEs in order to obtain overall evaluations that can be classified as meaningful <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>The analysis of other formative examinations in which students act as examiners is of course desirable, since it is not possible to generalize to other institutions, general conditions, or the like from the individual case presented here. Such investigations could show which conditions must be met for the use of student examiners in order to obtain statistically satisfactory and meaningful performance assessments. </Pgraph><SubHeadline2>Limitations</SubHeadline2><Pgraph>The random second assessment by the supervisors were not carried out systematically, so that the comparisons with the student assessors are partly based on very small data sets (see table 7 <ImgLink imgNo="7" imgType="table"/>). There is also a room for improvement in the systematic allocation of the two physical examination stations from the set of eleven available stations among the examined students.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Diskussion">
      <MainHeadline>4. Diskussion</MainHeadline><Pgraph>Die Ergebnisse zeigen, dass die Stationen des OSCE Allgemeinmedizin 2018 im Wesentlichen die gleichen Qualit&#228;tskriterien erf&#252;llen wie die Stationen, die in den seit Jahren etablierten OSCEs der F&#228;cher Chirurgie und Innere Medizin gepr&#252;ft werden. Bei zwei der klinischen Untersuchungsstationen ist eine &#220;berpr&#252;fung auf Grund niedriger Trennsch&#228;rfen angeraten. Die &#220;bereinstimmung der Bewertungen der studentischen Pr&#252;fer mit denen der Supervisoren kann an allen Stationen als gut bis sehr gut bezeichnet werden, systematische Unterschiede zwischen den Bewertungen der studentischen Pr&#252;fer und den Supervisoren sind nicht nachzuweisen. Ein relativer Einfluss der Pr&#252;fer ist zwar vorhanden, die Pr&#252;fereffekte sind tendenziell sogar niedriger als bei den Vergleichs-OSCEs. </Pgraph><Pgraph>Die auf zehn Stationen normierte Generalisierbarkeit liegt im OSCE Allgemeinmedizin mit <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.82 gegen&#252;ber den beiden im Review von Khan <TextLink reference="21"></TextLink> genannten Arbeiten, in denen eine Analyse mittels der Generalisierbarkeitstheorie erfolgte, in <TextLink reference="10"></TextLink> merklich, in <TextLink reference="22"></TextLink> marginal h&#246;her (<Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.51 f&#252;r die Checkliste und <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.63 f&#252;r den &#8222;global score&#8220; bzw. <Mark2>E&#961;</Mark2><Mark2><Superscript>2</Superscript></Mark2>&#61;0.80 f&#252;r den &#8222;total score&#8220;).</Pgraph><Pgraph>Sofern man von der Anzahl der Stationen absieht, ist die Messzuverl&#228;ssigkeit der OSCE-Pr&#252;fung Allgemeinmedizin vollst&#228;ndig im Rahmen der summativen Vergleichs-OSCEs der F&#228;cher Chirurgie und Innere Medizin der letzten drei Semester.</Pgraph><Pgraph>Damit ist gezeigt, dass bei entsprechender Vorbereitung </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Studierende statt Experten als Pr&#252;fer praktischer Fertigkeiten eingesetzt werden k&#246;nnen und </ListItem><ListItem level="1" levelPosition="2" numString="2.">die Qualit&#228;t einer formativen Pr&#252;fung mit studentischen Pr&#252;fern &#228;hnlich hoch ist wie die etablierter summativer OSCEs mit Experten als Pr&#252;fern. </ListItem></OrderedList></Pgraph><Pgraph>Da die Durchf&#252;hrung praktischer formativer Pr&#252;fungen, die den Kenntnisstand f&#252;r die Studierenden selbst wie auch f&#252;r Lehrende strukturiert erfassen, an den Fakult&#228;ten h&#228;ufig an der Verf&#252;gbarkeit von Pr&#252;fern des Lehrk&#246;rpers scheitert, k&#246;nnen Studierende h&#246;herer Fachsemester hier einen vollwertigen Ersatz bieten.</Pgraph><Pgraph>Einzige Schw&#228;che des OSCE Allgemeinmedizin ist die geringe Zahl von vier Stationen, die die Pr&#252;fungsteilnehmerinnen und -teilnehmer zu durchlaufen haben. Die Tatsache, dass mit vier Stationen keine Messzuverl&#228;ssigkeit zu erreichen ist, die den Anforderungen an qualitativ hochwertige Pr&#252;fungen gen&#252;gt, ist jedoch wenig &#252;berraschend. Sie steht im Einklang mit der Literatur, in der f&#252;r OSCEs deutlich h&#246;here Stationszahlen gefordert werden, um als aussagekr&#228;ftig einzustufende Gesamtbewertungen zu erhalten <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Die Analyse anderer formativer Pr&#252;fungen, in denen Studierende als Pr&#252;fer fungieren, ist nat&#252;rlich w&#252;nschenswert, da aus dem hier vorgestellten Einzelfall keine Verallgemeinerung auf andere Institutionen, Rahmenbedingungen o. &#228;. m&#246;glich ist. Solche Untersuchungen k&#246;nnten zeigen, welche Voraussetzungen f&#252;r den Einsatz studentischer Pr&#252;fer gegeben sein m&#252;ssen, um teststatistisch zufriedenstellende und aussagekr&#228;ftige Leistungsbeurteilungen zu gewinnen. Limitationen: Die stichprobenartigen Zweitbewertungen durch die Supervisoren wurden nicht systematisch durchgef&#252;hrt, so dass die Vergleiche mit den studentischen Bewertern teils auf sehr geringen Datenzahlen beruhen (siehe Tabelle 7 <ImgLink imgNo="7" imgType="table"/>). Ebenfalls verbesserungsw&#252;rdig ist die Systematik der Zuordnung der beiden klinischen Untersuchungsstationen aus der Menge der elf verf&#252;gbaren Stationen zu den Pr&#252;fungsteilnehmerinnen und -teilnehmern.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Conclusion">
      <MainHeadline>5. Conclusion</MainHeadline><Pgraph>Overall, the OSCE General Medicine shows that it is possible to assess a large number of students with student examiners and thus to conduct high quality formative practical examinations. The involvement of students in the process of creating formative performance assessments is thus a practical way for medical faculties to take advantage of the widely recognized benefits of feedback in university teaching with the help of structured performance recording.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Schlussfolgerung">
      <MainHeadline>5. Schlussfolgerung</MainHeadline><Pgraph>Insgesamt zeigt der OSCE Allgemeinmedizin, dass es m&#246;glich ist, mit studentischen Pr&#252;fern eine gro&#223;e Zahl an Studierenden zu beurteilen und damit qualitativ hochwertige formative praktische Pr&#252;fungen durchzuf&#252;hren. Die Einbindung von Studierenden in den Prozess der Erstellung formativer Leistungsbeurteilungen stellt damit eine f&#252;r die medizinischen Fakult&#228;ten praktikable M&#246;glichkeit dar, die allseits anerkannten Vorteile von Feedback in der Hochschullehre mit Hilfe strukturierter Leistungserfassungen zu nutzen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Funding">
      <MainHeadline>Funding</MainHeadline><Pgraph>The work was developed within the framework of the project MERLIN II (01PL17011C) funded by the Federal Ministry of Education and Research.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="F&#246;rderung">
      <MainHeadline>F&#246;rderung</MainHeadline><Pgraph>Die Arbeit entstand im Rahmen des vom Bundesministerium f&#252;r Bildung und Forschung gef&#246;rderten Projekts MERLIN II (01PL17011C).</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autor&#42;innen erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Swierszcz J</RefAuthor>
        <RefAuthor>Stalmach-Przygoda A</RefAuthor>
        <RefAuthor>Kuzma M</RefAuthor>
        <RefAuthor>Jablonski K</RefAuthor>
        <RefAuthor>Cegielny T</RefAuthor>
        <RefAuthor>Skrzypek A</RefAuthor>
        <RefAuthor>Wieczorek-Surdacka E</RefAuthor>
        <RefAuthor>Kruszelnicka O</RefAuthor>
        <RefAuthor>Chmura K</RefAuthor>
        <RefAuthor>Chyrchel B</RefAuthor>
        <RefAuthor>Surdacki A</RefAuthor>
        <RefAuthor>Nowakowski M</RefAuthor>
        <RefTitle>How does preclinical laboratory training impact physical examination skills during the first clinical year&#63; A retrospective analysis of routinely collected objective structured clinical examination scores among the first two matriculating classes of a reformed curriculum in one Polish medical school</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>BMJ Open</RefJournal>
        <RefPage>e017748</RefPage>
        <RefTotal>Swierszcz J, Stalmach-Przygoda A, Kuzma M, Jablonski K, Cegielny T, Skrzypek A, Wieczorek-Surdacka E, Kruszelnicka O, Chmura K, Chyrchel B, Surdacki A, Nowakowski M. How does preclinical laboratory training impact physical examination skills during the first clinical year&#63; A retrospective analysis of routinely collected objective structured clinical examination scores among the first two matriculating classes of a reformed curriculum in one Polish medical school. BMJ Open. 2017;7(8):e017748. DOI: 10.1136&#47;bmjopen-2017-017748</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1136&#47;bmjopen-2017-017748</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Khalid H</RefAuthor>
        <RefAuthor>Shahid S</RefAuthor>
        <RefAuthor>Punjabi N</RefAuthor>
        <RefAuthor>Sahdev N</RefAuthor>
        <RefTitle>An integrated 2-year clinical skills peer tutoring scheme in a UK-based medical school: perceptions of tutees and peer tutors</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Adv Med Educ Pract</RefJournal>
        <RefPage>423-432</RefPage>
        <RefTotal>Khalid H, Shahid S, Punjabi N, Sahdev N. An integrated 2-year clinical skills peer tutoring scheme in a UK-based medical school: perceptions of tutees and peer tutors. Adv Med Educ Pract. 2018;9:423-432. DOI: 10.2147&#47;AMEP.S159502</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.2147&#47;AMEP.S159502</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Bosse HM</RefAuthor>
        <RefAuthor>Nickel M</RefAuthor>
        <RefAuthor>Huwendiek S</RefAuthor>
        <RefAuthor>Schultz JH</RefAuthor>
        <RefAuthor>Nikendei C</RefAuthor>
        <RefTitle>Cost-effectiveness of peer role play and standardized patients in undergraduate communication training</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>138</RefPage>
        <RefTotal>Bosse HM, Nickel M, Huwendiek S, Schultz JH, Nikendei C. Cost-effectiveness of peer role play and standardized patients in undergraduate communication training. BMC Med Educ. 2015;15:138. DOI: 10.1186&#47;s12909-015-0468-1</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-015-0468-1</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Lee CB</RefAuthor>
        <RefAuthor>Madrazo L</RefAuthor>
        <RefAuthor>Khan U</RefAuthor>
        <RefAuthor>Thangarasa T</RefAuthor>
        <RefAuthor>McConnell M</RefAuthor>
        <RefAuthor>Khamisa K</RefAuthor>
        <RefTitle>A student-initiated objective structured clinical examination as a sustainable cost-effective learning experience</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Med Educ Online</RefJournal>
        <RefPage>1440111</RefPage>
        <RefTotal>Lee CB, Madrazo L, Khan U, Thangarasa T, McConnell M, Khamisa K. A student-initiated objective structured clinical examination as a sustainable cost-effective learning experience. Med Educ Online. 2018;23(1):1440111. DOI: 10.1080&#47;10872981.2018.1440111</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;10872981.2018.1440111</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Hudson JN</RefAuthor>
        <RefAuthor>Tonkin AL</RefAuthor>
        <RefTitle>Clinical skills education: outcomes of relationships between junior medical students, senior peers and simulated patients</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>901-908</RefPage>
        <RefTotal>Hudson JN, Tonkin AL. Clinical skills education: outcomes of relationships between junior medical students, senior peers and simulated patients. Med Educ. 2008;42(9):901-908. DOI: 10.1111&#47;j.1365-2923.2008.03107.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2008.03107.x</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Young I</RefAuthor>
        <RefAuthor>Montgomery K</RefAuthor>
        <RefAuthor>Kearns P</RefAuthor>
        <RefAuthor>Hayward S</RefAuthor>
        <RefAuthor>Mellanby E</RefAuthor>
        <RefTitle>The benefits of a peer-assisted mock OSCE</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Clin Teach</RefJournal>
        <RefPage>214-218</RefPage>
        <RefTotal>Young I, Montgomery K, Kearns P, Hayward S, Mellanby E. The benefits of a peer-assisted mock OSCE. Clin Teach. 2014;11(3):214-218. DOI: 10.1111&#47;tct.12112</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;tct.12112</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Nomura O</RefAuthor>
        <RefAuthor>Onishi H</RefAuthor>
        <RefAuthor>Kato H</RefAuthor>
        <RefTitle>Medical students can teach communication skills - a mixed methods study of crossyear peer tutoring</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>103</RefPage>
        <RefTotal>Nomura O, Onishi H, Kato H. Medical students can teach communication skills - a mixed methods study of crossyear peer tutoring. BMC Med Educ. 2017;17(1):103. DOI: 10.1186&#47;s12909-017-0939-7</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-017-0939-7</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>Celebi N</RefAuthor>
        <RefAuthor>Schrauth M</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Lammerding-K&#246;ppel M</RefAuthor>
        <RefAuthor>Nikendei C</RefAuthor>
        <RefTitle>Peer-assisted versus faculty staff-led skills laboratory training: a randomised controlled trial</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>113-120</RefPage>
        <RefTotal>Weyrich P, Celebi N, Schrauth M, M&#246;ltner A, Lammerding-K&#246;ppel M, Nikendei C. Peer-assisted versus faculty staff-led skills laboratory training: a randomised controlled trial. Med Educ. 2009;43(2):113-120. DOI: 10.1111&#47;j.1365-2923.2008.03252.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2008.03252.x</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Chenot JF</RefAuthor>
        <RefAuthor>Simmenroth-Nayda A</RefAuthor>
        <RefAuthor>Koch A</RefAuthor>
        <RefAuthor>Fischer T</RefAuthor>
        <RefAuthor>Scherer M</RefAuthor>
        <RefAuthor>Emmert B</RefAuthor>
        <RefAuthor>Stanske B</RefAuthor>
        <RefAuthor>Kochen MM</RefAuthor>
        <RefAuthor>Himmel W</RefAuthor>
        <RefTitle>Can student tutors act as examiners in an objective structured clinical examination&#63;</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1032-1038</RefPage>
        <RefTotal>Chenot JF, Simmenroth-Nayda A, Koch A, Fischer T, Scherer M, Emmert B, Stanske B, Kochen MM, Himmel W. Can student tutors act as examiners in an objective structured clinical examination&#63; Med Educ. 2007;41(11):1032-1038. DOI: 10.1111&#47;j.1365-2923.2007.02895.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2007.02895.x</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Moineau G</RefAuthor>
        <RefAuthor>Power B</RefAuthor>
        <RefAuthor>Pion AJ</RefAuthor>
        <RefAuthor>Wood TJ</RefAuthor>
        <RefAuthor>Humphrey-Murto S</RefAuthor>
        <RefTitle>Comparison of student examiner to faculty examiner scoring and feedback in an OSCE</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>183-191</RefPage>
        <RefTotal>Moineau G, Power B, Pion AJ, Wood TJ, Humphrey-Murto S. Comparison of student examiner to faculty examiner scoring and feedback in an OSCE. Med Educ. 2011;45(2):183-191. DOI: 10.1111&#47;j.1365-2923.2010.03800.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2010.03800.x</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Blank WA</RefAuthor>
        <RefAuthor>Blankenfeld H</RefAuthor>
        <RefAuthor>Vogelmann R</RefAuthor>
        <RefAuthor>Linde K</RefAuthor>
        <RefAuthor>Schneider A</RefAuthor>
        <RefTitle>Can near-peer medical students effectively teach a new curriculum in physical examination&#63;</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>165</RefPage>
        <RefTotal>Blank WA, Blankenfeld H, Vogelmann R, Linde K, Schneider A. Can near-peer medical students effectively teach a new curriculum in physical examination&#63; BMC Med Educ. 2013;13:165. DOI: 10.1186&#47;1472-6920-13-165</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;1472-6920-13-165</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Melcher P</RefAuthor>
        <RefAuthor>Roth A</RefAuthor>
        <RefAuthor>Ghanem M</RefAuthor>
        <RefAuthor>Rotzoll D</RefAuthor>
        <RefTitle>Klinisch-praktische Pr&#252;fungen in der orthop&#228;dischen Lehre: Wer ist der &#34;ideale&#34; Pr&#252;fer&#63;</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Z Orthop Unfall</RefJournal>
        <RefPage>468-475</RefPage>
        <RefTotal>Melcher P, Roth A, Ghanem M, Rotzoll D. Klinisch-praktische Pr&#252;fungen in der orthop&#228;dischen Lehre: Wer ist der &#34;ideale&#34; Pr&#252;fer&#63; Z Orthop Unfall. 2017;155(4):468-475. DOI: 10.1055&#47;s-0043-109022</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1055&#47;s-0043-109022</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Melcher P</RefAuthor>
        <RefAuthor>Zajonz D</RefAuthor>
        <RefAuthor>Roth A</RefAuthor>
        <RefAuthor>Heyde C</RefAuthor>
        <RefAuthor>Ghanem M</RefAuthor>
        <RefTitle>Peer-assisted teaching student tutors as examiners in an orthopedic surgery OSCE station - pros and cons</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>GMS Interdiscip Plast Reconstr Surg DGPW</RefJournal>
        <RefPage>Doc17</RefPage>
        <RefTotal>Melcher P, Zajonz D, Roth A, Heyde C, Ghanem M. Peer-assisted teaching student tutors as examiners in an orthopedic surgery OSCE station - pros and cons. GMS Interdiscip Plast Reconstr Surg DGPW. 2016;5:Doc17. DOI: 10.3205&#47;iprs000096</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;iprs000096</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Ledig T</RefAuthor>
        <RefAuthor>Eicher C</RefAuthor>
        <RefAuthor>Szecsenyi J</RefAuthor>
        <RefAuthor>Engeser P</RefAuthor>
        <RefTitle>AaLplus - ein Anamnese- und Untersuchungskurs f&#252;r den vorklinischen Studienabschnitt</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Z Allg Med</RefJournal>
        <RefPage>76-80</RefPage>
        <RefTotal>Ledig T, Eicher C, Szecsenyi J, Engeser P. AaLplus - ein Anamnese- und Untersuchungskurs f&#252;r den vorklinischen Studienabschnitt. Z Allg Med. 2014;90(2):76-80.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Schwill S</RefAuthor>
        <RefAuthor>Fahrbach-Veeser J</RefAuthor>
        <RefAuthor>Moeltner A</RefAuthor>
        <RefAuthor>Eicher C</RefAuthor>
        <RefAuthor>Kurczyk S</RefAuthor>
        <RefAuthor>Pfisterer D</RefAuthor>
        <RefAuthor>Szecsenyi J</RefAuthor>
        <RefAuthor>Loukanova S</RefAuthor>
        <RefTitle>Peers as OSCE assessors for junior medical students-a review of routine use: a mixed methods study</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>1-12</RefPage>
        <RefTotal>Schwill S, Fahrbach-Veeser J, Moeltner A, Eicher C, Kurczyk S, Pfisterer D, Szecsenyi J, Loukanova S. Peers as OSCE assessors for junior medical students-a review of routine use: a mixed methods study. BMC Med Educ. 2020;20(1):1-12. DOI: 10.1186&#47;s12909-019-1898-y</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-019-1898-y</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Black P</RefAuthor>
        <RefAuthor>Wiliam D</RefAuthor>
        <RefTitle>Developing the theory of formative assessment</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Educ Asse Eval Acc</RefJournal>
        <RefPage>5-31</RefPage>
        <RefTotal>Black P, Wiliam D. Developing the theory of formative assessment. Educ Asse Eval Acc. 2009;21(1):5-31. DOI: 10.1007&#47;s11092-008-9068-5</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s11092-008-9068-5</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Dolin J</RefAuthor>
        <RefAuthor>Black P</RefAuthor>
        <RefAuthor>Harlen W</RefAuthor>
        <RefAuthor>Andr&#233;e Tiberghien A</RefAuthor>
        <RefTitle>Exploring Relations Between Formative and Summative Assessment</RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Transforming Assessment: Through an interplay between practice, research and policy</RefBookTitle>
        <RefPage>53-80</RefPage>
        <RefTotal>Dolin J, Black P, Harlen W, Andr&#233;e Tiberghien A. Exploring Relations Between Formative and Summative Assessment. In: Dolin J, Evans R, editors. Transforming Assessment: Through an interplay between practice, research and policy. Cham, Switzerland: Springer; 2018. p.53-80. DOI: 10.1007&#47;978-3-319-63248-3&#95;3</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;978-3-319-63248-3&#95;3</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>O&#39;Shaughnessy SM</RefAuthor>
        <RefAuthor>Pauline J</RefAuthor>
        <RefTitle>Summative and Formative Assessment in Medicine: The Experience of an Anaesthesia Trainee</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Internl J High Educ</RefJournal>
        <RefPage>198-206</RefPage>
        <RefTotal>O&#39;Shaughnessy SM, Pauline J. Summative and Formative Assessment in Medicine: The Experience of an Anaesthesia Trainee. Internl J High Educ. 2015;4(2):198-206. DOI: 10.5430&#47;ijhe.v4n2p198</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.5430&#47;ijhe.v4n2p198</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Pugh D</RefAuthor>
        <RefAuthor>Desjardins I</RefAuthor>
        <RefAuthor>Eva K</RefAuthor>
        <RefTitle>How do formative objective structured clinical examinations drive learning&#63; Analysis of residents&#39; perceptions</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>45-52</RefPage>
        <RefTotal>Pugh D, Desjardins I, Eva K. How do formative objective structured clinical examinations drive learning&#63; Analysis of residents&#39; perceptions. Med Teach. 2018;40(1):45-52. DOI: 10.1080&#47;0142159X.2017.1388502</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;0142159X.2017.1388502</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Lim YS</RefAuthor>
        <RefTitle>Students&#39; Perception of Formative Assessment as an Instructional Tool in Medical Education</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>Med Sci Educ</RefJournal>
        <RefPage>255-263</RefPage>
        <RefTotal>Lim YS. Students&#39; Perception of Formative Assessment as an Instructional Tool in Medical Education. Med Sci Educ. 2019;29(1):255-263. DOI: 10.1007&#47;s40670-018-00687-w</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s40670-018-00687-w</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Khan R</RefAuthor>
        <RefAuthor>Payne MW</RefAuthor>
        <RefAuthor>Chahine S</RefAuthor>
        <RefTitle>Peer assessment in the objective structured clinical examination: A scoping review</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>745-756</RefPage>
        <RefTotal>Khan R, Payne MW, Chahine S. Peer assessment in the objective structured clinical examination: A scoping review. Med Teach. 2017;39(7):745-756. DOI: 10.1080&#47;0142159X.2017.1309375</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;0142159X.2017.1309375</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Basehore PM</RefAuthor>
        <RefAuthor>Pomerantz SC</RefAuthor>
        <RefAuthor>Gentile M</RefAuthor>
        <RefTitle>Reliability and benefits of medical student peers in rating complex clinical skills</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>409-414</RefPage>
        <RefTotal>Basehore PM, Pomerantz SC, Gentile M. Reliability and benefits of medical student peers in rating complex clinical skills. Med Teach. 2014;36(5):409-414. DOI: 10.3109&#47;0142159X.2014.889287</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2014.889287</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Hochlehnert A</RefAuthor>
        <RefAuthor>Schultz JH</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Timbil S</RefAuthor>
        <RefAuthor>Brass K</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Elektronische Erfassung von Pr&#252;fungsleistungen bei OSCE-Pr&#252;fungen mit Tablets</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc41</RefPage>
        <RefTotal>Hochlehnert A, Schultz JH, M&#246;ltner A, Timbil S, Brass K, J&#252;nger J. Elektronische Erfassung von Pr&#252;fungsleistungen bei OSCE-Pr&#252;fungen mit Tablets. GMS Z Med Ausbild. 2015;32(4):Doc41. DOI: 10.3205&#47;zma000983</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;zma000983</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Brennan RL</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2001</RefYear>
        <RefBookTitle>Generalizability Theory</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Brennan RL. Generalizability Theory. New York NY: Springer; 2001. DOI: 10.1007&#47;978-1-4757-3456-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;978-1-4757-3456-0</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Epstein RM</RefAuthor>
        <RefTitle>Assessment in Medical Education</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>N Engl J Med</RefJournal>
        <RefPage>387-396</RefPage>
        <RefTotal>Epstein RM. Assessment in Medical Education. N Engl J Med. 2007;356(4):387-396. DOI: 10.1056&#47;NEJMra054784</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1056&#47;NEJMra054784</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Number of assessments in the OSCE General Medicine 2018 by station (PE: Physical Examination).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Anzahl der Bewertungen im OSCE Allgemeinmedizin 2018 nach Stationen.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Number of participants, stations and examiners in the OSCE General Medicine and the OSCEs Surgery and Internal Medicine WS2017&#47;2018 to 2018&#47;2019.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Anzahl der Teilnehmer, Stationen und Pr&#252;fer im OSCE Allgemeinmedizin und den OSCEs der Chirurgie und Inneren Medizin WS2017&#47;2018 bis 2018&#47;2019.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Characteristic values of the stations of the formative OSCE General Medicine 2018.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Kennwerte der Stationen des formativen OSCE Allgemeinmedizin 2018.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Average difficulties, discriminatory power and intercorrelations with other stations of the OSCE General Medicine and the OSCEs Internal Medicine and Surgery of WS 2017 &#8211; WS 2018.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Mittlere Schwierigkeiten, Trennsch&#228;rfen und Interkorrelationen mit anderen Stationen des OSCE Allgemeinmedizin und der OSCEs Innere Medizin und Chirurgie des WS 2017 &#8211; WS 2018.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 5: Variance components for the facets of the student, station, examiner and station x examiner. The standard deviation indicates the size of the influence of the respective effect in points at a station.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 5: Varianzkomponenten f&#252;r die Facetten Studierender, Station, Pr&#252;fer und Station x Pr&#252;fer. Die Standardabweichung gibt die Gr&#246;&#223;e des Einflusses des jeweiligen Effekts in Punkten an einer Station an.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 6: Estimated generalizability E&#961;</Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1> and dependability &#934; for the OSCE in General Medicine and the OSCEs in Internal Medicine and Surgery, assuming a parcour of 10 stations.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 6: Gesch&#228;tzte Generalizability E</Mark1><Mark1>&#961;</Mark1><Mark1><Superscript>2</Superscript></Mark1><Mark1> und Dependability &#934; f&#252;r den OSCE Allgemeinmedizin und die OSCEs Innere Medizin und Chirurgie bei Annahme eines Parcours von 10 Stationen.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>7</MediaNo>
          <MediaID language="en">7en</MediaID>
          <MediaID language="de">7de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 7: Comparison of assessments by examiners and supervisors: mean scores of examiners (x), mean scores of supervisors (xS), significance value of test for difference (Wilcoxon signed-rank test, p) and correlation of assessments (r).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 7: Vergleich der Bewertungen durch Pr&#252;fer und Supervisoren: Mittlere Punktzahlen der Pr&#252;fer (x), mittlere Punktzahlen der Supervisoren (xS), Signifikanzwert des Testes auf Unterschied (Vorzeichen-Rang-Test von Wilcoxon, p) und Korrelation der Bewertungen (r).</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>8</MediaNo>
          <MediaID language="en">8en</MediaID>
          <MediaID language="de">8de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 8: Variance components of the analysis of the assessments by student examiners and supervisors.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 8: Varianzkomponenten der Analyse der Beurteilungen von studentischen Pr&#252;fern und Supervisoren.</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>8</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="445" width="722">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Distribution of the scores achieved at the stations of the formative OSCE General Practice. The station &#34;Complete anamnesis&#34;, where 30 points were achieved in the original OSCE, has been rescaled to the range of 0-25 points.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Verteilungen der erreichten Punktzahlen an den Stationen des formativen OSCE Allgemeinmedizin. Die Station &#8222;Vollst&#228;ndige Anamnese&#8220;, an der im Original-OSCE 30 Punkte erreicht werden konnten, ist auf den Bereich von 0-25 Punkte reskaliert.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="411" width="722">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Distribution of the mean difficulties achieved P at the stations of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017&#47;18 to winter semester 2018&#47;2019.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Verteilung der mittleren erreichten Schwierigkeiten P an den Stationen des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017&#47;18 bis Wintersemester 2018&#47;2019.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="411" width="722">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Distribution of corrected item-total correlations rit at the stations of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017&#47;18 to winter semester 2018&#47;2019.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Verteilung der korrigierten Trennsch&#228;rfen rit an den Stationen des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017&#47;18 bis Wintersemester 2018&#47;2019.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="417" width="722">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 4: Distribution of averaged inter-item correlations </Mark1><Mark1><Mark2>r</Mark2></Mark1><Mark1><Mark2><Subscript>ij</Subscript></Mark2></Mark1><Mark1> (correlations of the number of points achieved at one station with the respective other stations) of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017&#47;18 to winter semester 2018&#47;2019.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 4: Verteilung des mittleren Interitemkorrelationen </Mark1><Mark1><Mark2>r</Mark2></Mark1><Mark1><Mark2><Subscript>ij</Subscript></Mark2></Mark1><Mark1> (Korrelationen der an einer Station erreichten Punktzahl mit den jeweils anderen Stationen) des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017&#47;18 bis Wintersemester 2018&#47;2019.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="382" width="722">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 5: Percentage distribution of the variance of the OSCE General Medicine and the OSCEs Internal Medicine and Surgery from WS 2017 to WS 2018. The total variance is divided into the components &#34;student&#34;, &#34;station&#34;, &#34;examiner&#34;, the interaction &#34;station x examiner&#34; and the residual variance.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 5: Prozentuale Aufteilung der Varianz des OSCE Allgemeinmedizin und der OSCEs Innere Medizin und Chirurgie von WS 2017 bis WS 2018. Die Gesamtvarianz unterteilt sich in die Komponenten &#8222;Studierender&#8220;, &#8222;Station&#8220;, &#8222;Pr&#252;fer&#8220;, der Interaktion &#8222;Pr&#252;fer x Station&#8220; und der Residualvarianz.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="928" width="444">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 6: Scatter plots (bubble plots) of the assessments by examiners and supervisors at the &#34;Back Anamnesis&#34; and &#34;Physical Examination Neurology&#34; stations (the circle size represents the number of multiple data points with the same values).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 6: Streudiagramme (Blasendiagramme) der Bewertungen durch Pr&#252;fer und Supervisoren an den Stationen &#8222;Vollst&#228;ndige Anamnese R&#252;cken&#8220; und &#8222;KU Neurologie&#8220; (die Kreisgr&#246;&#223;e repr&#228;sentiert die Anzahl mehrfach vorhandener Datenpunkte mit gleichen Werten).</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>6</NoOfPictures>
      </Figures>
      <InlineFigures>
        <Figure format="png" height="46" width="164">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
        </Figure>
        <Figure format="png" height="47" width="399">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
        </Figure>
        <NoOfPictures>2</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>