<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001234</Identifier>
    <IdentifierDoi>10.3205/zma001234</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0012343</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Fairness and objectivity of a multiple scenario objective structured clinical examination</Title>
      <TitleTranslated language="de">Gerechtigkeit und Objektivit&#228;t einer OSCE-Pr&#252;fung mit multiplen Szenarien</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Spanke</Lastname>
          <LastnameHeading>Spanke</LastnameHeading>
          <Firstname>Johannes</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address language="en">University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Fleischmannstr. 6, D-17475 Greifswald, Germany<Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation></Address>
        <Address language="de">University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Fleischmannstr. 6, 17475 Greifswald, Deutschland<Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation></Address>
        <Email>johannes.spanke&#64;uni-greifswald.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Raus</Lastname>
          <LastnameHeading>Raus</LastnameHeading>
          <Firstname>Christina</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address language="en">University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Fleischmannstr. 6, D-17475 Greifswald, Germany<Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation></Address>
        <Address language="de">University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Fleischmannstr. 6, 17475 Greifswald, Deutschland<Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation></Address>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Haase</Lastname>
          <LastnameHeading>Haase</LastnameHeading>
          <Firstname>Annekathrin</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Angelow</Lastname>
          <LastnameHeading>Angelow</LastnameHeading>
          <Firstname>Aniela</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Ludwig</Lastname>
          <LastnameHeading>Ludwig</LastnameHeading>
          <Firstname>Fabian</Firstname>
          <Initials>F</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Weckmann</Lastname>
          <LastnameHeading>Weckmann</LastnameHeading>
          <Firstname>Gesine</Firstname>
          <Initials>G</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation>
          <Affiliation>European University of Applied Sciences, Faculty of Applied Health Sciences, Rostock, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation>
          <Affiliation>Europ&#228;ische Fachhochschule Rhein&#47;Erft, Fachbereich Angewandte Gesundheitswissenschaften, Rostock</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Schmidt</Lastname>
          <LastnameHeading>Schmidt</LastnameHeading>
          <Firstname>Carsten Oliver</Firstname>
          <Initials>CO</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, SHIP-KEF, Greifswald, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, SHIP-KEF, Greifswald, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Chenot</Lastname>
          <LastnameHeading>Chenot</LastnameHeading>
          <Firstname>Jean-Francois</Firstname>
          <Initials>JF</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">medical students</Keyword>
      <Keyword language="en">medical education</Keyword>
      <Keyword language="en">objective structured clinical examination</Keyword>
      <Keyword language="en">rater effects</Keyword>
      <Keyword language="de">Medizinstudenten</Keyword>
      <Keyword language="de">Medizinische Ausbildung</Keyword>
      <Keyword language="de">OSCE</Keyword>
      <Keyword language="de">Pr&#252;fereffekte</Keyword>
      <SectionHeading language="en">Assessment</SectionHeading>
      <SectionHeading language="de">Pr&#252;fungen</SectionHeading>
    </SubjectGroup>
    <DateReceived>20180523</DateReceived>
    <DateRevised>20181111</DateRevised>
    <DateAccepted>20190213</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20190516</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>36</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>26</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund: </Mark1>Das Ziel einer Objective Structured Clinical Examination (OSCE-Pr&#252;fung) ist eine standardisierte und faire Pr&#252;fung klinischer Fertigkeiten. Nach dem Blockpraktikum Allgemeinmedizin im 2. klinischen Jahr (4. Studienjahr) werden die Studierenden mit einer OSCE-Pr&#252;fung Allgemeinmedizin an Simulationspatienten beurteilt. In der Vergangenheit konnten wir beobachten, dass pr&#252;fungsrelevante Informationen w&#228;hrend der Pr&#252;fung unter den Studierenden ausgetauscht wurden. Dies f&#252;hrte zu einer zunehmend hastigen und unpr&#228;zisen Interaktion mit dem Simulationspatienten. Daher entwickelten wir eine Multiple-Scenario-OSCE-Pr&#252;fung (MS-OSCE), bei der an jeder Station einem bestimmten Beratungsanlass unterschiedliche Szenarios zugrunde gelegt werden, die bei gleichlautender Aufgabenstellung w&#228;hrend der Rotation einer Studierendengruppe innerhalb jeder Station randomisiert gewechselt wurden. Eine MS-OSCE soll die Studierenden veranlassen, m&#246;gliche Differentialdiagnosen gr&#252;ndlicher zu explorieren, anstatt ihre Aufgaben unter dem Einfluss von weitergeleiteten Informationen vorangehender Pr&#252;fungskandidaten zu l&#246;sen. Wir wollten beurteilen, ob die unterschiedlichen Szenarien einer Station vergleichbare Schwierigkeiten aufwiesen und welche Faktoren die Fairness und Objektivit&#228;t der MS-OSCE beeinflussen.</Pgraph><Pgraph><Mark1>Methoden:</Mark1> Wir entwickelten und pilotierten f&#252;nf OSCE-Stationen (Beratungsanl&#228;sse: Brustschmerz, Bauchschmerz, R&#252;ckenschmerz, M&#252;digkeit und akuter Husten) mit zwei oder drei unterschiedlichen Szenarien f&#252;r den an der jeweiligen Station vorgesehenen Beratungsanlass. Der Wechsel der Szenarios an jeder Station erfolgte randomisiert von Student&#47;in zu Student&#47;in. Die Leistungsbewertung der Studierenden erfolgte sowohl mit einer Checkliste als auch mit einem globalen Rating. Der Effekt der Szenarien und der Pr&#252;fer&#47;-in auf die Noten der Studierenden wurde durch Berechnung des Intraclass-Korrelationskoeffizienten mit einem linearen Zweiebenen-Modell mit fixen Effekten ermittelt.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>An der MS-OSCE nahmen insgesamt 169 Studierende und 23 Pr&#252;fer&#47;innen teil. Die mittels Cronbach&#8217;s alpha berechnete Interne Konsistenz &#252;ber alle Stationen auf einer Notenskala von 1 bis 5 betrug 0,65. Die mittlere Notendifferenz zwischen den Szenarien eines Beratungsanlasses reichte von 0,03 bis 0,4. Der Einfluss der Szenarien auf die Varianz der durchschnittlichen Noten pro Station lag nach Adjustierung f&#252;r die F&#228;higkeiten der Studierenden bei 4&#37; bis 9&#37;. Der Einfluss der Pr&#252;fer&#47;-innen reichte von 20&#37; bis 50&#37;.   </Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Der Einfluss der unterschiedlichen Szenarien einer Station auf die Note war gering im Vergleich zum Einfluss der Pr&#252;fer&#47;-in. Um die Objektivit&#228;t einer MS-OSCE zu gew&#228;hrleisten muss eine ad&#228;quate Pr&#252;ferschulung erfolgen. Verbesserung der Interrater-Reliabilit&#228;t ist wichtiger f&#252;r Fairness und Objektivit&#228;t, als alle Studierenden mit demselben Szenario zu pr&#252;fen.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Introduction: </Mark1>The aim of the Objective Structured Clinical Examination (OSCE) is a standardized and fair assessment of clinical skills. Observing second clinical year medical students during a summative OSCE assessing a General Practice clerkship, we noticed that information exchange with peers led to a progressively faster and overly focused management of simulations. Therefore, we established a Multiple Scenario-OSCE (MS-OSCE) where all students had to manage the same chief complaint at a station but it&#8217;s underlying scenarios being randomly changed during students&#8217; rotation through their parcours. We wanted to ensure they fully explore differential diagnosis instead of managing their task influenced by shared information. We wanted to assess if a MS-OSCE violates the assumption of objectivity and fairness given that students are not tested with the same scenarios.</Pgraph><Pgraph><Mark1>Methods: </Mark1>We developed and piloted five OSCE stations (chest pain, abdominal pain, back pain, fatigue and acute cough) with two or three different underlying scenarios each. At each station these scenarios randomly changed from student to student. Performance was assessed with a checklist and global rating. The effect of scenarios and raters on students&#8217; grades was assessed calculating the intraclass correlation coefficient with a fixed effect two level linear model.</Pgraph><Pgraph><Mark1>Results: </Mark1>A total of 169 students and 23 raters participated in the MS-OSCE. The internal consistency over all stations was 0.65 by Cronbach&#8217;s alpha. The difference of the mean grades between the scenarios of a given chief complaint ranged from 0.03 to 0.4 on a 1 to 5 grading scale. The effect of scenarios on the variance of the final grades at each station ranged from 4&#37; to 9&#37; and of raters from 20&#37; to 50&#37; when adjusted for students&#8217; skills.  </Pgraph><Pgraph><Mark1>Conclusions: </Mark1>The effect of different scenarios on the grades was relevant but small compared to the effect of raters on grades. Improving rater training is more important to ensure objectivity and fairness of MS-OSCE than providing the same scenario to all students.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>The Objective Structured Clinical Examination (OSCE) is a common method to assess clinical and procedural skills in undergraduate medical education since its introduction by Harden et al. in 1975 <TextLink reference="1"></TextLink>. We assess the clerkship in General Practice of second clinical year medical students with a summative OSCE. Standardized patients (SP) are used in OSCEs to ensure that each student encounters identically portrayed scenarios <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. As inherent to any assessment of clinical competence, objectivity (i.e. validity, reliability, efficiency, transparency) is susceptible to implementation and realisation imperfections <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. Additionally, cheating during OSCEs poses a threat to objectivity and fairness <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>. Fairness is the quality of making judgements that are free from bias and discrimination and requires conformity rules and standards for all students <TextLink reference="11"></TextLink>. </Pgraph><Pgraph>We assume that exchange of detailed information about the content of the OSCE-stations might be the cause for observations we made in previous years: It takes three days to assess the entire cohort of second clinical year medical students. We noticed that many students scheduled after the first round managed OSCE-simulations progressively faster and disproportionally focused. They often jumped to conclusions based on information they did not elicit during the simulation. For example, they made diagnosis and management decisions without having completed physical examination and history taking. As &#8220;communication skills&#8221; on electronic platforms are common among modern-day students, the sharing of information about the content of exams has become easier <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. We identified internet blogs from medical students who finished the OSCE, providing hints to other students. We observed that students used case-specific information during ongoing examinations. Although several studies found that this kind of cheating does not necessarily effect test results to a relevant extent <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>, we believe this had a negative effect on the performance of students during examination.</Pgraph><Pgraph>Therefore, we established a Multiple Scenario-OSCE (MS-OSCE) where all students had to manage the same chief complaint with different underlying scenarios. The goal of multiple scenarios is to ensure that all students take a thorough history and perform a complete physical examination to explore the differential diagnoses at each OSCE-station, despite prior information received from students who already completed the OSCE. Varying an OSCE station while students are rotating on their examination parcours seems to be frequently done but has not been published extensively, whereas the effects of changing raters during an examination is well documented <TextLink reference="16"></TextLink>.</Pgraph><Pgraph>The aim of our analysis was to asses if a MS-OSCE violates the assumption of objectivity and fairness, given that all students are not tested with identical scenarios.</Pgraph><Pgraph>Our hypothesis is that testing the management of a chief complaint with multiple scenarios does not unfairly affect the grading of students&#8217; performance.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einf&#252;hrung">
      <MainHeadline>Einf&#252;hrung</MainHeadline><Pgraph>Seit der Einf&#252;hrung durch Harden 1975 <TextLink reference="1"></TextLink> hat sich die Objective Structured Clinical Examination (OSCE) zur Pr&#252;fung von klinischen F&#228;higkeiten und Fertigkeiten in der Ausbildung von Medizinstudierenden etabliert. Wir pr&#252;fen Medizinstudentinnen und Medizinstudenten nach ihrem Blockpraktikum Allgemeinmedizin im 2. Klinischen Jahr mit einer summativen OSCE-Pr&#252;fung. Mit geschulten Simulationspatienten (SP) wird bei einer OSCE-Pr&#252;fung, jede&#47;r Studierende in standardisiert dargestellten klinischen Situationen gepr&#252;ft <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Die Objektivit&#228;t von Pr&#252;fungen klinischer Kompetenz (Kriterien f&#252;r Objektivit&#228;t: Validit&#228;t, Reliabilit&#228;t, Effizienz, Transparenz) ist allerdings h&#228;ufig beeintr&#228;chtigt durch Schw&#228;chen bei Planung und Durchf&#252;hrung der Pr&#252;fungen <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. Auch das Weitergeben von pr&#252;fungsrelevanten Informationen durch Studierende w&#228;hrend einer OSCE-Pr&#252;fung stellt eine Beeintr&#228;chtigung von deren Fairness und Objektivit&#228;t dar <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>. Fairness einer Pr&#252;fung bedeutet, dass Beurteilungen frei von Voreingenommenheit erfolgen und niemanden benachteiligen. Sie erfordert die Einhaltung &#252;bereinstimmender Regeln und Standards f&#252;r alle Studierenden <TextLink reference="11"></TextLink>. </Pgraph><Pgraph>Wir nehmen an, dass der Austausch detaillierter Informationen zu Inhalten der OSCE-Stationen w&#228;hrend der Pr&#252;fung ein Grund f&#252;r Beobachtungen ist, die wir in den letzten Jahren gemacht hatten: Zur Pr&#252;fung der gesamten Jahrgangskohorte der Studierenden im 2. Klinischen Jahr ben&#246;tigen wir 3 Tage. In diesem Zeitraum konnten wir beobachten, dass Studierende, die die Pr&#252;fung erst nach der ersten Pr&#252;fungsgruppe antraten, die Aufgaben an den OSCE-Stationen zunehmend hastiger und weniger nachvollziehbar absolvierten. Sie zogen Schl&#252;sse, die nicht auf Informationen beruhten, die sie w&#228;hrend der Interaktion mit der Simulationspatientin&#47; dem Simulationspatienten herausgearbeitet hatten. Sie kamen zum Beispiel zu einer Diagnose oder zu einer Therapieentscheidung, ohne eine ausreichende k&#246;rperliche Untersuchung oder die Anamnese abgeschlossen zu haben. Da heutzutage jeder Student &#252;ber &#8220;Kommunikative F&#228;higkeiten&#8221; mittels elektronischer Medien verf&#252;gt, ist es einfacher, Informationen zum Pr&#252;fungsinhalt zeitnah auszutauschen <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>. Wir identifizierten Internetblogs von Medizinstudierenden, die ihre OSCE-Pr&#252;fung bereits absolviert hatten, in denen Hinweise f&#252;r nachfolgende Pr&#252;flinge enthalten waren. Auch bemerkten wir, dass Studierende fallspezifische Informationen w&#228;hrend der laufenden Pr&#252;fung benutzten. Auch wenn mehrere Studien zeigen konnten, dass diese Art von Fehlverhalten die Pr&#252;fungsergebnisse nicht notwendigerweise relevant beeinflusst <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>, nehmen wir an, dass diese Informationen einen negativen Effekt auf die  Pr&#252;fungsleistung der Studierenden haben.</Pgraph><Pgraph>Darum entwickelten wir eine Multiple Scenario-OSCE-Pr&#252;fung (MS-OSCE), bei der alle Studierenden den immer gleichbleibenden Beratungsanlass einer Station managen m&#252;ssen, jedoch mit wechselnden zugrundeliegenden Szenarien (d.h. Ursachen). Multiple Szenarien bei gleichem Beratungsanlass sollen daf&#252;r sorgen, dass alle Studierenden eine gr&#252;ndliche Anamnese und eine ad&#228;quate Untersuchung ausf&#252;hren, trotz Informationen zur Pr&#252;fung von Studierenden, die die MS-OSCE-Pr&#252;fung vorher absolviert hatten. Das Ver&#228;ndern einer OSCE-Station im Verlauf einer Pr&#252;fung scheint nicht un&#252;blich zu sein, doch wurde dar&#252;ber bisher nur wenig publiziert; wohingegen der Effekt von wechselnden Pr&#252;fer&#47;innen w&#228;hrend einer OSCE-Pr&#252;fung gut dokumentiert ist <TextLink reference="16"></TextLink>.</Pgraph><Pgraph>Das Ziel unserer Untersuchung war es, zu pr&#252;fen, ob Objektivit&#228;t und Fairness der MS-OSCE-Pr&#252;fung angenommen werden d&#252;rfen, auch wenn nicht alle Studierenden mit dem identischen Szenario eines Beratungsanlasses gepr&#252;ft wurden. </Pgraph><Pgraph>Unsere Hypothese lautet, dass die Notengebung f&#252;r die Pr&#252;fungsleistung der Studierenden nicht unfair beeinflusst wird, wenn das Management eines Beratungsanlasses mittels multipler Szenarien getestet wird. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><Pgraph>This is an observational study about the implementation of the MS-OSCE concept to assess the General Practice clerkship of 169 second clinical year medical students (58&#37; female, median age 26 years, range 22 to 37) <TextLink reference="17"></TextLink>. Two students dropped out due to sickness.</Pgraph><SubHeadline2>Development of the MS-OSCE stations</SubHeadline2><Pgraph>In accordance with the competencies and learning objectives of the General Practice curriculum we generated an OSCE blueprint and developed five OSCE- stations, each testing one chief complaint with two to three different scenarios. Chief complaints for the OSCE were published on the website of the department of General Practice four weeks in advance to the OSCE to allow students to prepare for the examination. Chief complaints were: chest pain, abdominal pain, back pain, fatigue and acute cough. There are national guidelines for managing these complaints except for abdominal pain. The chief complaints with the respective underlying scenarios are summarized in table 1 <ImgLink imgNo="1" imgType="table"/>. The multiple scenarios chest pain station had been piloted in the previous year OSCE. The other OSCE-stations have been piloted with volunteer students.</Pgraph><SubHeadline2>Simulation patients and rater training</SubHeadline2><Pgraph>The scenarios for each chief complaint were standardized. Theatre students and lay-actors were recruited as simulation patients (SP). SPs were instructed to use a standardized opening phrase and received a detailed script describing the standardized way of interacting for each scenario (see table 1 <ImgLink imgNo="1" imgType="table"/>). We rehearsed the simulation with advanced medical students and physicians in postgraduate training. Elderly SPs simulated all chest pain scenarios for a more realistic portrayal of a possible cardiac origin of chest pain. The elderly chest pain SPs were trained portraying acute coronary syndrome previously and received additional training for costosternal syndrome and gastrointestinal reflux. Male SPs exclusively portrayed the abdominal pain scenarios to exclude gynaecological differential diagnoses. SPs completed a four hours training, including a rehearsal for every scenario with house officers. </Pgraph><Pgraph>Raters were General Practitioners (GPs) from the teaching practices network of the faculty. Most of them have been involved in rating OSCE for many years. All received a 15-30 minutes introduction to the new principles of the MS-OSCE before making their first assessment. The checklist for each chief complaint was identical. The scenarios were recapitulated with the SPs. Each station was assessed by 1 rater. During the three days of examination 23 raters were engaged. Two raters rated at all stations while most raters only rated at one or two stations.</Pgraph><Pgraph>Students enrolled electronically for a specific day and time slot. They were assigned to 2 groups of 5 students each. Two groups simultaneously circulated through a 5 stations course in a corridor with 10 separate rooms. The scenario to be simulated was randomly selected by the rater before the student entered the station. Students had 10 minutes at each station to complete the task and additional time to switch between stations. The entire MS-OSCE took 60 minutes for every student.</Pgraph><SubHeadline2>Assessment and grading</SubHeadline2><Pgraph>Federal regulations of examination in medical education in Germany require grading on an ordinal scale ranging from 1 to 5 (excellent (1), good (2), fair (3), sufficient (4) and fail (5)). This scale is used in a similar way in German schools and is familiar to all raters &#91;<Hyperlink href="https:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html">https:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html</Hyperlink>&#93;. We assessed students&#8217; performance with a checklist (checklist rating (CR)), which consisted of either binary items (e.g. student asked about smoking: yes&#47;no) or Likert scales (e.g. quality of student&#8211;patient interaction). Checklist-items covered an identical examination routine for each scenario of a chief-complaint. Items fulfilled by more than 90&#37; or less than 10&#37; of the students were eliminated post hoc from the checklist. Communication was assessed with the Berlin Global Rating Scale grade (BGR) <TextLink reference="18"></TextLink>, a global rating scale <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink> based on the rating scale introduced by Hodges <TextLink reference="21"></TextLink>, adapted and validated for German assessment needs. Finally, raters had to give their intuitive overall global rating (OGR) <TextLink reference="22"></TextLink> of each student&#8217;s overall performance at each station. OGR is needed to calibrate CR and BGR for aspects that are not captured by the checklist. The final grade for each station was calculated as the mean of CR, BGR and OGR. According to the examination regulations at the University of Greifswald, a pre-fixed cut-off-score of 60&#37; was set as standard for failure.</Pgraph><SubHeadline2>Statistical analysis</SubHeadline2><Pgraph>We display grades across scenarios as box-plots with average, median, interquartile range, and outliers. The internal consistency of the OSCE was assessed with Cronbach&#8217;s alpha, based on the grades at each station. </Pgraph><Pgraph>We computed intraclass correlations (ICC) to express the fraction of variance of the grade due to scenarios or raters. Ideally the fraction should be close to zero. For this purpose we computed linear regression models separately for each station, using a bootstrap approach for variance estimation because of violations of the normal distributions of the residuals. We used two sets of predictors: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">dummy coded scenarios and raters (see table 2 <ImgLink imgNo="2" imgType="table"/>); </ListItem><ListItem level="1" levelPosition="2" numString="2.">the first model and additionally the mean grade from all stations other than the outcome station (see table 3 <ImgLink imgNo="3" imgType="table"/>). </ListItem></OrderedList></Pgraph><Pgraph>The grades were included to correct for students&#8217; overall skills on all stations except for the station under study. Computations were conducted with the xtreg command in stata, using the fixed-effects estimator. There were no missing data for the assessed variables.</Pgraph><Pgraph>Analyses were conducted in Stata 13 (Stata Corp., College Station, TX).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><Pgraph>Dies ist eine Beobachtungsstudie zur Implementierung des MS-OSCE Konzepts. Die Pr&#252;fung war Teil der Benotung des Blockpraktikums Allgemeinmedizin von 169 Studierenden im 2. Klinischen Jahr. (58&#37; weiblich, Median Alter: 26 Jahre (22-37 Jahre) <TextLink reference="17"></TextLink>. Zwei Studierende des Jahrgangs traten die Pr&#252;fung wegen Krankheit nicht an.</Pgraph><SubHeadline2>Entwicklung der MS-OSCE Stationen</SubHeadline2><Pgraph>In &#220;bereinstimmung mit dem Lernzielkatalog des Faches Allgemeinmedizin erstellten wir einen OSCE-Blueprint und entwickelten daraus f&#252;nf OSCE-Stationen, von denen jede einen anderen Beratungsanlass abpr&#252;fte mit jeweils 2-3 zugrundeliegenden Szenarien pro Beratungsanlass. Die Beratungsanl&#228;sse wurden 4 Wochen vor der OSCE-Pr&#252;fung auf der Website der Abteilung Allgemeinmedizin bekanntgegeben, um den Studierenden eine Vorbereitung auf die Pr&#252;fung zu erm&#246;glichen. Die Beratungsanl&#228;sse lauteten: &#8222;Brustschmerz&#8220;, &#8222;Bauchschmerz&#8220;, &#8222;R&#252;ckenschmerz&#8220;, &#8222;M&#252;digkeit&#8220; und &#8222;akuter Husten&#8220;. F&#252;r das Management der genannten Beratungsanl&#228;sse, au&#223;er f&#252;r &#8222;Bauchschmerz&#8220;, existieren nationale Leitlinien. Die Synopse der Beratungsanl&#228;sse mit den entsprechend zugeordneten Szenarien ist in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> dargestellt. Die Pilotierung der Brustschmerzstation erfolgte bereits f&#252;r die OSCE-Pr&#252;fung des Vorjahres. Die &#252;brigen OSCE-Stationen wurden mit Hilfe freiwilliger Studierender pilotiert.  </Pgraph><SubHeadline2>Simulationspatienten und Pr&#252;fertraining  </SubHeadline2><Pgraph>Die Szenarien f&#252;r jeden Beratungsanlass wurden standardisiert erstellt. Als Simulationspatienten&#47;Simulationspatientinnen (SP) wurden Studierende einer Theaterakademie und Laienschauspieler&#47;innen rekrutiert. Die SPs wurden instruiert, ihre Simulation immer mit einem festgelegten Eingangssatz zu beginnen und erhielten ein detailliertes Skript, in dem jedes Szenario eines Beratungsanlasses mit standardisierten Regieanweisungen beschrieben wurde (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Die einzelnen Szenarien wurden dann mit Medizinstudierenden ab dem dritten klinischen Jahr und &#196;rzten in Weiterbildung einge&#252;bt. F&#252;r die Szenarien der &#8222;Brustschmerz&#8220;-Station wurden &#228;ltere SPs eingesetzt, um eine m&#246;glichst realistische Darstellung des in Frage kommenden akuten Koronarsyndroms zu gew&#228;hrleisten. Diese &#228;lteren SPs hatten bereits im vorangehenden Jahr das Training f&#252;r die Darstellung eines akuten Koronarsyndroms erhalten und wurden nun zus&#228;tzlich f&#252;r die weiteren Szenarien der &#8222;Brustschmerz&#8220;-Station (costosternales Syndrom und gastro&#246;sophagealer Reflux) trainiert. An der &#8222;Bauchschmerz&#8220;-Station wurden ausschlie&#223;lich m&#228;nnliche SPs eingesetzt, um gyn&#228;kologische Differentialdiagnosen auszublenden. Jede&#47;r SP erhielt ein 4-st&#252;ndiges Training inclusive einer Probe mit Supervision durch eine&#47;n Lehrbeauftragten. </Pgraph><Pgraph>Die Pr&#252;fer&#47;innen waren Allgemein&#228;rztinnen und Allgemein&#228;rzte des Lehr&#228;rztenetzwerks der Abteilung f&#252;r Allgemeinmedizin. Die meisten von ihnen sind bereits seit Jahren als Pr&#252;fer&#47;innen in OSCE-Pr&#252;fungen t&#228;tig gewesen. Alle Pr&#252;fer&#47;innen erhielten eine 15-30 min&#252;tige Einf&#252;hrung in die neuen Prinzipien der MS-OSCE-Pr&#252;fung bevor sie die erste Bewertung abgaben. Die Checkliste eines jeden Beratungsanlasses war f&#252;r die ihm zugrundeliegenden Szenarien identisch. Die Szenarien wurden vor Beginn der Pr&#252;fung mit den SP nochmals durchgesprochen. Jede Station war mit einem Pr&#252;fer&#47;in besetzt. Im Laufe der 3 Pr&#252;fungstage wurden 23 Pr&#252;fer&#47;innen t&#228;tig. 2 Pr&#252;fer&#47;innen wechselten durch alle Stationen, wohingegen die meisten Pr&#252;fer&#47;innen nur an 1 oder 2 Stationen eingesetzt waren. </Pgraph><Pgraph>Die Studierenden konnten sich elektronisch f&#252;r einen Pr&#252;fungstag und den Pr&#252;fzeitraum einschreiben. Sie wurden einer der beiden Pr&#252;fungsgruppen zu je 5 Stationen zugeteilt. Beide Pr&#252;fungsgruppen zirkulierten simultan von Station 1 bis Station 5 in einem Flur mit 10 getrennten R&#228;umen (2 x Stationen 1-5). Bevor eine Studentin&#47;ein Student den Raum einer Station betrat, w&#228;hlte die&#47;der Pr&#252;fer&#47;in das zu simulierende Szenario nach Zufall aus. Die Studierenden hatten 10 Minuten Zeit, die Aufgabenstellung einer Station zu l&#246;sen und wechselten danach alle gleichzeitig die Station in einer festgelegten Zeit. Jede&#47;r Studierende ben&#246;tigte 60 Minuten f&#252;r die komplette MS-OSCE Pr&#252;fung. </Pgraph><SubHeadline2>Beurteilung und Notenvergabe</SubHeadline2><Pgraph>Die Approbationsordnung in Deutschland verlangt eine Notenvergabe auf einer Ordinalskala von 1 bis 5 (sehr gut (1), gut (2), befriedigend (3), ausreichend (4) und mangelhaft (5)). Dieses Benotungssystem wird in deutschen Schulen in &#228;hnlicher Weise benutzt und ist allen Pr&#252;fern vertraut &#91;<Hyperlink href="https:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html">https:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html</Hyperlink>&#93;. Wir pr&#252;ften die Fertigkeiten der Studentinnen und Studenten mit einer Checkliste (checklist rating (CR)), die sowohl bin&#228;re Items (z.B. Studierende&#47;r fragt nach Nikotinkonsum: ja&#47;nein) als auch Likert Skalen (z.B. Qualit&#228;t einer ausgef&#252;hrten Student&#47;in &#8211; Patient&#47;in &#8211; Interaktion) beinhaltete. Die Items der Checkliste einer Station erfassten f&#252;r jedes Szenario eines Beratungsanlasses die gleichen Untersuchungserfordernisse. Die kommunikative Kompetenz wurde mit dem Berliner Global Rating Instrument (BGR) <TextLink reference="18"></TextLink> bewertet, einer Globalbewertungsskala <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, basierend auf der von Hodges eingef&#252;hrten Beurteilungsskala <TextLink reference="21"></TextLink>, die f&#252;r deutsche Pr&#252;fungserfordernisse angepasst und validiert wurde. Abschlie&#223;end wurde eine intuitive globale Gesamtbeurteilung (overall global rating (OGR)) <TextLink reference="22"></TextLink> f&#252;r die Gesamtleistung der&#47;des Studierenden an seiner Station abgegeben. Diese wird ben&#246;tigt, um CR und BGR auf Aspekte hin abzugleichen, die von Checklisten nicht erfasst werden. Die Gesamtnote an jeder Station wurde errechnet als der Durchschnitt aus CR, BGR und OGR. Items, die von mehr als 90&#37; oder weniger als 10&#37; der Studierenden erf&#252;llt wurden, wurden post hoc von der Checkliste gestrichen. Entsprechend der Studienordnung der Universit&#228;t Greifswald wurde eine Bestehensgrenze von 60&#37; der maximalen erreichbaren Punktzahl im Voraus festgelegt.  </Pgraph><SubHeadline2>Statistische Auswertung</SubHeadline2><Pgraph>Wir zeigen die Noten einer Station &#252;ber alle Szenarien als Box-Plots mit Mittelwert, Median, Interquartilenabstand und Ausrei&#223;ern (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Die interne Konsistenz der OSCE-Pr&#252;fung wurde mittels Cronbach&#8217;s Alpha, basierend auf den Noten an jeder Station berechnet.  </Pgraph><Pgraph>Wir berechneten Intraclass-Korrelationskoeffizienten (ICC), um den Anteil der Notenvarianz auszudr&#252;cken, der auf Szenarien oder Pr&#252;fer&#47;innen zur&#252;ckzuf&#252;hren war. Idealerweise sollte dieser Anteil nahe Null sein. Dazu berechneten wir f&#252;r jede Station getrennt lineare Regressionsmodelle und nutzten wegen der Abweichung der Residuen eine Bootstrap-Verfahren zur Varianzabsch&#228;tzung, weil keine Normalverteilung vorlag. Wir verwendeten zwei Pr&#228;diktorensets: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">ein Set mit dummy-Kodierung f&#252;r Szenarien und Pr&#252;fer&#47;innen (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>); </ListItem><ListItem level="1" levelPosition="2" numString="2.">ein Set mit dem vorgenannten Modell plus der Durchschnittsnote aller Stationen au&#223;er der betrachteten Station (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>). </ListItem></OrderedList></Pgraph><Pgraph>Die Noten wurden verwendet, um den Einfluss der Leistungen der Studierenden an allen &#252;brigen Stationen au&#223;er der Bezugsstation zu ber&#252;cksichtigen. Berechnungen wurden mit dem xtreg Befehl in Stata unter Anwendung eines fixed-effects Sch&#228;tzers ausgef&#252;hrt. Es gab keine fehlenden Daten f&#252;r die untersuchten Variablen.</Pgraph><Pgraph>Die Analysen wurden in Stata 13 ausgef&#252;hrt (Stata Corp., College Station, TX) </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><Pgraph>Stations and raters as well as scenarios were statistically independent of each other (see attachment 1 <AttachmentLink attachmentNo="1"/> and attachment 2 <AttachmentLink attachmentNo="2"/>). The internal consistency of the OSCE according to Cronbach&#8217;s alpha across the five grades for the stations was 0.65 (CI<Subscript>90 one sided</Subscript> 0.59). </Pgraph><SubHeadline2>Comparison of the scenarios at each OSCE Station </SubHeadline2><Pgraph>The distribution of grades for each scenario within stations and the distribution of final grades derived from the grades at each station are shown in figure 1 <ImgLink imgNo="1" imgType="figure"/>. The average grade at each station ranged from 2.16 to 2.28. The difference of the average grade between the scenarios at each station ranged from 0.03 to 0.40 (see table 2 <ImgLink imgNo="2" imgType="table"/> and table 3 <ImgLink imgNo="3" imgType="table"/>). The largest difference was observed at the station assessing chest pain management. The life-threatening scenario ACS had a worse average grade of 0.4 compared to the scenario of gastrointestinal reflux. A similar moderately worse grade of 0.3 was observed for the scenario of appendicitis compared to gastroenteritis. The final grades for the chief complaints (stations) ranged from 1 to 5. </Pgraph><SubHeadline2>Effect of scenarios and raters on the grades at each station</SubHeadline2><Pgraph>The effect of scenarios and raters on the grades at each station are expressed as ICCs and displayed in table 2 <ImgLink imgNo="2" imgType="table"/> and table 3 <ImgLink imgNo="3" imgType="table"/>. We report the ICC unadjusted for students&#39; skills (see table 2 <ImgLink imgNo="2" imgType="table"/>) and the ICC adjusted for students&#8217; skills at the other OSCE-stations (see table 3 <ImgLink imgNo="3" imgType="table"/>). The effect of the scenarios on the grades at the stations ranged from 5.2&#37; to 7.8&#37; without taking mean grades at the other stations into account and adjusted from 4.2&#37; to 9.2&#37; when taking the mean grade into account. Corresponding to the largest difference in average grades between the scenarios, the largest effect of scenario was observed at the station assessing chest pain. </Pgraph><Pgraph>The number of raters at each station varied from 6 to 10 over the three days. The unadjusted effect of the raters on the grades at the stations ranged from 14.1&#37; to 39.8&#37; without taking mean grades at the other stations into account and from 20.5&#37; to 50.3&#37; if doing so. The largest effect of raters was observed at the station assessing abdominal pain.  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><Pgraph>Stationen und Pr&#252;fer&#47;innen waren ebenso wie die Szenarien statistisch voneinander unabh&#228;ngig (siehe Anhang 1 <AttachmentLink attachmentNo="1"/> und Anhang 2 <AttachmentLink attachmentNo="2"/>) Die Interne Konsistenz der OSCE-Pr&#252;fung &#252;ber die 5 Notenstufen f&#252;r die Stationen war gem&#228;&#223; Cronbach&#8217;s alpha 0,65 (CI<Subscript>90 one sided</Subscript> 0,59).</Pgraph><SubHeadline2>Vergleich der Szenarien f&#252;r jede Station</SubHeadline2><Pgraph>Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> zeigt die Verteilung der Noten getrennt f&#252;r jedes Szenario innerhalb jeder der f&#252;nf Stationen sowie die Verteilung der resultierenden Gesamtnoten pro Station.  </Pgraph><Pgraph>Die Gesamtnoten der Stationen lagen durchschnittlich zwischen 2,16 und 2,28. Die Differenz der Durchschnittsnoten der Szenarien einer Station betrug zwischen 0,03 bis 0,40 (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/> und Tabelle 3 <ImgLink imgNo="3" imgType="table"/>). Den gr&#246;&#223;ten Unterschied zwischen den Durchschnittsnoten der Szenarien einer Station beobachteten wir an der Station mit dem Beratungsanlass &#8222;Brustschmerz&#8220;. Hier hatte das lebensbedrohliche Szenario akutes Koronarsyndrom (ACS) eine um 0,4 schlechtere Durchschnittsnote gegen&#252;ber dem Szenario gastrointestinaler Reflux. An der Station mit dem Beratungsanlass &#8222;Bauchschmerz&#8220; wurde eine um 0,3 schlechtere Durchschnittsnote bei Szenario Appendizitis gegen&#252;ber dem Szenario Gastroenteritis beobachtet. Die Gesamtnoten f&#252;r die Beratungsanl&#228;sse (Stationen) lagen im Bereich von 1 bis 5.</Pgraph><SubHeadline2>Einfluss von Szenarien und Pr&#252;fern auf die Noten an jeder Station</SubHeadline2><Pgraph>Die Einfl&#252;sse von Szenarien und Pr&#252;ferinen&#47;Pr&#252;fern auf die Noten an jeder Station werden als ICCs berechnet und sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> und Tabelle 3 <ImgLink imgNo="3" imgType="table"/> dargestellt. In Tabelle 2 <ImgLink imgNo="2" imgType="table"/> zeigen wir die ICCs ohne Ber&#252;cksichtigung (Adjustierung) der studentischen F&#228;higkeiten an den &#252;brigen OSCE-Stationen und in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> die ICCs bei Ber&#252;cksichtigung (Adjustierung) der F&#228;higkeit der Studierenden an den &#252;brigen Stationen. Der Einfluss der Szenarien auf die Gesamtnoten der entsprechenden Stationen betrug 5,2&#37; bis 7,8&#37;, wenn keine Ber&#252;cksichtigung der Durchschnittsnoten der Studierenden an den &#252;brigen Stationen erfolgte. Bei Ber&#252;cksichtigung der Fertigkeiten der Studierenden an den &#252;brigen Stationen betrug der Einfluss der Szenarien 4,2&#37; bis 9,2&#37;. Bei Betrachtung der gr&#246;&#223;ten Differenz zwischen den Durchschnittsnoten der Szenarien einer Station konnte der gr&#246;&#223;te Einfluss eines Szenarios auf die Gesamtnote an der Station mit dem Beratungsanlass &#8222;Brustschmerz&#8220; festgestellt werden.</Pgraph><Pgraph>Die Anzahl der Pr&#252;fer&#47;innen an jeder Station bewegte sich zwischen 6 und 10 &#252;ber die drei Pr&#252;fungstage. Der nicht adjustierte Einfluss der Pr&#252;fer&#47;innen auf die Gesamtnoten an einer Station schwankte zwischen 14,1&#37; und 39,8&#37; ohne Ber&#252;cksichtigung der Durchschnittsnoten der Studierenden an den &#252;brigen Stationen. Er betrug zwischen 20,5&#37; und 50,3&#37;, wenn die studentischen F&#228;higkeiten an den &#252;brigen Stationen ber&#252;cksichtigt wurden (Adjustierung). Der gr&#246;&#223;te Pr&#252;fereffekt wurde an der Station mit dem Beratungsanlass &#8222;Bauchschmerz&#8220; gesehen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><SubHeadline2>Summary of the main results</SubHeadline2><Pgraph>A total of 169 second clinical year students and 23 raters participated in the MS-OSCE. The difference of the mean grades between the scenarios of a given chief complaint ranged from 0.03 to 0.4 on a 1-5 grading scale. The effect of scenarios on students&#8217; grades at a station accounted for 4&#37; to 9&#37; of the total variability of the grades, the respective figures for raters ranged from 20&#37; to 50&#37; adjusted for students&#8217; skills.  </Pgraph><SubHeadline2>Meaning of the findings</SubHeadline2><Pgraph>We observed differences in the distribution of the final grades between the scenarios ranging from 0.03 to 0.4 on the 5-point rating system (see figure 1 <ImgLink imgNo="1" imgType="figure"/>). Although the checklist-items cover an identical examination routine for each scenario, rating should not be affected by the severity of the portrayed underlying diagnosis, since we expect students to explore all possibilities. It seems that missing the diagnosis or committing management errors for a potentially life-threatening scenario like ACS, appendicitis or pneumonia resulted in worse grades than similar mistakes with a corresponding benign scenario as costosternal syndrome, gastroenteritis, or bronchitis. There is no consensus what is considered a meaningful difference; we consider the observed difference as minor to moderate. </Pgraph><Pgraph>Compared to the magnitude of the effect of different raters on the grades at a station the effect of the different scenario was small but still relevant. The effect of the raters was independent of the scenarios and students&#8217; ability. The difference in the average grade awarded between the most lenient and strictest rater exceeded more than 1 grade on the 5-point rating scale, suggesting possibly poor inter-rater reliability. Therefore, calibrating raters seems to be far more important than adjusting for differences in the difficulty of scenarios. Wilkinson et al. <TextLink reference="23"></TextLink> showed &#8220;that examiner factors contribute substantially more to the objectivity of an OSCE than do mark sheets or checklists&#8221;. Inter-rater reliability in OSCEs is rarely reported and varies according to OSCE construction, rating instrument used (global rating&#47;checklist rating) and assessment conditions (direct observation&#47; video) <TextLink reference="20"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>. Hatala et al. <TextLink reference="26"></TextLink> piloted an OSCE with 2 stations, fragmented into 3 subsequent sequences of 10 minutes each to cover multiple content areas relevant to internal medicine. They observed an inter-rater reliability ranging from 0.63 to 0.91 with two raters for each scenario. Brennan and colleagues <TextLink reference="16"></TextLink> found that although the range of grades awarded varied if examiners changed at OSCE stations (total number of raters at a given station not stated), examination reliability and the likely candidate outcome were not affected.</Pgraph><Pgraph>Due to financial constraints, we - like many other medical schools - cannot afford to assess each OSCE station with two raters simultaneously.  </Pgraph><Pgraph>More intensive training of raters and SPs <TextLink reference="4"></TextLink> as well as a more thorough development of checklists to establish better inter-rater reliability  are possible remedies to reduce the effect of raters on grading. However, the assumption that a more intensive rater training increases inter-rater reliability does not always hold true <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. Which amount of unfairness and lack of reliability should be accepted and to which degree the effect of raters can be reduced is a matter of debate <TextLink reference="29"></TextLink>. </Pgraph><Pgraph>We do not believe that MS-OSCE has reduced exchange of information, but we assume subjectively that the switch to MS-OSCE has led to a more complete history taking and physical examination and a less hasty performance throughout the whole 3 days of the annual OSCE. However, we have no objective measurement supporting this assumption. </Pgraph><SubHeadline2>Strengths and limitations </SubHeadline2><Pgraph>This is to our knowledge the first report of a MS-OSCE. We calculated the impact of multiple scenarios and raters on the grades in a MS-OSCE adjusting for students&#8217; skills. We did not establish inter-rater correlations for the checklists and provided only minimal rater training, due to lack of resources. This reflects most likely the situation at many medical schools assessing students&#8217; skills with OSCE. There was a good correlation ranging from 0.6 to 0.8 between the checklist rating and global rating (results not shown), indicating congruent ratings of communication and examination skills. We cannot exclude effects on students&#8217; performance due to different accuracy in portrayal of scenarios by different SPs portraying the same scenario during three days of examination. We did not attempt to adjust for SPs. Additionally we did not investigate or adjust for gender effects which have been shown to effect grading <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>. Varying gender of SPs might have influenced students&#8217; performance at the chest pain station and the acute cough station, where auscultation was within the scope of the demanded skills. Our MS-OSCE with only five stations is relatively short. It has been postulated that at least 10 stations are needed for a reliable assessment <TextLink reference="32"></TextLink>, <TextLink reference="33"></TextLink>. Ten minutes per station is in an accepted time range <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink> and even high-stakes examinations demand only 15 minutes per OSCE-station for patient encounter <TextLink reference="36"></TextLink>. We have a good internal consistency (Cronbach&#8217;s alpha: 0.65) over all stations compared with other reports from the literature <TextLink reference="32"></TextLink>. </Pgraph><Pgraph>Although it is possible to adjust students&#8217; individual grades for differences in scenario and for differences between raters with a correction factor after taking the exam, we did not adjust accordingly.Calculation of correction factors after each exam would require resources which are currently not available to us. </Pgraph><Pgraph>Validity measurements are not in the scope of our report. Van der Vleuten and Schuwirth <TextLink reference="7"></TextLink> state that key issues concerning the validity of competence assessments are authenticity of performance and the integration of professional competencies. MS-OSCE addresses the authenticity of students&#8217; performance by providing several scenarios at one station to reduce the effect of shared information (cheating) on students&#8217; case management. Content validity was assured by reviewing MS-OSCE-stations by a team of experienced teaching physicians. Providing SP-based clinical scenarios at each station, assessment by standardised ratings (checklists) and a validated global rating instrument, face validity of the MS-OSCE might equal that of a traditional OSCE with only 5 stations. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><SubHeadline2>Zusammenfassung der Hauptergebnisse</SubHeadline2><Pgraph>Insgesamt nahmen 169 Studierende im 2. klinischen Jahr und 23 Pr&#252;ferinnen und Pr&#252;fer an der MS-OSCE teil. Die Differenz der Durchschnittsnoten der Szenarien eines Beratungsanlasses (Station) betrug 0,03 bis 0.4 auf einer Notenskala von 1-5. Der Einfluss der Szenarien einer Station auf deren Gesamtbenotung erkl&#228;rte 4&#37; bis 9&#37; der Notenschwankungen. Bei Ber&#252;cksichtigung der studentischen F&#228;higkeiten an den &#252;brigen Stationen war der Einfluss der Pr&#252;ferinnen und Pr&#252;fer an einer Station f&#252;r 20&#37; bis 50&#37; der Gesamtbenotungsschwankungen der Station verantwortlich.</Pgraph><SubHeadline2>Bedeutung der Ergebnisse</SubHeadline2><Pgraph>Wir beobachteten Notenunterschiede von 0,03 bis 0,4 zwischen den Szenarien der gleichen Station auf einer Notenscala von 1-5 (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Auch wenn die Checklist-Items f&#252;r jedes Szenario eines Beratungsanlasses die gleiche Vorgehensroutine abdeckten, sollten die Bewertungen eigentlich nicht von der Gef&#228;hrlichkeit der zugrundeliegenden Diagnose beeinflusst worden sein, da wir verlangten, dass die Studierenden alle M&#246;glichkeiten in Erw&#228;gung zogen. Wurde die Diagnose eines potentiell lebensgef&#228;hrlichen Szenarios verpasst oder dessen Management misslang, scheint das zu einer schlechteren Benotung gef&#252;hrt zu haben. Das war der Fall, wenn ein akutes Koronarsyndrom, eine Appendizitis oder eine Pneumonie vorlag, w&#228;hrend &#228;hnliche Fehler bei einem eher gutartigen Szenario wie costosternalem Syndrom, Gastroenteritis oder Bronchitis nicht mit einer schlechteren Benotung einherging. </Pgraph><Pgraph>Es besteht kein Konsens dar&#252;ber, ab wann eine Notendifferenz als bedeutsam f&#252;r die Objektivit&#228;t einer Pr&#252;fung gewertet werden soll. Wir sch&#228;tzen die Bedeutung der beobachteten Notendifferenzen als eher gering bis moderat ein. Verglichen mit dem Ausma&#223; des Einflusses verschiedener Pr&#252;fer&#47;innen auf die Noten einer Station erscheint der Effekt unterschiedlicher Szenarien klein aber noch relevant zu sein. Der Einfluss der Pr&#252;fer&#47;innen auf die Noten der Studierenden war unabh&#228;ngig von den Szenarien und von den F&#228;higkeiten der Studierenden. Aber der Unterschied in der Durchschnittsnote zwischen dem nachsichtigstem und dem strengsten Pr&#252;fer lag bei &#252;ber 1 Notenstufe auf der 5-teiligen Notenskala, was eine schlechte Inter-Rater-Reliabilit&#228;t (Zuverl&#228;ssigkeit der Einsch&#228;tzung durch verschiedene Pr&#252;fer&#47;innen an der gleichen Station) wahrscheinlich macht. Daher scheint eine Pr&#252;fer&#47;innenschulung (Vermittlung einheitlicher Bewertungskriterien f&#252;r ein beobachtetes Verhalten) weitaus bedeutender zu sein als eine Anpassung der unterschiedlichen Schwierigkeiten der Szenarien. Wilkinson et al. <TextLink reference="23"></TextLink> zeigten, &#8222;dass Pr&#252;ferfaktoren substantiell st&#228;rker zur Objektivit&#228;t einer OSCE-Pr&#252;fung beitragen, als es Bewertungsb&#246;gen oder Checklisten tun&#8220;. &#220;ber Inter-Rater-Reliabilit&#228;t bei OSCE-Pr&#252;fungen wurde nur wenig ver&#246;ffentlicht und sie variiert je nach OSCE-Aufbau, eingesetzten Pr&#252;fungsinstrumenten (global rating&#47; checklist rating) und den Pr&#252;fungsbedingungen (direkte Beobachtung der Pr&#252;fungssituation&#47; Beobachtung eines Pr&#252;fungsvideos) <TextLink reference="20"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>. Hatala et al. <TextLink reference="26"></TextLink> pilotierten eine OSCE-Pr&#252;fung, bei der 2 Stationen in 3 aufeinanderfolgende Pr&#252;fungssequenzen zu 10 Minuten unterteilt wurden, wobei verschiedene Aspekte eines Problems in der Inneren Medizin abgedeckt wurden. Sie beobachteten eine Inter-Rater-Reliabilit&#228;t zwischen 0,63 bis 0,91 bei 2 Pr&#252;fern f&#252;r jedes Szenario. Brennan et al <TextLink reference="16"></TextLink> berichten, dass, obwohl sich die Spanne der Notengebung &#228;nderte, wenn die Pr&#252;fer&#47;innen an den OSCE-Stationen wechselten, die Reliabilit&#228;t der Pr&#252;fung und die Ergebnisse der Pr&#252;flinge nicht beeintr&#228;chtigt wurden (die Gesamtzahl der Pr&#252;fer&#47;innen an einer Station wird allerdings nicht mitgeteilt).</Pgraph><Pgraph>Wegen beschr&#228;nkter finanzieller Ressourcen konnten wir - wie auch viele andere medizinische Fakult&#228;ten &#8211; es uns nicht leisten, jede OSCE mit zwei Pr&#252;fern gleichzeitig zu besetzen. </Pgraph><Pgraph>Intensiveres Training von Pr&#252;ferinnen&#47;Pr&#252;fern und SPs <TextLink reference="4"></TextLink> sowie eine noch sorgf&#228;ltigere Entwicklung von Checklisten sind m&#246;gliche Ma&#223;nahmen, um den Effekt von Pr&#252;ferinnen&#47;Pr&#252;fern auf die Notengebung zu reduzieren und so eine bessere Inter-Rater-Reliabilit&#228;t zu erreichen. Die Annahme, dass ein intensiveres Pr&#252;fer&#47;innen -Training die Inter-Rater-Reliabilit&#228;t erh&#246;ht, kann nicht generalisiert werden <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. In welchem Ma&#223;e Unfairness und Fehlen von Reliabilit&#228;t akzeptabel sind und wie sehr sich der Einfluss der Pr&#252;fer&#47;innen reduzieren l&#228;sst, wird noch diskutiert <TextLink reference="29"></TextLink>. </Pgraph><Pgraph>Wir nehmen nicht an, dass das MS-OSCE Pr&#252;fungsformat den Informationsaustausch unter Studierenden reduziert hat, aber wir nehmen an, dass der Wechsel zu MS-OSCE dazu gef&#252;hrt hat, dass Anamnese und klinische Untersuchung an den Stationen w&#228;hrend der 3 Pr&#252;fungstage gr&#252;ndlicher und weniger hastig ausgef&#252;hrt werden. Objektive Daten, um diese Annahme zu st&#252;tzen, haben wir allerdings nicht.  </Pgraph><SubHeadline2>St&#228;rken und Schw&#228;chen</SubHeadline2><Pgraph>Dies ist nach unserer Kenntnis der erste Bericht &#252;ber eine Multiple Scenario-OSCE-Pr&#252;fung. Wir berechneten adjustiert f&#252;r die F&#228;higkeiten der Studierenden den Einfluss von multiplen Szenarien und von Pr&#252;ferinnen und Pr&#252;fern auf die Pr&#252;fungsnoten bei einer MS-OSCE-Pr&#252;fung. Aufgrund limitierter Ressourcen konnten wir keinen Inter-Rater-Korrelationen f&#252;r die Checklisten ermitteln und nur ein minimales Pr&#252;fer&#47;innentraining realisieren. Diese Situation d&#252;rfte bei den meisten Medizinischen Fakult&#228;ten, die studentische F&#228;higkeiten mit einer OSCE -pr&#252;fen, &#228;hnlich sein. Zwischen der Bewertung mittels Checkliste und der Globalbewertung zeigte sich ein Korrelation von 0,6 bis 0,8, was f&#252;r eine kongruente Bewertung von kommunikativen und klinischen Fertigkeiten spricht (Ergebnisse nicht dargestellt). Wir k&#246;nnen nicht ausschlie&#223;en, dass eine unterschiedliche Genauigkeit der Darstellung des gleichen Szenarios durch verschiedene SPs w&#228;hrend der 3-t&#228;gigen Pr&#252;fung einen Einfluss auf die Bewertung hatte. Eine Adjustierung der SPs haben wir nicht durchgef&#252;hrt. Auch Gender-Effekte, die einen Einfluss auf die Notengebung haben k&#246;nnen, wurden von uns nicht ber&#252;cksichtigt <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>. Weibliche und m&#228;nnliche SPs wechselten an einigen Stationen, was die Performance der Studierenden an der &#8222;Brustschmerz&#8220;-Station und der Station mit dem Beratungsanlass &#8222;akuter Husten&#8220;, an denen die Auskultation des Thorax als m&#246;gliche klinische Untersuchung in Frage kam, beeinflusst haben kann. Unsere MS-OSCE-Pr&#252;fung mit nur f&#252;nf Stationen f&#252;r die Beurteilung einer&#47;eines Studierenden ist relativ kurz da f&#252;r eine reliable Pr&#252;fung mindestens 10 Stationen eingerichtet werden sollten <TextLink reference="32"></TextLink>, <TextLink reference="33"></TextLink>. Zehn Minuten pro Station sind eine akzeptable Zeitspanne <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink> und sogar f&#252;r Abschluss&#47;Aufnahmepr&#252;fungen mit h&#246;chsten Anforderungen werden nur 15 Minuten f&#252;r eine interaktive Aufgabenstellung verlangt <TextLink reference="36"></TextLink>. Wir haben eine gute interne Konsistenz (Cronbach&#8217;s alpha: 0,65) &#252;ber alle Stationen, verglichen mit anderen Ver&#246;ffentlichungen <TextLink reference="32"></TextLink>. </Pgraph><Pgraph>Auch wenn es m&#246;glich ist, nach der Pr&#252;fung die individuelle Note einer&#47;eines Studierenden f&#252;r Unterschiede innerhalb der Szenarien und Unterschiede zwischen den Pr&#252;fern mit einem Korrekturfaktor zu adjustieren, haben wir das nicht getan. Die Berechnung von Korrekturfaktoren nach jeder Pr&#252;fung w&#252;rde Ressourcen erfordern, die uns derzeit nicht zur Verf&#252;gung stehen.  </Pgraph><Pgraph>Die Untersuchung der Validit&#228;t einer MS-OSCE-Pr&#252;fung ist nicht Gegenstand unserer Ver&#246;ffentlichung. Van der Vleuten and Schuwirth <TextLink reference="7"></TextLink> stellen fest, dass Schl&#252;sselparameter f&#252;r die Validit&#228;t  von Kompetenzeinsch&#228;tzungen die Authentizit&#228;t der gezeigten Leistung (Performance) und die Einbeziehung von professionellen Kompetenzen sind. Die MS-OSCE-Pr&#252;fung zielt auf die Authentizit&#228;t der Performance der Studierenden ab, indem sie alternierend mehrere Szenarien f&#252;r den Beratungsanlass einer Station anbietet, um so den Einfluss von weitergegebenen Informationen (Weitersagen) auf den Umgang mit der Aufgabenstellung der Studierenden zu reduzieren. Die Inhaltsvalidit&#228;t der Pr&#252;fung wurde durch Reviewing aller MS-OSCE-Stationen durch ein Team erfahrener Lehr&#228;rztinnen und Lehr&#228;rzte angestrebt. Durch die Darstellung klinischer Szenarien mit SPs an jeder der f&#252;nf MS-OSCE-Stationen und durch den Einsatz standardisierter Checklisten und einem validierten Globalbewertungsinstrument sollte die Augenscheinvalidit&#228;t der MS-OSCE der einer traditionellen OSCE mit 5 Stationen gleichen.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusions">
      <MainHeadline>Conclusions</MainHeadline><Pgraph>The effect of different scenarios on the grades assessing the management of one chief complaint in General Practice was small compared to the effect of raters. Improving inter-rater reliability is more important to ensure objectivity and fairness of OSCE than providing the same scenario to all students.  </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Schlussfolgerung">
      <MainHeadline>Schlussfolgerung</MainHeadline><Pgraph>Der Einfluss verschiedener Szenarien auf die Examensnote f&#252;r das Management eines Beratungsanlasses in der Allgemeinmedizin war gering im Vergleich zum Einfluss der Pr&#252;ferinnen und Pr&#252;fer. Um Objektivit&#228;t und Fairness einer OSCE-Pr&#252;fung zu gew&#228;hrleisten ist es bedeutsamer, die Inter-Rater-Reliabilit&#228;t zu verbessern, als alle Studierenden mit dem gleichen Szenario zu pr&#252;fen.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="List of abbreviations">
      <MainHeadline>List of abbreviations</MainHeadline><Pgraph>ACS: acute coronary syndrome</Pgraph><Pgraph>BGR: Berlin Global Rating Scale   </Pgraph><Pgraph>CI: confidence interval</Pgraph><Pgraph>CR: checklist rating</Pgraph><Pgraph>GP: General Practitioner</Pgraph><Pgraph>OGR: overall global rating</Pgraph><Pgraph>ICC: intraclass correlation coefficient</Pgraph><Pgraph>MS-OSCE: Multiple Scenario Objective Structured Clinical Examination</Pgraph><Pgraph>OSCE: Objective Structured Clinical Examination</Pgraph><Pgraph>SP: Standardized Patient</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Liste der Abk&#252;rzungen">
      <MainHeadline>Liste der Abk&#252;rzungen</MainHeadline><Pgraph>ACS: Akutes Koronarsyndrom (acute coronary syndrome)</Pgraph><Pgraph>BGR: Berliner Global Rating Instrument   </Pgraph><Pgraph>CI: Konfidenzintervall (confidence interval)</Pgraph><Pgraph>CR: Checklistenpr&#252;fung (checklist rating)</Pgraph><Pgraph>OGR: globale Gesamtbeurteilung (overall global rating)</Pgraph><Pgraph>ICC: Intraclass-Korrelationskoeffizienten (intraclass correlation coefficient)</Pgraph><Pgraph>MS-OSCE: Multiple Scenario Objective Structured Clinical Examination</Pgraph><Pgraph>OSCE: Objective Structured Clinical Examination</Pgraph><Pgraph>SP: Simulationspatientin&#47;Simulationspatient</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>We are grateful to Francis Baudet, Gisela Greschniok, Heinz Hammermayer, Thomas Hannemann, Mathias Herberg, Gero K&#228;rst, Andreas Kr&#252;ger, Barbara Kr&#252;ger, Annika Matz, Hans-Diether Seiboth, Thomas Richter, Claudia Runge, Carmina Spreemann, Antje Theurer, Renate Tilchner, R&#252;diger Titze, Arne Wasmuth, Christine Wendt, Arno Wilfert.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagungen">
      <MainHeadline>Danksagungen</MainHeadline><Pgraph>Wir danken den Lehr&#228;rzten Francis Baudet, Gisela Greschniok, Heinz Hammermayer, Thomas Hannemann, Mathias Herberg, Gero K&#228;rst, Andreas Kr&#252;ger, Barbara Kr&#252;ger, Annika Matz, Hans-Diether Seiboth, Thomas Richter, Claudia Runge, Carmina Spreemann, Antje Theurer, Renate Tilchner, R&#252;diger Titze, Arne Wasmuth, Christine Wendt, Arno Wilfert.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Data availability">
      <MainHeadline>Data availability</MainHeadline><Pgraph>Data is available on reasonable request.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Erh&#228;ltlichkeit weiterer Daten">
      <MainHeadline>Erh&#228;ltlichkeit weiterer Daten</MainHeadline><Pgraph>Weitere Daten k&#246;nnen in begr&#252;ndeten F&#228;llen vom Korrespondenzautor zur Verf&#252;gung gestellt werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Authors&#8217; contributions">
      <MainHeadline>Authors&#8217; contributions</MainHeadline><Pgraph>JS and JFC conceived the multiple scenario OSCE, the scenarios and rating sheets were developed and piloted by JS, CR, GW, AA, FL, AH, JFC. CR, JS, FL and GW trained the simulation patients, AH was responsible for data management, COS was leading the statistical analysis. JS and JFC wrote the first draft which was revised and approved by all authors.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anteilige Mitwirkung der Autoren">
      <MainHeadline>Anteilige Mitwirkung der Autoren</MainHeadline><Pgraph>JS und JFC hatten die Idee zur MS-OSCE-Pr&#252;fung. Szenarien und Pr&#252;fungsmaterialien wurden entwickelt und pilotiert von JS, CR, GW, AA, FL, AH, JFC. CR, JS, FL und GW trainierten die Simulationspatientinnen und Simulationspatienten, AH war f&#252;r die Datenverwaltung verantwortlich, COS f&#252;hrte die statistische Auswertung durch. JS und JFC schrieben den Textentwurf, der von allen Autoren gepr&#252;ft und freigegeben wurde.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor>Stevenson M</RefAuthor>
        <RefAuthor>Downie WW</RefAuthor>
        <RefAuthor>Wilson GM</RefAuthor>
        <RefTitle>Assessment of clinical competence using objective structured examination</RefTitle>
        <RefYear>1975</RefYear>
        <RefJournal>Br Med J</RefJournal>
        <RefPage>447-451</RefPage>
        <RefTotal>Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1(5955):447-451. DOI: 10.1136&#47;bmj.1.5955.447</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.1.5955.447</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Vu NV</RefAuthor>
        <RefAuthor>Barrows HS</RefAuthor>
        <RefTitle>Use of Standardized Patients in Clinical Assessments: Recent Developments and Measurement Findings</RefTitle>
        <RefYear>1994</RefYear>
        <RefJournal>Educ Res</RefJournal>
        <RefPage>23-30</RefPage>
        <RefTotal>Vu NV, Barrows HS. Use of Standardized Patients in Clinical Assessments: Recent Developments and Measurement Findings. Educ Res. 1994;23:23-30. DOI: 10.3102&#47;0013189X023003023</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3102&#47;0013189X023003023</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Patr&#237;cio MF</RefAuthor>
        <RefAuthor>Juli&#227;o M</RefAuthor>
        <RefAuthor>Fareleira F</RefAuthor>
        <RefAuthor>Carneiro AV</RefAuthor>
        <RefTitle>Is the OSCE a feasible tool to assess competencies in undergraduate medical education&#63;</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>503-514</RefPage>
        <RefTotal>Patr&#237;cio MF, Juli&#227;o M, Fareleira F, Carneiro AV. Is the OSCE a feasible tool to assess competencies in undergraduate medical education&#63; Med Teach. 2013;35(6):503-514. DOI: 10.3109&#47;0142159X.2013.774330</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2013.774330</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Baig LA</RefAuthor>
        <RefAuthor>Beran TN</RefAuthor>
        <RefAuthor>Vallevand A</RefAuthor>
        <RefAuthor>Baig ZA</RefAuthor>
        <RefAuthor>Monroy-Cuadros M</RefAuthor>
        <RefTitle>Accuracy of portrayal by standardized patients: results from four OSCE stations conducted for high stakes examinations</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>97</RefPage>
        <RefTotal>Baig LA, Beran TN, Vallevand A, Baig ZA, Monroy-Cuadros M. Accuracy of portrayal by standardized patients: results from four OSCE stations conducted for high stakes examinations. BMC Med Educ. 2014;14:97. DOI: 10.1186&#47;1472-6920-14-97</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-14-97</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Van der Vleuten CP</RefAuthor>
        <RefAuthor>Norman GR</RefAuthor>
        <RefAuthor>De Graaff E</RefAuthor>
        <RefTitle>Pitfalls in the pursuit of objectivity: issues of reliability</RefTitle>
        <RefYear>1991</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>110-118</RefPage>
        <RefTotal>Van der Vleuten CP, Norman GR, De Graaff E. Pitfalls in the pursuit of objectivity: issues of reliability. Med Educ. 1991;25(2):110-118. DOI: 10.1111&#47;j.1365-2923.1991.tb00036.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.1991.tb00036.x</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Furman GE</RefAuthor>
        <RefAuthor>Smee S</RefAuthor>
        <RefAuthor>Wilson C</RefAuthor>
        <RefTitle>Quality assurance best practices for simulation-based examinations</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Simul Healthc</RefJournal>
        <RefPage>226-231</RefPage>
        <RefTotal>Furman GE, Smee S, Wilson C. Quality assurance best practices for simulation-based examinations. Simul Healthc. 2010;5(4):226-231. DOI: 10.1097&#47;SIH.0b013e3181da5c93</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;SIH.0b013e3181da5c93</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefAuthor>Schuwirth LW</RefAuthor>
        <RefTitle>Assessing professional competence. From methods to programmes</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>309-317</RefPage>
        <RefTotal>van der Vleuten CP, Schuwirth LW. Assessing professional competence. From methods to programmes. Med Educ. 2005;39(3):309-317. DOI: 10.1111&#47;j.1365-2929.2005.02094.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2929.2005.02094.x</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Parks R</RefAuthor>
        <RefAuthor>Warren PM</RefAuthor>
        <RefAuthor>Boyd KM</RefAuthor>
        <RefAuthor>Cameron H</RefAuthor>
        <RefAuthor>Cumming A</RefAuthor>
        <RefAuthor>Lloyd-Jones G</RefAuthor>
        <RefTitle>The Objective Structured Clinical Examination and student collusion: marks do not tell the whole truth</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>J Med Ethics</RefJournal>
        <RefPage>734-738</RefPage>
        <RefTotal>Parks R, Warren PM, Boyd KM, Cameron H, Cumming A, Lloyd-Jones G. The Objective Structured Clinical Examination and student collusion: marks do not tell the whole truth. J Med Ethics. 2006;32(12):734-738. DOI: 10.1136&#47;jme.2005.015446</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;jme.2005.015446</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Colliver JA</RefAuthor>
        <RefAuthor>Barrows HS</RefAuthor>
        <RefAuthor>Vu NV</RefAuthor>
        <RefAuthor>Verhulst SJ</RefAuthor>
        <RefAuthor>Mast TA</RefAuthor>
        <RefAuthor>Travis TA</RefAuthor>
        <RefTitle>Test security in examinations that use standardized-patient cases at one medical school</RefTitle>
        <RefYear>1991</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>279-282</RefPage>
        <RefTotal>Colliver JA, Barrows HS, Vu NV, Verhulst SJ, Mast TA, Travis TA. Test security in examinations that use standardized-patient cases at one medical school. Acad Med. 1991;66(5):279-282. DOI: 10.1097&#47;00001888-199105000-00011</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199105000-00011</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Colliver JA</RefAuthor>
        <RefAuthor>Travis TA</RefAuthor>
        <RefAuthor>Robbs RS</RefAuthor>
        <RefAuthor>Barnhart AJ</RefAuthor>
        <RefAuthor>Shirar LE</RefAuthor>
        <RefAuthor>Vu NV</RefAuthor>
        <RefTitle>Test security in standardized-patient examinations: analysis with scores on working diagnosis and final diagnosis</RefTitle>
        <RefYear>1992</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S7-S9</RefPage>
        <RefTotal>Colliver JA, Travis TA, Robbs RS, Barnhart AJ, Shirar LE, Vu NV. Test security in standardized-patient examinations: analysis with scores on working diagnosis and final diagnosis. Acad Med. 1992;67(10):S7-S9. DOI: 10.1097&#47;00001888-199210000-00022</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199210000-00022</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor>Lilley P</RefAuthor>
        <RefAuthor>Patricio M</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>The definitive guide to the OSCE: The Objective Structured Clinical Examination as a performance assessment</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Harden RM, Lilley P, Patricio M. The definitive guide to the OSCE: The Objective Structured Clinical Examination as a performance assessment. Edinburgh, New York: Elsevier; 2016.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Kennedy G</RefAuthor>
        <RefAuthor>Gray K</RefAuthor>
        <RefAuthor>Tse J</RefAuthor>
        <RefTitle>&#39;Net Generation&#39; medical students: technological experiences of pre-clinical and clinical students</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>10-16</RefPage>
        <RefTotal>Kennedy G, Gray K, Tse J. &#39;Net Generation&#39; medical students: technological experiences of pre-clinical and clinical students. Med Teach. 2008;30(1):10-16. DOI: 10.1080&#47;01421590701798737</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;01421590701798737</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Pander T</RefAuthor>
        <RefAuthor>Pinilla S</RefAuthor>
        <RefAuthor>Dimitriadis K</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>The use of Facebook in medical education - a literature review</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc33</RefPage>
        <RefTotal>Pander T, Pinilla S, Dimitriadis K, Fischer MR. The use of Facebook in medical education - a literature review. GMS Z Med Ausbild. 2014;31(3):Doc33. DOI: 10.3205&#47;zma000925</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000925</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Rutala PJ</RefAuthor>
        <RefTitle>Sharing of Information by Students in an Objective Structured Clinical Examination</RefTitle>
        <RefYear>1991</RefYear>
        <RefJournal>Arch Intern Med</RefJournal>
        <RefPage>541</RefPage>
        <RefTotal>Rutala PJ. Sharing of Information by Students in an Objective Structured Clinical Examination. Arch Intern Med. 1991;151(3):541. DOI: 10.1001&#47;archinte.1991.00400030089016</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1001&#47;archinte.1991.00400030089016</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Wilkinson TJ</RefAuthor>
        <RefAuthor>Fontaine S</RefAuthor>
        <RefAuthor>Egan T</RefAuthor>
        <RefTitle>Was a breach of examination security unfair in an objective structured clinical examination&#63; A critical incident</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>42-46</RefPage>
        <RefTotal>Wilkinson TJ, Fontaine S, Egan T. Was a breach of examination security unfair in an objective structured clinical examination&#63; A critical incident. Med Teach. 2003;25(1):42-46. DOI: 10.1080&#47;0142159021000061413</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;0142159021000061413</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Brennan PA</RefAuthor>
        <RefAuthor>Croke DT</RefAuthor>
        <RefAuthor>Reed M</RefAuthor>
        <RefAuthor>Smith L</RefAuthor>
        <RefAuthor>Munro E</RefAuthor>
        <RefAuthor>Foulkes J</RefAuthor>
        <RefAuthor>Arnett R</RefAuthor>
        <RefTitle>Does Changing Examiner Stations During UK Postgraduate Surgery Objective Structured Clinical Examinations Influence Examination Reliability and Candidates&#39; Scores&#63;</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>J Surg Educ</RefJournal>
        <RefPage>616-623</RefPage>
        <RefTotal>Brennan PA, Croke DT, Reed M, Smith L, Munro E, Foulkes J, Arnett R. Does Changing Examiner Stations During UK Postgraduate Surgery Objective Structured Clinical Examinations Influence Examination Reliability and Candidates&#39; Scores&#63; J Surg Educ. 2016;73(4):616-623. DOI: 10.1016&#47;j.jsurg.2016.01.010</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.jsurg.2016.01.010</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Chenot JF</RefAuthor>
        <RefTitle>Undergraduate medical education in Germany</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>GMS Ger Med Sic</RefJournal>
        <RefPage>Doc02</RefPage>
        <RefTotal>Chenot JF. Undergraduate medical education in Germany. GMS Ger Med Sic. 2009;7:Doc02. DOI: 10.3205&#47;000061</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;000061</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Scheffer S</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2009</RefYear>
        <RefBookTitle>Validierung des &#34;Berliner Global Rating&#34; (BGR).  Ein Instrument zur Pr&#252;fung kommunikativer Kompetenzen Medizinstudierender im Rahmen klinisch-praktischer Pr&#252;fungen (OSCE)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Scheffer S. Validierung des &#34;Berliner Global Rating&#34; (BGR). Ein Instrument zur Pr&#252;fung kommunikativer Kompetenzen Medizinstudierender im Rahmen klinisch-praktischer Pr&#252;fungen (OSCE) &#91;An instrument for assessing communicative competencies of medical students within the frame of testing clinical skills&#93;. Berlin: Charit&#233; - Universit&#228;tsmedizin Berlin, Medizinische Fakult&#228;t; 2009. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;nbn-resolving.de&#47;urn:nbn:de:kobv:188-fudissthesis000000010951-7</RefTotal>
        <RefLink>http:&#47;&#47;nbn-resolving.de&#47;urn:nbn:de:kobv:188-fudissthesis000000010951-7</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Regehr G</RefAuthor>
        <RefAuthor>Freeman R</RefAuthor>
        <RefAuthor>Robb A</RefAuthor>
        <RefAuthor>Missiha N</RefAuthor>
        <RefAuthor>Heisey R</RefAuthor>
        <RefTitle>OSCE performance evaluations made by standardized patients: comparing checklist and global rating scores</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S135-S137</RefPage>
        <RefTotal>Regehr G, Freeman R, Robb A, Missiha N, Heisey R. OSCE performance evaluations made by standardized patients: comparing checklist and global rating scores. Acad Med. 1999;74(10 Suppl):S135-S137. DOI: 10.1097&#47;00001888-199910000-00064</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199910000-00064</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Ilgen JS</RefAuthor>
        <RefAuthor>Ma IWY</RefAuthor>
        <RefAuthor>Hatala R</RefAuthor>
        <RefAuthor>Cook DA</RefAuthor>
        <RefTitle>A systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>161-173</RefPage>
        <RefTotal>Ilgen JS, Ma IWY, Hatala R, Cook DA. A systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment. Med Educ. 2015;49(2):161-173. DOI: 10.1111&#47;medu.12621</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;medu.12621</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Hodges B</RefAuthor>
        <RefAuthor>McIlroy JH</RefAuthor>
        <RefTitle>Analytic global OSCE ratings are sensitive to level of training</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1012-1016</RefPage>
        <RefTotal>Hodges B, McIlroy JH. Analytic global OSCE ratings are sensitive to level of training. Med Educ. 2003;37(11):1012-1016. DOI: 10.1046&#47;j.1365-2923.2003.01674.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1046&#47;j.1365-2923.2003.01674.x</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Hunter DM</RefAuthor>
        <RefAuthor>Jones RM</RefAuthor>
        <RefAuthor>Randhawa BS</RefAuthor>
        <RefTitle>The use of holistic versus analytic scoring for large-scale assessment of writing</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Can J Prog Eval</RefJournal>
        <RefPage>61-85</RefPage>
        <RefTotal>Hunter DM, Jones RM, Randhawa BS. The use of holistic versus analytic scoring for large-scale assessment of writing. Can J Prog Eval. 1996;11:61-85.</RefTotal>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Wilkinson TJ</RefAuthor>
        <RefAuthor>Frampton CM</RefAuthor>
        <RefAuthor>Thompson-Fawcett M</RefAuthor>
        <RefAuthor>Egan T</RefAuthor>
        <RefTitle>Objectivity in Objective Structured Clinical Examinations: Checklists Are No Substitute for Examiner Commitment</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>219-223</RefPage>
        <RefTotal>Wilkinson TJ, Frampton CM, Thompson-Fawcett M, Egan T. Objectivity in Objective Structured Clinical Examinations: Checklists Are No Substitute for Examiner Commitment. Acad Med. 2003;78(2):219-223. DOI: 10.1097&#47;00001888-200302000-00021</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-200302000-00021</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Kim J</RefAuthor>
        <RefAuthor>Neilipovitz D</RefAuthor>
        <RefAuthor>Cardinal P</RefAuthor>
        <RefAuthor>Chiu M</RefAuthor>
        <RefTitle>A comparison of global rating scale and checklist scores in the validation of an evaluation tool to assess performance in the resuscitation of critically ill patients during simulated emergencies (abbreviated as &#34;CRM simulator study IB&#34;)</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Simul Healthc</RefJournal>
        <RefPage>6-16</RefPage>
        <RefTotal>Kim J, Neilipovitz D, Cardinal P, Chiu M. A comparison of global rating scale and checklist scores in the validation of an evaluation tool to assess performance in the resuscitation of critically ill patients during simulated emergencies (abbreviated as &#34;CRM simulator study IB&#34;). Simul Healthc. 2009;4(1):6-16. DOI: 10.1097&#47;SIH.0b013e3181880472</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;SIH.0b013e3181880472</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Malau-Aduli BS</RefAuthor>
        <RefAuthor>Mulcahy S</RefAuthor>
        <RefAuthor>Warnecke E</RefAuthor>
        <RefAuthor>Otahal P</RefAuthor>
        <RefAuthor>Teague PA</RefAuthor>
        <RefAuthor>Turner R</RefAuthor>
        <RefAuthor>van der Vleuten C</RefAuthor>
        <RefTitle>Inter-Rater Reliability: Comparison of Checklist and Global Scoring for OSCEs</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Creat Educ</RefJournal>
        <RefPage>937-942</RefPage>
        <RefTotal>Malau-Aduli BS, Mulcahy S, Warnecke E, Otahal P, Teague PA, Turner R, van der Vleuten C. Inter-Rater Reliability: Comparison of Checklist and Global Scoring for OSCEs. Creat Educ. 2012; 03:937-942. DOI: 10.4236&#47;ce.2012.326142</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.4236&#47;ce.2012.326142</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Hatala R</RefAuthor>
        <RefAuthor>Marr S</RefAuthor>
        <RefAuthor>Cuncic C</RefAuthor>
        <RefAuthor>Bacchus CM</RefAuthor>
        <RefTitle>Modification of an OSCE format to enhance patient continuity in a high-stakes assessment of clinical performance</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>23</RefPage>
        <RefTotal>Hatala R, Marr S, Cuncic C, Bacchus CM. Modification of an OSCE format to enhance patient continuity in a high-stakes assessment of clinical performance. BMC Med Educ. 2011;11:23. DOI: 10.1186&#47;1472-6920-11-23</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-11-23</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Weitz G</RefAuthor>
        <RefAuthor>Vinzentius C</RefAuthor>
        <RefAuthor>Twesten C</RefAuthor>
        <RefAuthor>Lehnert H</RefAuthor>
        <RefAuthor>Bonnemeier H</RefAuthor>
        <RefAuthor>K&#246;nig IR</RefAuthor>
        <RefTitle>Effects of a rater training on rating accuracy in a physical examination skills assessment</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc41</RefPage>
        <RefTotal>Weitz G, Vinzentius C, Twesten C, Lehnert H, Bonnemeier H, K&#246;nig IR. Effects of a rater training on rating accuracy in a physical examination skills assessment. GMS Z Med Ausbild. 2014;31(4):Doc41. DOI: 10.3205&#47;zma000933</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000933</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Cook DA</RefAuthor>
        <RefAuthor>Dupras DM</RefAuthor>
        <RefAuthor>Beckman TJ</RefAuthor>
        <RefAuthor>Thomas KG</RefAuthor>
        <RefAuthor>Pankratz VS</RefAuthor>
        <RefTitle>Effect of rater training on reliability and accuracy of mini-CEX scores. A randomized, controlled trial</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>J Gen Int Med</RefJournal>
        <RefPage>74-79</RefPage>
        <RefTotal>Cook DA, Dupras DM, Beckman TJ, Thomas KG, Pankratz VS. Effect of rater training on reliability and accuracy of mini-CEX scores. A randomized, controlled trial. J Gen Int Med. 2009;24(1):74-79. DOI: 10.1007&#47;s11606-008-0842-3</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s11606-008-0842-3</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Schleicher I</RefAuthor>
        <RefAuthor>Leitner K</RefAuthor>
        <RefAuthor>Juenger J</RefAuthor>
        <RefAuthor>Moeltner A</RefAuthor>
        <RefAuthor>Ruesseler M</RefAuthor>
        <RefAuthor>Bender B</RefAuthor>
        <RefAuthor>Sterz J</RefAuthor>
        <RefAuthor>Schuettler KF</RefAuthor>
        <RefAuthor>Koenig S</RefAuthor>
        <RefAuthor>Kreuder JG</RefAuthor>
        <RefTitle>Examiner effect on the objective structured clinical exam - a study at five medical schools</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>71</RefPage>
        <RefTotal>Schleicher I, Leitner K, Juenger J, Moeltner A, Ruesseler M, Bender B, Sterz J, Schuettler KF, Koenig S, Kreuder JG. Examiner effect on the objective structured clinical exam - a study at five medical schools. BMC Med Educ. 2017;17(1):71. DOI: 10.1186&#47;s12909-017-0908-1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;s12909-017-0908-1</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Mortsiefer A</RefAuthor>
        <RefAuthor>Karger A</RefAuthor>
        <RefAuthor>Rotthoff T</RefAuthor>
        <RefAuthor>Raski B</RefAuthor>
        <RefAuthor>Pentzek M</RefAuthor>
        <RefTitle>Examiner characteristics and interrater reliability in a communication OSCE</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Pat Educ Couns</RefJournal>
        <RefPage>1230-1234</RefPage>
        <RefTotal>Mortsiefer A, Karger A, Rotthoff T, Raski B, Pentzek M. Examiner characteristics and interrater reliability in a communication OSCE. Pat Educ Couns. 2017;100(6):1230-1234. DOI: 10.1016&#47;j.pec.2017.01.013</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.pec.2017.01.013</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Carson JA</RefAuthor>
        <RefAuthor>Peets A</RefAuthor>
        <RefAuthor>Grant V</RefAuthor>
        <RefAuthor>McLaughlin K</RefAuthor>
        <RefTitle>The effect of gender interactions on students&#39; physical examination ratings in objective structured clinical examination stations</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>1772-1776</RefPage>
        <RefTotal>Carson JA, Peets A, Grant V, McLaughlin K. The effect of gender interactions on students&#39; physical examination ratings in objective structured clinical examination stations. Acad Med. 2010;85(11):1772-1776. DOI: 10.1097&#47;ACM.0b013e3181f52ef8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e3181f52ef8</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Brannick MT</RefAuthor>
        <RefAuthor>Erol-Korkmaz HT</RefAuthor>
        <RefAuthor>Prewett M</RefAuthor>
        <RefTitle>A systematic review of the reliability of objective structured clinical examination scores</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1181-1189</RefPage>
        <RefTotal>Brannick MT, Erol-Korkmaz HT, Prewett M. A systematic review of the reliability of objective structured clinical examination scores. Med Educ. 2011;45(12):1181-1189. DOI: 10.1111&#47;j.1365-2923.2011.04075.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2011.04075.x</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>OSCE - hands on instructions for the implementation of an objective structured clinical examination</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc47</RefPage>
        <RefTotal>Nikendei C, J&#252;nger J. OSCE - hands on instructions for the implementation of an objective structured clinical examination. GMS Z Med Ausbild. 2006;23(3):Doc47. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Reznick RK</RefAuthor>
        <RefAuthor>Blackmore D</RefAuthor>
        <RefAuthor>Dauphinee WD</RefAuthor>
        <RefAuthor>Rothman AI</RefAuthor>
        <RefAuthor>Smee S</RefAuthor>
        <RefTitle>Large-scale High-stakes Testing with an OSCE: Report from the Medical Council of Canada</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S19-S21</RefPage>
        <RefTotal>Reznick RK, Blackmore D, Dauphinee WD, Rothman AI, Smee S. Large-scale High-stakes Testing with an OSCE: Report from the Medical Council of Canada. Acad Med. 1996;71(1 Suppl):S19-S21. DOI: 10.1097&#47;00001888-199601000-00031</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199601000-00031</RefLink>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Hamann C</RefAuthor>
        <RefAuthor>Volkan K</RefAuthor>
        <RefAuthor>Fishman MB</RefAuthor>
        <RefAuthor>Silvestri RC</RefAuthor>
        <RefAuthor>Simon SR</RefAuthor>
        <RefAuthor>Fletcher SW</RefAuthor>
        <RefTitle>How well do second-year students learn physical diagnosis&#63; Observational study of an objective structured clinical examination (OSCE)</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>1-11</RefPage>
        <RefTotal>Hamann C, Volkan K, Fishman MB, Silvestri RC, Simon SR, Fletcher SW. How well do second-year students learn physical diagnosis&#63; Observational study of an objective structured clinical examination (OSCE). BMC Med Educ. 2002;2:1-11. DOI: 10.1186&#47;1472-6920-2-1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-2-1</RefLink>
      </Reference>
      <Reference refNo="36">
        <RefAuthor>Chambers KA</RefAuthor>
        <RefAuthor>Boulet JR</RefAuthor>
        <RefAuthor>Gary NE</RefAuthor>
        <RefTitle>The management of patient encounter time in a high-stakes assessment using standardized patients</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>813-817</RefPage>
        <RefTotal>Chambers KA, Boulet JR, Gary NE. The management of patient encounter time in a high-stakes assessment using standardized patients. Med Educ. 2000;34(10):813-817. DOI: 10.1046&#47;j.1365-2923.2000.00752.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1046&#47;j.1365-2923.2000.00752.x</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Chief complaints with matching scenarios</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Beratungsanl&#228;sse mit dazugeh&#246;rigen Szenarien</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Effect of station and raters on the grade unadjusted for students&#8217; skills</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Einfluss von Station und Pr&#252;ferinnen&#47;Pr&#252;fern auf die Note ohne Ber&#252;cksichtigung der studentischen F&#228;higkeiten</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Effect of station and raters on the grade adjusted for students&#8217; skills</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Einfluss von Station und Pr&#252;ferinnen&#47;Pr&#252;fern auf die Note nach Ber&#252;cksichtigung der studentischen F&#228;higkeiten</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="942" width="672">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: The distribution of the grades is displayed as box plots showing the median (horizontal line), average (diamond) and the interquartile range (lengths of the box). The vertical lines (whiskers) show minimum and maximum values excluding outliers, which are displayed as dots. </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Die Verteilung der Noten wird mittels Boxplots dargestellt mit Median (horizontale Linie), Mittelwert (Raute) und Interquartilenbereichen (L&#228;nge der Boxen). Die vertikalen Linien (Antennen oder Whisker) zeigen Minimal- und Maximalwerte au&#223;er den Ausrei&#223;ern (Punkte) an.  </Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="zma001234.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;1.pdf" size="218478" url="">1en</MediaID>
          <MediaID filename="zma001234.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;1.pdf" size="237414" url="">1de</MediaID>
          <AttachmentTitle language="en">Independence of stations and raters. Information
attachment 1: to assess independence Chi&#178; or
Fisher exact test was calculated.</AttachmentTitle>
          <AttachmentTitle language="de">Unabh&#228;ngigkeit von Stationen und
Pr&#252;ferinnen&#47;Pr&#252;fern. Information zu Anhang 1: Zur
Bewertung der Unabh&#228;ngigkeit wurde Chi&#178; -Test
oder Fisher&#8216;s Exact Test berechnet.</AttachmentTitle>
        </Attachment>
        <Attachment>
          <MediaNo>2</MediaNo>
          <MediaID filename="zma001234.a2en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;2.pdf" size="232204" url="">2en</MediaID>
          <MediaID filename="zma001234.a2de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;2.pdf" size="250314" url="">2de</MediaID>
          <AttachmentTitle language="en">Independence of scenarios. Information attachment
2: to assess independence Chi&#178; or Fisher exact test
was calculated.</AttachmentTitle>
          <AttachmentTitle language="de">Unabh&#228;ngigkeit der Szenarien. Information zu
Anhang 2: Zur Bewertung der Unabh&#228;ngigkeit wurde
Chi&#178; -Test oder Fisher&#8216;s Exact Test berechnet.</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>2</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>