<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001333</Identifier>
    <IdentifierDoi>10.3205/zma001333</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0013336</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Standardized examinees: development of a new tool to evaluate factors influencing OSCE scores and to train examiners</Title>
      <TitleTranslated language="de">Standardisierte Pr&#252;flinge &#8211; Entwicklung eines neuen Instruments zur Beurteilung von Einflussfaktoren auf OSCE-Ergebnisse und zum Einsatz in der Pr&#252;ferschulung</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Zimmermann</Lastname>
          <LastnameHeading>Zimmermann</LastnameHeading>
          <Firstname>Petra</Firstname>
          <Initials>P</Initials>
        </PersonNames>
        <Address language="en">Ludwig-Maximilians-Universit&#228;t M&#252;nchen, Klinikum der Universit&#228;t, Klinik f&#252;r Allgemein-, Viszeral- und Transplantationschirurgie, Marchionini Str. 15, D-81377 M&#252;nchen, Germany, phone: &#43;49 (0)89&#47;4400-711239<Affiliation>Ludwig-Maximilians-Universit&#228;t M&#252;nchen, Klinikum der Universit&#228;t, Klinik f&#252;r Allgemein-, Viszeral- und Transplantationschirurgie, M&#252;nchen, Germany</Affiliation></Address>
        <Address language="de">Ludwig-Maximilians-Universit&#228;t M&#252;nchen, Klinikum der Universit&#228;t, Klinik f&#252;r Allgemein-, Viszeral- und Transplantationschirurgie, Marchionini Str. 15, 81377 M&#252;nchen, Deutschland, Tel.: &#43;49 (0)89&#47;4400-711239<Affiliation>Ludwig-Maximilians-Universit&#228;t M&#252;nchen, Klinikum der Universit&#228;t, Klinik f&#252;r Allgemein-, Viszeral- und Transplantationschirurgie, M&#252;nchen, Deutschland</Affiliation></Address>
        <Email>petra.zimmermann&#64;med.uni-muenchen.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kadmon</Lastname>
          <LastnameHeading>Kadmon</LastnameHeading>
          <Firstname>Martina</Firstname>
          <Initials>M</Initials>
          <AcademicTitle>Prof. Dr. med.</AcademicTitle>
        </PersonNames>
        <Address language="en">
          <Affiliation>Universit&#228;t Augsburg, Medizinische Fakult&#228;t, Gr&#252;ndungsdekanat, Augsburg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Augsburg, Medizinische Fakult&#228;t, Gr&#252;ndungsdekanat, Augsburg, Deutschland</Affiliation>
        </Address>
        <Email>martina.kadmon&#64;med.uni-augsburg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">OSCE</Keyword>
      <Keyword language="en">OSPE</Keyword>
      <Keyword language="en">examiner training</Keyword>
      <Keyword language="en">quality assurance</Keyword>
      <Keyword language="en">standardized examinees</Keyword>
      <Keyword language="de">OSCE</Keyword>
      <Keyword language="de">OSPE</Keyword>
      <Keyword language="de">Pr&#252;ferschulung</Keyword>
      <Keyword language="de">Qualit&#228;tssicherung</Keyword>
      <Keyword language="de">Standardisierte Pr&#252;flinge</Keyword>
      <SectionHeading language="en">OSCE</SectionHeading>
      <SectionHeading language="de">OSCE</SectionHeading>
    </SubjectGroup>
    <DateReceived>20191015</DateReceived>
    <DateRevised>20200223</DateRevised>
    <DateAccepted>20200427</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20200615</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>37</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>40</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Einleitung: </Mark1>Objective Structured Clinical Examinations (OSCE) sind als Format f&#252;r klinisch-praktische Pr&#252;fungen an den meisten medizinischen Fakult&#228;ten etabliert und sollen in Zukunft auch in die humanmedizinischen Staatspr&#252;fungen integriert werden. Einfl&#252;sse auf die Pr&#252;fungsergebnisse durch Pr&#252;ferverhalten sind beschrieben. Fehlbeurteilungen der studentischen Leistungen resultieren beispielsweise durch systematische Nachsicht, durch Inkonsistenz in der Beurteilung, durch Halo-Effekte oder auch durch fehlende Differenzierung von Leistungen &#252;ber die gesamte Bewertungsskala. Ziel der vorliegenden Arbeit war es ein Qualit&#228;tssicherungsinstrument zu entwickeln, das zuk&#252;nftig die &#220;berpr&#252;fung von Einflussfaktoren auf Bewertungen in einem realen OSCE ebenso wie eine gezielte Pr&#252;fer-Schulung erm&#246;glicht. </Pgraph><Pgraph><Mark1>Material, Methoden und Studierende: </Mark1>Zw&#246;lf Studierende der Medizinischen Fakult&#228;t Heidelberg wurden trainiert, eine definierte Leistung f&#252;r jeweils eine chirurgische OSCE-Station zu erbringen. Es wurde ein Niveau f&#252;r eine exzellente und eine Borderline-Leistung festgelegt und operationalisiert. Im ersten Teil der Studie wurde in einem &#220;berpr&#252;fungs-OSCE die standardisierte Leistung dreimal hintereinander mit unterschiedlichen Pr&#252;fern&#47;innen &#252;berpr&#252;ft, bewertet und auf Video aufgenommen. Eine zus&#228;tzliche quantitative und qualitative Bewertung erfolgte durch die Studienleiterin anhand der Videoanalyse. </Pgraph><Pgraph>Im zweiten Teil der Studie wurden die Videoaufnahmen genutzt um die Akzeptanz f&#252;r Standardisierte Pr&#252;flinge bei Pr&#252;fern&#47;innen zu erheben und potentielle Einfl&#252;sse auf die Leistungsbewertung durch die Pr&#252;fererfahrung zu analysieren.  </Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Im ersten Teil der Studie zeigten die Bewertungen im OSCE und die nachfolgende Videoanalyse, dass eine Standardisierung f&#252;r definierte Leistungsniveaus an verschiedenen OSCE-Stationen grunds&#228;tzlich m&#246;glich ist. Einzelne Abweichungen von den erwarteten Antworten wurden beobachtet und traten vor allem mit zunehmender inhaltlicher Komplexit&#228;t der OSCE-Station auf. </Pgraph><Pgraph>Im zweiten Studienteil bewerteten unerfahrene Pr&#252;fer&#47;innen eine Borderline-Leistung signifikant schlechter als ihre erfahrenen Kolleg&#47;innen (13,50 vs. 15,15, p&#61;0,035). In der Bewertung der &#8222;Exzellenten Pr&#252;flinge&#8220; zeigte sich kein Unterschied. Beide Pr&#252;fergruppen bewerteten das Item &#8222;Soziale Kompetenz&#8220; &#8211; trotz identischer Standardisierung - bei Pr&#252;flingen mit einer Borderline-Leistung signifikant schlechter im Vergleich zu den &#8222;Exzellenten Pr&#252;flingen&#8220; (4,13 vs. 4,80, p&#60;0,001)</Pgraph><Pgraph><Mark1>Schlussfolgerung:</Mark1> Die Standardisierung von Pr&#252;flingen f&#252;r zuvor definierte Leistungsniveaus ist m&#246;glich, wodurch zuk&#252;nftig ein neues Instrument sowohl zur Qualit&#228;tssicherung in OSCE-Pr&#252;fungen als auch zur Pr&#252;ferschulung zur Verf&#252;gung steht. Eine detaillierte Vorbereitung der OSCE-Checklisten ebenso wie ein intensives Training mit den Pr&#252;flingen sind dabei unerl&#228;sslich. </Pgraph><Pgraph>Dieses neue Instrument gewinnt besondere Bedeutung, wenn standardisierte OSCE-Pr&#252;fungen in die medizinischen Staatsexamina integriert und somit als high-stakes Examen eingesetzt werden.  </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Introduction: </Mark1>The Objective Structured Clinical Examination (OSCE) is an established format for practical clinical assessments at most medical schools and discussion is underway in Germany to make it part of future state medical exams. Examiner behavior that influences assessment results is described. Erroneous assessments of student performance can result, for instance, from systematic leniency, inconsistent grading, halo effects, and even a lack of differentiation between the tasks to be performed over the entire grading scale. The aim of this study was to develop a quality assurance tool that can monitor factors influencing grading in a real OSCE and enable targeted training of examiners.</Pgraph><Pgraph><Mark1>Material, Methods and Students:</Mark1> Twelve students at the Medical Faculty of the University of Heidelberg were each trained to perform a defined task for a particular surgical OSCE station. Definitions were set and operationalized for an excellent and a borderline performance. In a simulated OSCE during the first part of the study, the standardized student performances were assessed and graded by different examiners three times in succession; video recordings were made. Quantitative and qualitative analysis of the videos was also undertaken by the study coordinator.</Pgraph><Pgraph>In the second part of the study, the videos were used to investigate the examiners&#8217; acceptance of standardized examinees and to analyze potential influences on scoring that stemmed from the examiners&#8217; experience.</Pgraph><Pgraph><Mark1>Results:</Mark1> In the first part of the study, the OSCE scores and subsequent video analysis showed that standardization for defined performance levels at different OSCE stations is generally possible. Individual deviations from the prescribed examinee responses were observed and occurred primarily with increased complexity of OSCE station content.</Pgraph><Pgraph>In the second part of the study, inexperienced examiners assessed a borderline performance significantly lower than their experienced colleagues (13.50 vs. 15.15, p&#61;0.035). No difference was seen in the evaluation of the excellent examinees. Both groups of examiners graded the item &#8220;ocial competence&#8221; &#8211; despite identical standardization &#8211; significantly lower for examinees with borderline performances than for excellent examinees (4.13 vs. 4.80, p&#60;0.001).</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> Standardization of examinees for previously defined performance levels is possible, making a new tool available in future not only for OSCE quality assurance, but also for training examiners. Detailed preparation of the OSCE checklists and intensive training of the examinees are essential.</Pgraph><Pgraph>This new tool takes on a special importance if standardized OSCEs are integrated into state medical exams and, as such, become high-stakes assessments.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>The Objective Structured Clinical Examination (OSCE) is an established assessment format at most medical schools and is especially suited for evaluating practical clinical skills <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>,    <TextLink reference="15"></TextLink>. An AMEE guideline defines binding standards and metrics for ensuring the quality of OSCEs <TextLink reference="9"></TextLink>. The creation of blueprints for both the exam content and the exam format is recommended for all required assessments. A blueprint mapping out exam content and the corresponding stations for the respective subject areas should also form the basis of an OSCE. Based on the blueprint, checklists are created and critically reviewed, and standards are set for performance expectations. A good reliability and inter-rater reliability can be achieved through a sufficient number of OSCE stations, regular standard setting, adaption of the checklists, and regular examiner training. Test statistical analysis of the results should be used to detect problems with the checklists or examiners and to minimize problems by regularly repeating the process described above <TextLink reference="9"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>.</Pgraph><Pgraph>Many studies analyze potential factors that influence OSCE scores. These factors take on particular importance when the assessment format is used for a high-stakes exam, as is currently being discussed in Germany in regard to the state medical examinations <TextLink reference="19"></TextLink>. Harasym et al. were able to show that stringency or leniency on the part of the examiners can lead to scores that are systematically too high or too low <TextLink reference="13"></TextLink>. The student&#8217;s performance level also appears to influence the reliability of the scores given by examiners. Byrne et al. describe that a good student performance was evaluated with more precision than a borderline performance <TextLink reference="4"></TextLink>. Yeates et al. determined in several studies that a good performance was graded higher if the performance immediately prior to it was a poor one <TextLink reference="7"></TextLink>, <TextLink reference="20"></TextLink>. At the same time, a borderline performance was assessed lower if the examiner had observed a good performance immediately before. In addition, the effects on grading as a result of halo effects and a lack of differentiation on the entire grading scale have also been described <TextLink reference="21"></TextLink>. Schleicher et al. were able to show in a study encompassing multiple medical schools that student performances were assessed differently by local and central examiners. Simultaneously, a trend was seen toward different grading behavior depending on the genders of the examiners and examinees <TextLink reference="22"></TextLink>.</Pgraph><Pgraph>All previous studies on potential influencing factors and on quality assurance of the test format are based on analyses of results from live observations or videos of OSCEs. Although these analyses are based on OSCEs that, in general, were preceded by a standardized briefing of the examiners, they were, however, subject to potential influences stemming from the examinees and were not standardized, so that, ultimately, examiner characteristics could not be fully isolated for analysis.</Pgraph><Pgraph>A suitable tool does not yet exist to simulate potential influences stemming from the examinee for direct analysis of such influences on examiner behavior and exam results. At the same time, no suitable tool has been available to train examiners in a targeted manner regarding the potential limitations concerning the reliability of grading OSCE performance.</Pgraph><Pgraph>Simulated patients are now an integral part of medical education and medical assessments. They offer an opportunity to practice physician-patient interactions in a safe environment and these patients can play an assigned role in a standardized manner. At the same time, it is possible to vary the individual parameters, e.g. the simulated patient&#8217;s reaction or the extent of the disease, to simulate different situations for students <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Based on the concept of simulated patients, it was our aim to transfer this concept of standardization to student performance on an OSCE. In the first part of this study, we investigated the possibility of training students to reproduce a defined performance on an OSCE. In the second part, we used the video recordings from the first part to analyze the influence of examiner experience on the grades they assigned for the performances and to evaluate the basic acceptance of standardized examinees by examiners.</Pgraph><Pgraph>As a result, there is a new tool for OSCE quality assurance that also enables the identification of individual factors influencing assessment and the targeted training of examiners in the future.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Objective Structured Clinical Examinations (OSCEs) sind an den meisten medizinischen Fakult&#228;ten als Pr&#252;fungsform etabliert und eignen sich besonders zur Beurteilung klinisch-praktischer Fertigkeiten <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. In einem Leitlinienpapier der AMEE wurden verbindlich Standards und Messgr&#246;&#223;en f&#252;r die Qualit&#228;tssicherung von OSCEs definiert <TextLink reference="9"></TextLink>. F&#252;r alle erforderlichen Pr&#252;fungen wird empfohlen, einen Blueprint sowohl f&#252;r die Pr&#252;fungsinhalte als auch f&#252;r eingesetzte Pr&#252;fungsformate zu erstellen. Grundlage f&#252;r jeden OSCE sollte ebenfalls ein Blueprint sein, der die Pr&#252;fungsinhalte und zugeordnete Pr&#252;fungsstationen respektive Fachbereiche beinhaltet. Basierend auf dem Blueprint werden entsprechende Checklisten erstellt, diese in einem Review &#252;berpr&#252;ft und die Leistungserwartungen anhand eines Standardsettings festgelegt. Durch eine ausreichende Anzahl an OSCE-Stationen, regelm&#228;&#223;ige Standardsettings und Adaptationen der verwendeten Checklisten sowie regelm&#228;&#223;ige Pr&#252;fereinweisungen wird eine gute Reliabilit&#228;t und Interrater-Reliabilit&#228;t erreicht. Teststatistische Auswertungen der Ergebnisse sollten herangezogen werden, um Probleme seitens der Checklisten oder der Pr&#252;fer&#47;innen zu detektieren und durch regelm&#228;&#223;ige Wiederholung des oben beschriebenen Prozesses zu minimieren <TextLink reference="9"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>. </Pgraph><Pgraph>Zahlreiche Untersuchungen analysieren potentielle Einflussfaktoren auf die Ergebnisse in einem OSCE. Diesen Einflussfaktoren kommt eine besondere Bedeutung zu, wenn das Pr&#252;fungsformat in High Stakes Pr&#252;fungen eingesetzt wird, wie es gerade in Deutschland f&#252;r die medizinischen Staatspr&#252;fungen in Diskussion ist <TextLink reference="19"></TextLink>. Harasym und Kollegen konnten zeigen, dass Strenge oder Nachsichtigkeit seitens der Pr&#252;fer&#47;innen zu einer systematischen zu schlechten oder zu guten Bewertung f&#252;hren k&#246;nnen <TextLink reference="13"></TextLink>. Auch das Leistungsniveau eines Studierenden scheint die Reliabilit&#228;t der Leistungsbewertung durch Pr&#252;fer&#47;innen zu beeinflussen. Byrne et al. beschrieben, dass eine gute Studierenden-Leistung exakter bewertet wurde als eine Borderline-Leistung <TextLink reference="4"></TextLink>. Yeates und Kollegen stellten in mehreren Untersuchungen fest, dass eine gute Leistung beispielsweise besser bewertet wird, wenn die zuvor bewertete Leistung schlecht war <TextLink reference="7"></TextLink>, <TextLink reference="20"></TextLink>. Gleichzeitig wurde eine Borderline-Leistung schlechter bewertet, wenn der&#47;die Pr&#252;fer&#47;Pr&#252;ferin zuvor eine gute Leistung beurteilt hatte.  Dar&#252;ber hinaus wurden Auswirkungen auf die Bewertung durch Halo-Effekte und fehlende Leistungsdifferenzierung &#252;ber die gesamte Bewertungsskala beschrieben <TextLink reference="21"></TextLink>. Schleicher und Kollegen konnten in einer Fakult&#228;ten-&#252;bergreifenden Untersuchung zeigen, dass studentische Leistungen unterschiedlich von lokalen und Referenz-Pr&#252;fern&#47;innen bewertet wurden. Gleichzeitig zeigte sich ein Trend zu unterschiedlichen Bewertungen abh&#228;ngig vom Geschlecht der Pr&#252;fer und der Pr&#252;flinge <TextLink reference="22"></TextLink>. </Pgraph><Pgraph>Alle bisherigen Untersuchungen zu potentiellen Einflussfaktoren und zur Qualit&#228;tssicherung des Pr&#252;fungsformats basieren auf Analysen der Ergebnisse aus live Beobachtungen oder Video-Analysen von OSCEs. Zwar basieren diese Analysen auf OSCEs, denen im Allgemeinen eine standardisierte Pr&#252;fereinweisung vorausging, potentielle Einflussgr&#246;&#223;en seitens der Pr&#252;flinge unterliegen, aber keiner Standardisierung, sodass letztlich Pr&#252;fer-Eigenschaften nicht v&#246;llig isoliert beurteilt werden k&#246;nnen.</Pgraph><Pgraph>Ein geeignetes Instrument, das es erm&#246;glicht potentielle Einflussgr&#246;&#223;en auf Seite des Pr&#252;flings zu simulieren, um so eine direkte Analyse der entstehenden Auswirkungen auf das Pr&#252;fer-Verhalten und die Ergebnisse zu erm&#246;glichen, existiert bisher nicht. Gleichzeitig steht bislang kein geeignetes Instrument zur Verf&#252;gung, um Pr&#252;fer&#47;innen im Hinblick auf potentielle Einschr&#228;nkungen in der Reliabilit&#228;t der Bewertung von Leistungen in einem OSCE gezielt zu schulen.</Pgraph><Pgraph>Simulationspatienten stellen mittlerweile einen integralen Bestandteil der medizinischen Ausbildung und auch medizinischer Pr&#252;fungen dar. Sie bieten die M&#246;glichkeit Gespr&#228;chs- und Untersuchungssituationen in einem gesch&#252;tzten Rahmen zu &#252;ben und k&#246;nnen eine Rolle immer wieder in standardisierter Weise spielen. Gleichzeitig besteht hierdurch die M&#246;glichkeit einzelne Parameter, z.B. die Reaktion des Simulationspatienten oder das Ausma&#223; der Erkrankung, zu variieren um so unterschiedliche Situationen f&#252;r den Studierenden zu simulieren <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>. </Pgraph><Pgraph>Basierend auf dem Konzept der Simulationspatienten war es unser Ziel, dieses Konzept der Standardisierung auf die studentische Leistung in einem OSCE zu &#252;bertragen. Im ersten Studienteil der vorliegenden Arbeit wird &#252;berpr&#252;ft, ob es m&#246;glich ist, Studierende zu trainieren eine definierte Leistung wiederholt in einem OSCE zu erbringen. Im zweiten Studienteil wird anhand der generierten Videosequenzen aus dem ersten Studienteil der Einfluss der Pr&#252;fererfahrung auf die Leistungsbewertung analysiert und die prinzipielle Akzeptanz f&#252;r Standardisierte Pr&#252;flinge unter Pr&#252;fern&#47;innen evaluiert. </Pgraph><Pgraph>Hierdurch konnte ein neues Instrument zur Qualit&#228;tssicherung in einem OSCE etabliert werden, das gleichzeitig erm&#246;glicht, einzelne Einflussfaktoren auf die Bewertung zu identifizieren und Pr&#252;fer&#47;innen zuk&#252;nftig gezielt zu schulen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Material, methods and students">
      <MainHeadline>Material, methods and students</MainHeadline><Pgraph>Twelve students were each trained to perform in a standardized manner at three different stations of the OSCE on surgery at the Medical Faculty of the University of Heidelberg. Per station, two students were taught to give a standardized excellent performance and two students to give a standardized borderline performance; there was one female and one male student for each performance level. A student who had been prepared to give an excellent performance at the OSCE abdominal examination station was unable to participate on short notice for health reasons.</Pgraph><Pgraph>The score for an excellent performance was defined as the maximum number of possible points on the checklist, minus no more than two points; a borderline performance was the required minimum number of points to pass, plus or minus one point (minimal competency).</Pgraph><Pgraph>The lowest passing score for the entire OSCE is the sum total of all minimum competencies on Heidelberg&#8217;s surgical OSCE.</Pgraph><Pgraph>Figure 1 <ImgLink imgNo="1" imgType="figure"/> illustrates the study design; figure 1A <ImgLink imgNo="1" imgType="figure"/> describes the first part of the study and figure 1B <ImgLink imgNo="1" imgType="figure"/> the second.</Pgraph><SubHeadline2>OSCE checklists</SubHeadline2><Pgraph>Three checklists were selected whose use was already well established in the surgical OSCE and which had undergone repeated internal review. These checklists were for the following OSCE stations:</Pgraph><Pgraph><UnorderedList><ListItem level="1"><Mark2>Management of a patient with sigmoid diverticulitis;</Mark2></ListItem><ListItem level="1"><Mark2>Management of a patient with suspected rectal carcinoma;</Mark2></ListItem><ListItem level="1"><Mark2>Abdominal examination.</Mark2></ListItem></UnorderedList></Pgraph><Pgraph>All of the checklists had a minimum of 0 and a maximum of 25 points. Each checklist consisted of five items, for which a maximum of five points each could be given. Each item covered a different number of required answers.</Pgraph><Pgraph>Minimal competency was defined as the number of points on a checklist necessary to pass. This also defines the minimum expectancy for each station based on the checklists and is routinely reviewed and defined by way of internal standard setting. The minimal competency for the checklists used was 17 points.</Pgraph><Pgraph>The maximum length of time for the exam was nine minutes per checklist; one minute was given to move between stations. The checklists also listed the grading subcategories (e.g. anamnesis, clinical exam, etc.) and the relevant individual items for assigning points:</Pgraph><Pgraph><UnorderedList><ListItem level="1">5 points: all items completed without assistance;</ListItem><ListItem level="1">3 points: all items completed in full with assistance from the examiner;</ListItem><ListItem level="1">1 point: items were not fully completed despite assistance from the examiner.</ListItem></UnorderedList></Pgraph><Pgraph>It is clear for each graded category whether points should be given globally for overall impression or on the basis of answers to individual items.</Pgraph><Pgraph>Each checklist contains a brief case vignette, a task for each individual item, and the expected answers. Possible questions asked along the way by the examiner are not predefined.</Pgraph><Pgraph>The station checklists for <Mark2>sigmoid diverticulitis and rectal carcinoma</Mark2> cover the taking of the standardized patient&#8217;s history (item 1), the determination of differential diagnoses based on the case history details (item 2), the decision which suitable diagnostics should be done in the actual situation (item 3), and for the sigmoid diverticulitis station, the description of a CT image from the patient case. Item 4 on both checklists covers the interaction with the standard patient regarding further diagnostic&#47;therapeutic measures. Item 5 evaluates social competence. This also includes the extent to which the students adequately introduce themselves to the patients, how they behave toward the patients, for instance, if they are able to keep eye contact.</Pgraph><Pgraph>The checklist for the abdominal examination station covers the sequential steps to examine a patient with lower abdominal pain on the right side (item 1), checking for signs of peritonitis (item 2), explaining the performance of a digital rectal exam and the findings (item 3), examining the liver (item 4), and examining the spleen (item 5).</Pgraph><SubHeadline2>Modification of the OSCE checklists</SubHeadline2><Pgraph>To standardize the performance of the standardized examinees and to verify that this performance can be reproduced repeatedly, two new versions of the existing checklists used for the surgical OSCE were generated.</Pgraph><SubHeadline2>Checklists to standardize the examinees</SubHeadline2><Pgraph>To standardize the examinees, all of the checklists were operationalized in detail. For the two defined levels of performance, it was determined for each possible answer to a checklist item, whether the examinees should respond with a certain answer or not. In another field it was noted how the examinees should conduct themselves when asked a particular question, e.g. to answer hesitantly or only when prompted (see figure 2 <ImgLink imgNo="2" imgType="figure"/>).</Pgraph><SubHeadline2>Checklists for evaluating performance</SubHeadline2><Pgraph>For the examiner to grade the performance, the evaluation part of the OSCE checklists was modified so that the examiner could note for each possible answer to each task whether or not that answer had been given (see figure 3 <ImgLink imgNo="3" imgType="figure"/>). To eliminate potential systematic differences in assessment by the examiners, we did not carry out the standardization of the evaluation at the performance level using a global point value for each item, as is done in a real OSCE. A section was added at the end of the checklist in which the examiner was meant to evaluate the performance level using a global grading scale (poor, mediocre, very good) and the authenticity. Concerning the latter, the examiners were asked to evaluate the extent to which they doubted having a real examinee in front of them.</Pgraph><Pgraph>The examiners received the standardized assessment instructions for the surgical OSCE. However, they were instructed not to give any points for the individual items, but rather to tick each possible answer and indicate whether or not it had been given. The examiners were informed only after the OSCE that a standardization of student performance had been undertaken.</Pgraph><SubHeadline2>Standardized students</SubHeadline2><Pgraph>All 12 students had already completed the Surgery Block and taken the OSCE on surgery. The Surgical Block lasts for one semester and covers the subjects of visceral, vascular, thoracic and heart surgery, urology, orthopedics and trauma surgery, hand and plastic surgery, along with anesthesiology and emergency medicine. Lectures and seminars on pathology and radiology are integrated into the individual subject disciplines.</Pgraph><Pgraph>The students were given the checklists for training. The roles and the expected answers on the modified checklists were discussed in detail with each student. After two weeks to learn the checklists and roles, the test situation was simulated between the students and the study coordinator and corrections were made. As this was done, general challenges were discussed at first and then simulated in real-time as a test situation. Feedback was then given on the necessary changes.</Pgraph><SubHeadline2>First part of the study</SubHeadline2><SubHeadline3>Process of standardization</SubHeadline3><Pgraph>In the first part of this study (see figure 1 <ImgLink imgNo="1" imgType="figure"/>, left A), standardization was carried out in a simulated OSCE that was held under real test conditions (time, time to change stations, etc.). The standardized examinees played their roles three times for three different examiners (one male examiner and two female examiners) and were recorded on video. In an additional second step, the videos were analyzed quantitatively and quantitatively by the study coordinator using the modified checklists so that there were six evaluations for each student.</Pgraph><Pgraph>When carrying out the quantitative analysis, the deviations were counted based on the prescribed answers that were supposed to have been given. The instances in which too many or too few answers were given were counted in relation to the correct number of expected answers. The mean percentages of the deviations were calculated for all OSCE run-throughs (3 test situations) and for the quantitative analysis from the subsequent video analysis.</Pgraph><Pgraph>When carrying out the qualitative analysis, the overall impression was evaluated first: The examinee appeared to be authentic (yes&#47;no) and stayed in the standardized role. The following aspects were also evaluated:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Conduct of the examinee when giving answers (appears confident, unconfident, tends to recite lists);</ListItem><ListItem level="1">Reaction of the examinee to the examiner&#8217;s behavior&#47;questions (stays in the role, deviates from the prescribed answers, lets him or herself be forced to give answers);</ListItem><ListItem level="1">Reaction of the examinee to the standard patient&#8217;s behavior&#47;questions (stays in the role, deviates from the prescribed answers, lets him or herself be forced to give answers);</ListItem><ListItem level="1">Conduct of the examiners;</ListItem><ListItem level="1">Conduct of the standard patients.</ListItem></UnorderedList></Pgraph><Pgraph>The study coordinator shared responsibility for the organization of the Surgery Block and had acted as an examiner more than 20 times in surgical OSCEs. In addition, she was experienced in the writing of OSCE checklists and exam questions. This study was carried out within the scope of her master&#8217;s thesis to attain a Master of Medical Education in Germany (MME-D).</Pgraph><SubHeadline2>Second part of the study</SubHeadline2><SubHeadline3>Analysis of the influence of examiner experience on performance assessment</SubHeadline3><Pgraph>In the second part of the study (see figure 1 <ImgLink imgNo="1" imgType="figure"/>, right B), the videos were used to investigate the influence of examiner experience on performance assessment and their acceptance of the standardized examinees. Ten experienced and ten inexperienced examiners watched the video recording of the OSCE station on sigmoid diverticulitis. Experienced examiners had participated at least three times or more in an OSCE and&#47;or had more than five years of clinical experience. Inexperienced examiners were those who had served a maximum of two times as an OSCE examiner and&#47;or had less than five years of clinical experience.</Pgraph><Pgraph>The original checklists from the surgical OSCE administered by the Medical Faculty of Heidelberg University were used to grade performance and required the assignment of one to five points for each item.</Pgraph><Pgraph>A briefing was held to impart general information on administering the test. The following instructions were given:</Pgraph><Pgraph><UnorderedList><ListItem level="1">The students perform a specific task which must be evaluated. No detailed information was given regarding the performance levels.</ListItem><ListItem level="1">The evaluation must be made based on what is contained in the checklists.</ListItem><ListItem level="1">Five points may only be assigned for a task if all items were accomplished without assistance.</ListItem><ListItem level="1">Three points may only be assigned for a task if all items were fully completed with the assistance of the examiner.</ListItem><ListItem level="1">One point may be given for a task if it was done incompletely despite the assistance of the examiner.</ListItem><ListItem level="1">Stopping and rewinding the video to view it again was not permitted.</ListItem><ListItem level="1">All four test situations must be viewed in sequence and without interruption.</ListItem></UnorderedList></Pgraph><Pgraph>The examiners were only informed after evaluating the videos that the students had been standardized to perform at a defined level.</Pgraph><SubHeadline3>Acceptance of standardized examinees</SubHeadline3><Pgraph>After evaluating all of the test situations, all of the examiners were surveyed to evaluate the acceptance of standardized examinees and their possible uses. The following was asked directly:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Assessing the performance was easy for me.</ListItem><ListItem level="1">I would find it easier to assess in a real test situation.</ListItem><ListItem level="1">The assessment of the performance was difficult for me.</ListItem><ListItem level="1">The assessment of performance by good examinees was easy for me.</ListItem><ListItem level="1">The assessment of performance by poor examinees was easy for me. </ListItem><ListItem level="1">I find it makes sense to use standardized examinees to prepare inexperienced examiners.</ListItem><ListItem level="1">Training with video recordings (as opposed to training in a simulated OSCE) is sufficient to prepare examiners.</ListItem><ListItem level="1">Inexperienced examiners should be trained using standardized examinees before conducting real assessments.</ListItem><ListItem level="1">Experienced examiners should simulate test situations using standardized examinees.</ListItem><ListItem level="1">Targeted training of examiners using standardized examinees can make the OSCE objective.</ListItem><ListItem level="1">The performance of the standardized examinees was authentic.</ListItem></UnorderedList></Pgraph><Pgraph>The evaluation was done using a five-point Likert scale with 1&#61;<Mark2>completely disagree</Mark2> to 5&#61;<Mark2>completely agree</Mark2>.</Pgraph><SubHeadline3>Statistical analysis</SubHeadline3><Pgraph>Only a purely descriptive and qualitative analysis was carried out for the first part of the study due to the small cohorts and the individual approaches. Further statistical tests were not applied. The OSCE answer sheets were analyzed as to whether too many or too few answers had been given. Later, the study coordinator used the video recordings to analyze which difficulties arose when answering the questions. All of the quantitative analyses based on the OSCE checklists and the secondary video analysis were compiled and the percentages of deviations from the prescribed answers were calculated for all of the evaluations (see table 1 <ImgLink imgNo="1" imgType="table"/>).</Pgraph><Pgraph>For the second part of the study, the results of the comparison between experienced and inexperienced examiners are presented as mean values with standard deviation, if not otherwise indicated. The quantitative parameters were analyzed using the two-sided T-test. Categorical variables are given as absolute values. Statistical significance is assumed when the p-value is &#60;0.05. Statistical analysis was carried out using IBM SPSS Statistics 25 software.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Material, Methoden &#38; Studierende">
      <MainHeadline>Material, Methoden &#38; Studierende</MainHeadline><Pgraph>Zw&#246;lf Studierende wurden f&#252;r eine standardisierte Leistung an drei verschiedenen Stationen der chirurgischen OSCE-Pr&#252;fung an der Medizinischen Fakult&#228;t Heidelberg trainiert. Pro Station wurden jeweils 2 Studierende f&#252;r eine hervorragende (Exzellente Leistung) und zwei Studierende f&#252;r eine grenzwertige Leistung (Borderline-Leistung) standardisiert, jeweils eine weibliche Studierende und ein m&#228;nnlicher Studierender pro Leistungsniveau.  Ein Studierender, der f&#252;r eine exzellente Leistung f&#252;r die OSCE-Station &#8222;Abdominelle Untersuchung&#8220; vorbereitet war, konnte krankheitsbedingt kurzfristig nicht an der Studie teilnehmen. </Pgraph><Pgraph>Als exzellente Leistung wurde das Erreichen der H&#246;chstpunktzahl mit einem maximalen Abzug von 2 Punkten definiert, als Borderline-Leistung das Erreichen der minimal erwarteten Punktzahl f&#252;r das Bestehen der jeweiligen Checkliste (Minimalkompetenz) &#177; 1 Punkt.</Pgraph><Pgraph>Die Summe aller Minimalkompetenzen innerhalb des Heidelberger chirurgischen OSCE, stellt die Bestehensgrenze f&#252;r den Gesamt-OSCE dar.</Pgraph><Pgraph>Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> stellt schematisch das Studiendesign dar, Abbildung 1A <ImgLink imgNo="1" imgType="figure"/> beschreibt den ersten und Abbildung 1B <ImgLink imgNo="1" imgType="figure"/> den zweiten Studienteil.</Pgraph><SubHeadline2>OSCE Checklisten</SubHeadline2><Pgraph>Es wurden drei bereits im chirurgischen OSCE gut etablierte und mehrfach in internen Reviews &#252;berpr&#252;fte Checklisten ausgew&#228;hlt. Die Checklisten bezogen sich auf folgende OSCE-Stationen:</Pgraph><Pgraph><UnorderedList><ListItem level="1"><Mark2>Management eines Patienten mit Sigmadivertikulitis</Mark2></ListItem><ListItem level="1"><Mark2>Management eines Patienten mit V.a. Rektumkarzinom</Mark2></ListItem><ListItem level="1"><Mark2>Abdominelle Untersuchung</Mark2></ListItem></UnorderedList></Pgraph><Pgraph>Alle Checklisten sind auf eine Minimalpunktzahl von 0 und auf eine Maximalpunktzahl von 25 Punkten ausgelegt. Jede Checkliste besteht aus 5 Teilaufgaben (Items), die jeweils mit maximal 5 Punkten bewertet werden k&#246;nnen. Jedes Item umfasst unterschiedlich viele geforderte Antworten. </Pgraph><Pgraph>Die Minimalkompetenz bezeichnet die Punktzahl, die zum Bestehen der einzelnen Checkliste erreicht werden muss. Sie ist als minimale Erwartung an der jeweiligen Station auf der Basis der vorliegenden Checkliste definiert. Sie wird regelm&#228;&#223;ig &#252;berpr&#252;ft und im internen Standardsetting festgelegt. Die Minimalkompetenzen f&#252;r die hier verwendeten Checklisten liegen bei 17 Punkten. </Pgraph><Pgraph>Die maximale Pr&#252;fungsdauer pro Checkliste betr&#228;gt 9 Minuten, die Wechselzeit zur n&#228;chsten Station eine Minute. Auf den Checklisten sind die &#252;bergeordneten Bewertungskategorien (z.B. Anamneseerhebung, klinische Untersuchung, etc.) und zugeordnete Einzelitems zur Punktevergabe ausgewiesen:</Pgraph><Pgraph><UnorderedList><ListItem level="1">5 Punkte: s&#228;mtliche Leistungen ohne Hilfe erbracht</ListItem><ListItem level="1">3 Punkte: s&#228;mtliche Leistungen mit Hilfe des Pr&#252;fers vollst&#228;ndig erbracht</ListItem><ListItem level="1">1 Punkt: Leistungen mit Hilfe des Pr&#252;fers unvollst&#228;ndig erbracht</ListItem></UnorderedList></Pgraph><Pgraph>F&#252;r jede Bewertungskategorie ist angegeben, ob eine Punktevergabe global f&#252;r den Gesamteindruck oder auf der Basis von Antworten auf die Einzelitems erfolgen soll. </Pgraph><Pgraph>Jede Checkliste enth&#228;lt eine kurze Fallvignette sowie pro Einzelitem eine Aufgabenstellung und die erwarteten Antworten. M&#246;gliche Zwischenfragen durch die Pr&#252;fer&#47;innen sind nicht vordefiniert. </Pgraph><Pgraph>Die Checklisten zur<Mark2> Sigmadivertikulitis</Mark2> und zum <Mark2>Rektumkarzinom</Mark2> beinhalten ein Anamnesegespr&#228;ch mit einem Standardpatienten (Item 1), die Ableitung von Differentialdiagnosen aus den anamnestischen Details (Item 2), die Entscheidung, welche geeigneten diagnostischen Ma&#223;nahmen in der konkreten Situation eingeleitet werden sollen (Item 3) sowie bei der <Mark2>Sigmadivertikulitis</Mark2> die Beschreibung eines CT-Ausschnitts zu dem Patientenfall. Item 4 umfasst bei beiden Checklisten wieder die Interaktion mit dem Standardpatienten zum weiteren diagnostischen&#47;therapeutischen Vorgehen. Item 5 beurteilt die soziale Kompetenz. Dabei wird unter anderem beurteilt in wie weit der Studierende sich dem Patienten ad&#228;quat vorgestellt hat, sich gegen&#252;ber dem Patienten verh&#228;lt, z.B. ob Blickkontakt gehalten werden kann. </Pgraph><Pgraph>Die Checkliste <Mark2>Abdominelle Untersuchung</Mark2> umfasst sequentiell eine abdominelle Untersuchung bei einem Patienten mit rechtsseitigen Unterbauchschmerzen (Item 1), &#220;berpr&#252;fung der Peritonitiszeichen (Item 2), die Erl&#228;uterung zur Durchf&#252;hrung und Befundung einer digital-rektalen Untersuchung (Item 3), die Untersuchung der Leber (Item 4) und die Untersuchung der Milz (Item 5).</Pgraph><SubHeadline2>Modifikation der OSCE Checklisten </SubHeadline2><Pgraph>Zur Durchf&#252;hrung der Standardisierung der Leistung der Standardisierten Pr&#252;flunge sowie zur &#220;berpr&#252;fung, ob diese Leistung mehrfach wiederholt werden kann, wurden aus den f&#252;r den chirurgischen OSCE vorliegenden Checklisten jeweils 2 neue Versionen generiert.</Pgraph><SubHeadline2>Checklisten zur Standardisierung der Pr&#252;flinge</SubHeadline2><Pgraph>Zur Standardisierung der Pr&#252;flinge wurden alle Checklisten detailliert operationalisiert. Bezogen auf die beiden festgelegten Leistungsniveaus wurde f&#252;r jede m&#246;gliche Antwort eines Items der Checkliste definiert, ob die Pr&#252;flinge diese nennen sollten oder nicht. Gleichzeitig wurde in einem weiteren Feld f&#252;r jedes Item ausgef&#252;hrt, wie der Pr&#252;fling sich bei der jeweiligen Frage verhalten sollte, z.B. nur z&#246;gerliche Antwort, oder nur auf Nachfrage (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>).</Pgraph><SubHeadline2>Checklisten zur Leistungs&#252;berpr&#252;fung</SubHeadline2><Pgraph>Zur Beurteilung der erbrachten Leistung durch die Pr&#252;fer&#47;innen wurde der Bewertungsteil die OSCE Checklisten so modifiziert, dass die Pr&#252;fer&#47;innen f&#252;r jede m&#246;gliche Antwort in jedem Aufgabenbereich vermerken konnten, ob die Antwort gegeben wurde oder nicht (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). Es wurde bewusst darauf verzichtet, die Standardisierung &#252;ber die Beurteilung des Leistungsniveaus mit einem globalen Punktwert f&#252;r jedes Item, analog zu einem echten OSCE, durchzuf&#252;hren, um potentielle systematische Einsch&#228;tzungsunterschiede Seitens der Pr&#252;fer&#47;innen zu eliminieren. Am Ende der Checkliste wurde ein Abschnitt eingef&#252;gt, in dem die Pr&#252;fer&#47;innen das erbrachte Leistungsniveau anhand einer globalen Bewertungsskala (schlecht, mittelm&#228;&#223;ig, sehr gut) ebenso wie die Authentizit&#228;t beurteilen sollten. Bei letzterem sollten die Pr&#252;fer&#47;innen beurteilen, in wieweit sie Zweifel daran hatten, einen echten Pr&#252;fungskandidaten vor sich zu haben.</Pgraph><Pgraph>Die Pr&#252;fer&#47;innen erhielten die standardisierte Pr&#252;fereinweisung f&#252;r den Chirurgischen OSCE. Sie wurden jedoch angewiesen keine Punkte f&#252;r die einzelnen Items zu vergeben, sondern f&#252;r jede m&#246;gliche Antwort anzukreuzen, ob diese gegeben wurde oder nicht. Den Pr&#252;fern&#47;innen wurde erst nach dem OSCE mitgeteilt, dass eine Standardisierung der Studierenden-Leistung vorgenommen worden war. </Pgraph><SubHeadline2>Standardisierte Studierende</SubHeadline2><Pgraph>Alle 12 Studierenden hatten den Chirurgischen Block und damit den chirurgischen OSCE bereits absolviert. Der Chirurgische Block erstreckt sich &#252;ber ein Semester und beinhaltete die F&#228;cher Viszeralchirurgie, Gef&#228;&#223;-, Thorax- und Herzchirurgie, Urologie, Orthop&#228;die &#38; Unfallchirurgie, Hand- &#38; Plastische Chirurgie sowie An&#228;sthesie &#38; Notfallmedizin. Vorlesungen und Seminare in Pathologie und Radiologie sind in den einzelnen Fachdisziplinen integriert.</Pgraph><Pgraph>Den Studierenden wurden die jeweiligen Checklisten zum Training ausgeh&#228;ndigt. Mit jedem Studierenden wurden die Rolle und die erwarteten Antworten anhand der modifizierten Checkliste detailliert durchgesprochen. Nach 2 Wochen Zeit zum Lernen der Checkliste und Rolle wurde die Pr&#252;fungssituation zwischen den Studierenden und der Studienleiterin simuliert und Korrekturen umgesetzt. Dabei wurden zun&#228;chst allgemeine Schwierigkeiten und Aspekte besprochen, nachfolgend die Pr&#252;fungssituation in Echtzeit simuliert und abschlie&#223;end nochmals ein Feedback zu erforderlichen Anpassungen gegeben. </Pgraph><SubHeadline2>1. Studienteil </SubHeadline2><SubHeadline3>Durchf&#252;hrung der Standardisierung</SubHeadline3><Pgraph>Im ersten Studienteil (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, links A) erfolgte die Durchf&#252;hrung der Standardisierung in einem simulierten OSCE, der entsprechend realer Pr&#252;fungsbedingungen (Zeit, Wechselzeiten, etc.) durchgef&#252;hrt wurde. Die Standardisierten Pr&#252;flinge spielten ihre Rolle dreimal mit drei unterschiedlichen Pr&#252;fern&#47;Pr&#252;ferinnen (ein Pr&#252;fer und zwei Pr&#252;ferinnen) und wurden dabei auf Video aufgenommen. Zus&#228;tzlich wurden in einem zweiten Schritt alle Videoaufnahmen durch die Studienleiterin mit Hilfe der modifizierten Pr&#252;ferchecklisten sowohl quantitativ als auch qualitativ ausgewertet, sodass f&#252;r jeden Studierenden 6 Auswertungen vorlagen. </Pgraph><Pgraph>Bei der quantitativen Auswertung wurden basierend auf den zuvor festgelegten Antworten, die gegeben werden sollten, die Abweichungen gez&#228;hlt. Dabei wurden sowohl zu viel als auch zu wenig gegebene Antworten bezogen auf die korrekt erwartete Anzahl Antworten ber&#252;cksichtigt. Nachfolgend wurden die durchschnittlichen prozentualen Abweichungen f&#252;r alle OSCE-Durchl&#228;ufe (3 Pr&#252;fungssituationen) sowie f&#252;r die quantitative Auswertung aus der nachfolgenden Video-Auswertung berechnet.   </Pgraph><Pgraph>Bei der qualitativen Auswertung wurde zun&#228;chst der Globaleindruck bewertet: Der Pr&#252;fling wirkt authentisch ja&#47;nein und agiert im Rahmen seiner Rolle. Zus&#228;tzliche wurden folgende Aspekte beurteilt:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Verhalten des Pr&#252;flings beim Geben der Antworten (wirkt sicher, unsicher, neigt dazu Listen widerzugeben)</ListItem><ListItem level="1">Reaktion des Pr&#252;flings auf Verhalten&#47;Fragen des&#47;der Pr&#252;fers&#47;Pr&#252;ferin (bleibt in der Rolle, weicht von erwarteten Antworten ab, l&#228;sst sich zu Antworten dr&#228;ngen)</ListItem><ListItem level="1">Reaktion des Pr&#252;flings auf Verhalten&#47;Fragen des&#47;der Standardpatienten&#47;in (bleibt in der Rolle, weicht von erwarteten Antworten ab, l&#228;sst sich zu Antworten dr&#228;ngen)</ListItem><ListItem level="1">Verhalten der Pr&#252;fer&#47;innen</ListItem><ListItem level="1">Verhalten der Standardpatienten&#47;innen</ListItem></UnorderedList></Pgraph><Pgraph>Die Studienleiterin selbst war f&#252;r die Organisation des Chirurgischen Blocks mit verantwortlich und hat mehr als 20 Mal in einem OSCE des Chirurgischen Blocks gepr&#252;ft. Zus&#228;tzlich hat sie Erfahrung in der Erstellung von OSCE-Checklisten und Pr&#252;fungsfragen. Diese Studie erfolgte im Rahmen ihrer Masterthese f&#252;r den Master of Medical Education, Deutschland (MME-D).</Pgraph><SubHeadline2>2. Studienteil </SubHeadline2><SubHeadline3>Analyse des Einflusses der Pr&#252;fererfahrung auf die Leistungsbewertung</SubHeadline3><Pgraph>Im zweiten Studienteil (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, rechts B) wurde mit Hilfe der Videoaufnahmen der Einfluss der Pr&#252;fererfahrung auf die Leistungsbewertung sowie die Akzeptanz f&#252;r Standardisierte Pr&#252;flinge auf Pr&#252;ferseite untersucht. Je 10 erfahrenen und unerfahrenen Pr&#252;fern und Pr&#252;ferinnen wurden die Videoaufnahmen der OSCE-Station <Mark2>Sigmadivertikulitis</Mark2> gezeigt. Erfahrene Pr&#252;fer bzw. Pr&#252;ferinnen hatten mindestens 3 Mal oder mehr als Pr&#252;fer in einem OSCE teilgenommen und&#47;oder mehr als 5 Jahre klinische Erfahrung. Unerfahrene Pr&#252;fer und Pr&#252;ferinnen waren diejenigen, die maximal 2 Eins&#228;tze als OSCE-Pr&#252;fer und&#47;oder weniger als 5 Jahre klinische Erfahrung hatten.</Pgraph><Pgraph>Zur Leistungsbeurteilung wurde die Originalchecklisten aus dem chirurgischen OSCE der Medizinischen Fakult&#228;t Heidelberg, die eine Punktevergabe (1-5) pro Item erfordern, verwendet. </Pgraph><Pgraph>Es erfolgte eine Einweisung mit allgemeinen Informationen zum Ablauf der Pr&#252;fung. Im Einzelnen wurde darauf hingewiesen, dass</Pgraph><Pgraph><UnorderedList><ListItem level="1">die Studierenden eine bestimmte Leistung erbringen, die beurteilt werden soll. Es wurden keine Detailinformationen zu den Leistungsniveaus genannt.</ListItem><ListItem level="1">die Beurteilung basierend auf dem Inhalt der Checkliste erfolgen muss.</ListItem><ListItem level="1">5 Punkte f&#252;r eine Aufgabe nur vergeben werden d&#252;rfen, wenn s&#228;mtliche Leistungen ohne Hilfe erbracht wurden.</ListItem><ListItem level="1">3 Punkte f&#252;r eine Aufgabe nur dann vergeben werden d&#252;rfen, wenn s&#228;mtliche Leistungen mit Hilfe des Pr&#252;fers vollst&#228;ndig erbracht wurden.</ListItem><ListItem level="1">1 Punkt f&#252;r eine Aufgabe vergeben werden kann, wenn die Leistung mit Hilfe des Pr&#252;fers unvollst&#228;ndig erbracht wurde.</ListItem><ListItem level="1">das Anhalten und erneute Abspielen des Videos nicht erlaubt sind.</ListItem><ListItem level="1">alle 4 Pr&#252;fungssituationen hintereinander angeschaut werden m&#252;ssen ohne Unterbrechung.</ListItem></UnorderedList></Pgraph><Pgraph>Den Pr&#252;fern und Pr&#252;ferinnen wurden erst nach Beurteilung aller Videos mitgeteilt, dass die Studierenden standardisiert waren eine definierte Leistung zu erbringen.</Pgraph><SubHeadline3>Akzeptanz f&#252;r Standardisierte Pr&#252;flinge</SubHeadline3><Pgraph>Nach Beurteilung aller Pr&#252;fungssituationen erhielten alle Pr&#252;fer&#47;innen einen Fragebogen zur Evaluation der Akzeptanz f&#252;r Standardisierte Pr&#252;flinge und ihrer Einsatzm&#246;glichkeiten. Konkret wurden folgenden Punkten abgefragt:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Die Einsch&#228;tzung der Leistung ist mir leicht gefallen. </ListItem><ListItem level="1">In einer realen Pr&#252;fungssituation f&#228;nde ich die Einsch&#228;tzung der Leistung leichter.</ListItem><ListItem level="1">Die Einsch&#228;tzung der Leistung ist mir schwer gefallen. </ListItem><ListItem level="1">Bei guten Pr&#252;flingen ist mir die Einsch&#228;tzung der Leistung leicht gefallen.</ListItem><ListItem level="1">Bei schlechten Pr&#252;flingen ist mir die Einsch&#228;tzung der Leistung leicht gefallen.</ListItem><ListItem level="1">Ich halte den Einsatz von Standardisierten Pr&#252;flingen als Vorbereitung f&#252;r unerfahrene Pr&#252;fer f&#252;r sinnvoll. </ListItem><ListItem level="1">Ein Training mit Video-Aufnahmen (im Gegensatz zum Training in einem simulierten OSCE) ist ausreichend zur Pr&#252;fer-Vorbereitung.</ListItem><ListItem level="1">Unerfahrene Pr&#252;fer sollten vor dem Einsatz in realen Pr&#252;fungen an Standardisierten Pr&#252;flingen trainiert werden. </ListItem><ListItem level="1">Erfahrene Pr&#252;fer sollten an Standardisierten Pr&#252;flingen Pr&#252;fungssituationen simulieren.</ListItem><ListItem level="1">Ein gezieltes Pr&#252;fer-Training an Standardisierten Pr&#252;flingen kann den OSCE objektivieren.</ListItem><ListItem level="1">Die Leistung der Standardisierten Pr&#252;flinge war authentisch.</ListItem></UnorderedList></Pgraph><Pgraph>Die Bewertung erfolgte mit einer 5-Punkte Likert-Skala von 1&#61;<Mark2>trifft gar nicht zu</Mark2> bis 5&#61;<Mark2>trifft voll zu</Mark2>.</Pgraph><SubHeadline3>Statistische Auswertung</SubHeadline3><Pgraph>Aufgrund der kleinen Kohorte sowie des individuellen Ansatzes erfolgte im ersten Studienteil eine rein deskriptive und qualitative Auswertung. Auf weitere statistische Tests wurde verzichtet. Die Antwortb&#246;gen des OSCEs wurden im Hinblick auf zu viel bzw. zu wenig gegebene Antworten ausgewertet. Nachtr&#228;glich wurde per Videoanalyse durch die Studienleiterin beurteilt, welche Schwierigkeiten bei der Beantwortung der Fragen auftraten. Alle quantitativen Auswertungen basierend auf den OSCE-Checklisten sowie der sekund&#228;ren Videoauswertung wurden zusammengefasst und die prozentuale Abweichung von den erwarteten Antworten f&#252;r alle Beurteilungen berechnet (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><Pgraph>Im zweiten Studienteil wurden die Ergebnisse des Vergleichs zwischen erfahrenen und unerfahrenen Pr&#252;fern&#47;innen in Mittelwerten mit Standardabweichung dargestellt, falls nicht anders angegeben. Die quantitativen Parameter wurden mit Hilfe des zweiseitigen t-Test analysiert. Kategorische Variablen werden als Absolutwerte angegeben. P&#60;0,05 wurde als statistisch signifikant angenommen. Zur statistischen Berechnung wurde die IBM SPSS Statistics 25 Software verwendet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><SubHeadline2>First part of study: development of the standardized examinees</SubHeadline2><SubHeadline3>Verification of the standardization &#8211; descriptive analysis</SubHeadline3><Pgraph>An individual evaluation was carried out at the item level for each examinee. The percentage of deviations in the answers given from the expected number of responses was analyzed based on the standardization. In doing this, all of the evaluations, checklists from the OSCE, and the secondary quantitative video analysis by the study coordinator were compiled. The detailed results can be found in table 1 <ImgLink imgNo="1" imgType="table"/>. Only three examinees were analyzed for the <Mark2>abdominal examination</Mark2> checklist since one student was unable to participate in the OSCE for health reasons.</Pgraph><Pgraph>It became clear that especially students with a borderline performance had problems giving the answers correctly. The deviations were more distinct than in the case of the excellent students.</Pgraph><Pgraph>On the checklists covering <Mark2>sigmoid diverticulitis and rectal carcinoma</Mark2>, the difficulties were few for the excellent students: They gave a low percentage of too few answers. Larger deviations were seen for the borderline students. The largest deviation occurred for items 3 and 4. These items covered the determination of additional diagnostic and therapeutic measures.</Pgraph><Pgraph>The largest deviation was seen for the station on <Mark2>abdominal examination</Mark2> for item 4 by the students giving a borderline performance in the form of a high percentage of missing answers or incorrect performance of medical examination procedures. For this item, the examinees&#8217; examination of the liver was assessed. On this checklist, borderline students showed overall heterogeneous performances with too many and too few answers. Standardized examinees who gave an excellent performance, on the other hand, had a tendency to give too few answers or not to perform individual steps of the medical examination procedure.</Pgraph><SubHeadline3>Assessment of performance by the examiners</SubHeadline3><Pgraph>All of the examiners, with one exception, had the impression that these were real examinees and indicated they had perceived the standardized examinees as authentic.</Pgraph><Pgraph>The excellent performance was recognized as such in all cases. The borderline performance was assessed as borderline six times; in all other run-throughs, however, it was deemed to be a poor performance.</Pgraph><SubHeadline3>Qualitative analysis via video analysis</SubHeadline3><Pgraph>The qualitative analysis of the OSCE videos revealed a series of aspects that had a limiting effect on the standardization. The examinees showed a certain tendency to recite the expected answers as if they were memorized lists. This applied more to the excellent examinees than to the borderline ones. Borderline examinees had difficulties staying in their roles particularly for complex items that required drawing on a diagnostic or therapeutic algorithm and not allowing the examiner to push them into giving more than the standardized answers. On the whole, the standardized examinees were able to do this well. At the same time, it was noticed that occasionally the role was over-exaggerated and, for instance, an intentionally hesitant behavior was acted out in a very pronounced manner. As a result, time became tight in individual test situations.</Pgraph><Pgraph>The conduct of the examiners also influenced the students&#8217; acting of their roles and the results of the standardization. As in real assessments, the examiners showed a tendency to repeat questions or give advice on doing individual tasks. Among other things, this increased the difficulty the students faced in consciously not giving answers. Based on the video analysis, it also became clear that one examiner did not award points for answers which were given or examination steps that were performed. In another situation, an examiner evaluated the response of a simulated patient as the answer given by the examinee.</Pgraph><Pgraph>Likewise, it was observed that simulated patients actively influence the assessment by asking their own questions and preventing the students from giving an answer.</Pgraph><SubHeadline2>Second part of the study: influence of examiner experience on performance assessment and acceptance of standardized examinees</SubHeadline2><SubHeadline3>Influence of examiner experience on performance assessment</SubHeadline3><Pgraph>Ten experienced and ten inexperienced examiners were included in the study, with one female and nine male examiners forming the experienced group and three female and seven male examiners forming the inexperienced group. All of the examiners assessed all of the standardized examinees in one test situation during the OSCE in the first half of the study. The details regarding examiner experience are presented in table 2 <ImgLink imgNo="2" imgType="table"/>.</Pgraph><Pgraph>In the assessment of the examinees with excellent performance there was no significant difference between experienced and inexperienced examiners (see table 3 <ImgLink imgNo="3" imgType="table"/> and figure 4 <ImgLink imgNo="4" imgType="figure"/>). In contrast, there was a significant difference between the two groups in their assessments of the borderline examinees. Inexperienced examiners tended to assess the performance lower than their experienced counterparts.</Pgraph><Pgraph>Both groups of examiners graded the social competence (item 5), despite identical standardization, lower for the borderline examinees than for the excellent ones (see table 3 <ImgLink imgNo="3" imgType="table"/> and figure 5 <ImgLink imgNo="5" imgType="figure"/>). This difference was statistically significant (4.80 vs. 4.13, p&#60;0.001).</Pgraph><SubHeadline3>Acceptance of standardized examinees</SubHeadline3><Pgraph>Both groups of examiners perceived the standardized examinees to be authentic and viewed this new tool as an opportunity to make the OSCE even more objective. Both groups found it easier to assess the performance of good students than of borderline students, but still found no difficulties overall in assessing student performance.</Pgraph><Pgraph>The regular use of standardized examinees to train experienced examiners was favored more by the group of inexperienced examiners than by the experienced group (2.9 vs. 2.0). The detailed results are presented in figure 6 <ImgLink imgNo="6" imgType="figure"/>.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline2>Erster Studienteil &#8211; Entwicklung der Standardisierten Pr&#252;flinge</SubHeadline2><SubHeadline3>&#220;berpr&#252;fung der Standardisierung &#8211; deskriptive Auswertung</SubHeadline3><Pgraph>F&#252;r jeden Pr&#252;fling erfolgte eine Einzelauswertung auf Itemniveau. Analysiert wurde die prozentuale Abweichung der gegebenen Antworten von der erwarteten Anzahl der Antworten auf der Basis der Standardisierung. Dabei wurden alle Auswertungen, Checklisten aus dem OSCE sowie die sekund&#228;re quantitative Auswertung der Videoanalyse durch die Studienleiterin, zusammengefasst. Die detaillierten Ergebnisse sind in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> dargestellt. F&#252;r die Checkliste <Mark2>Abdominelle Untersuch</Mark2>ung wurden nur drei Pr&#252;flinge ausgewertet werden, da ein Studierender krankheitsbedingt nicht am OSCE teilnehmen konnte. </Pgraph><Pgraph>Es kristallisierte sich heraus, dass insbesondere die Studierenden mit einer Borderline-Leistung Schwierigkeiten hatten, die Antworten korrekt zu geben. Die Abweichungen waren deutlicher als bei den exzellenten Studierenden. </Pgraph><Pgraph>Bei den Checklisten<Mark2> Sigmadivertikulitis</Mark2> und <Mark2>Rektumkarzinom</Mark2> waren die Schwierigkeiten f&#252;r die exzellenten Studierenden gering, sie nannten in einem geringen Prozentsatz zu wenig Antworten. Bei den Borderline Studierenden fielen gr&#246;&#223;ere Abweichungen auf. Die gr&#246;&#223;te Abweichung trat bei den Items 3 und 4 auf. Diese Items umfassen die Festlegung des weiteren diagnostischen bzw. therapeutischen Vorgehens. </Pgraph><Pgraph>Die gr&#246;&#223;te Abweichung zeigte sich bei der Station <Mark2>Abdominelle Untersuchung</Mark2> bez&#252;glich Item 4 f&#252;r die Studierenden mit einer Borderline-Leistung im Sinne eines hohen Anteils an fehlenden Antworten bzw. nicht korrekt durchgef&#252;hrten Untersuchungsabl&#228;ufen. Bei diesem Item wird die Untersuchung der Leber gepr&#252;ft. Borderline Studierenden zeigten ansonsten bei dieser Checkliste insgesamt heterogene Leistungen mit zu vielen und zu wenig Antworten. Standardisierte Pr&#252;flinge mit einer exzellenten Leistung hatten wiederum die Tendenz zu wenig Antworten zu nennen bzw. bei den Untersuchungsabl&#228;ufen einzelne Punkte nicht durchzuf&#252;hren. </Pgraph><SubHeadline3>Leistungseinsch&#228;tzung durch die Pr&#252;fer&#47;innen </SubHeadline3><Pgraph>Alle Pr&#252;fer und Pr&#252;ferinnen hatten, mit einer Ausnahme, den Eindruck, dass es sich um reale Pr&#252;fungskandidaten handelte und gaben an, die standardisierten Studierenden als authentisch wahrgenommen zu haben. </Pgraph><Pgraph>Die exzellente Leistung wurde in allen F&#228;llen als solche erkannt. Die Borderline-Leistung wurde 6 Mal als solche eingesch&#228;tzt, in allen anderen Durchl&#228;ufen aber als schlechte Leistung wahrgenommen. </Pgraph><SubHeadline3>Qualitative Auswertung durch Video-Analyse</SubHeadline3><Pgraph>Die qualitative Auswertung der Pr&#252;fungsvideos ergab eine Reihe von Aspekten, die sich einschr&#228;nkend auf die Standardisierung auswirkten. Die Pr&#252;flinge zeigten eine gewisse Tendenz, erwartete Antworten als auswendig gelernte Liste wiederzugeben. Diese betraf die exzellenten mehr als die Borderline-Pr&#252;flinge. Borderline-Pr&#252;flinge hatten besonders bei komplexen Items, die die Ableitung eines diagnostischen oder therapeutischen Algorithmus forderten, Schwierigkeiten in der Rolle zu bleiben und sich nicht durch den Pr&#252;fer bzw. durch die Pr&#252;ferin zu mehr als den standardisierten Antworten dr&#228;ngen zu lassen. Insgesamt gelang dies den Standardisierten Pr&#252;flingen allerdings gut. Gleichzeitig fiel auf, dass gelegentlich die Rolle &#8222;&#252;berinterpretiert&#8220; wurde und ein angedachtes z&#246;gerliches Verhalten zum Beispiel sehr ausgepr&#228;gt gespielt wurde. Dadurch wurde in einzelnen Pr&#252;fungssituationen die Zeit knapp.</Pgraph><Pgraph>Auch das Verhalten der Pr&#252;fer&#47;innen beeinflusste die Wiedergabe der Studierenden-Rolle bzw. die Ergebnisse der Standardisierung. Wie in realen Pr&#252;fungen zeigten Pr&#252;fer&#47;innen die Tendenz, z.B. nochmals nachzufragen oder kleinere Hinweise bei Einzelaufgaben zu geben.  Dadurch erh&#246;hte sich unter anderem die Schwierigkeit f&#252;r die Studierenden, Antworten bewusst nicht zu geben. Anhand der Videoanalyse wurde au&#223;erdem deutlich, dass seitens eines Pr&#252;fers gegebene Antworten bzw. durchgef&#252;hrte Untersuchungsschritte nicht gewertet wurden, obwohl sie erfolgt waren. In einer anderen Situation wertete ein Pr&#252;fer die Antwort eines Simulationspatienten als gegebene Antwort f&#252;r den Pr&#252;fling. </Pgraph><Pgraph>Ebenso zeigte sich ein Einfluss durch die Simulationspatienten, die durch Zwischenfragen aktiv in die Pr&#252;fung eingriffen und dadurch ein Antworten des Studierenden verhinderten. </Pgraph><SubHeadline2>Zweiter Studienteil &#8211; Einfluss der Pr&#252;fererfahrung auf die Leistungsbewertung und Akzeptanz f&#252;r Standardisierte Pr&#252;flinge </SubHeadline2><SubHeadline3>Einfluss der Pr&#252;fererfahrung auf die Leistungsbewertung </SubHeadline3><Pgraph>Zehn erfahrene und 10 unerfahrene Pr&#252;fer und Pr&#252;ferinnen wurden in die Studie eingeschlossen, davon 1 weiblicher und 9 m&#228;nnliche Pr&#252;fer in der Gruppe der erfahrenen und 3 weibliche sowie 7 m&#228;nnliche Pr&#252;fer in der Gruppe der unerfahrenen Pr&#252;fer. Alle Pr&#252;fer&#47;innen beurteilten alle Standardisierten Pr&#252;flinge in einer Pr&#252;fungssituation aus dem OSCE des 1. Studienteils. Details zum Erfahrungsgrad der Pr&#252;fer&#47;innen sind in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> angegeben.</Pgraph><Pgraph>In der Beurteilung der Pr&#252;flinge mit exzellenter Leistung zeigte sich kein wesentlicher Unterschied zwischen erfahrenen und unerfahrenen Pr&#252;fern&#47;innen (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>, siehe Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>). Im Gegensatz dazu bestand ein signifikanter Unterschied in der Beurteilung der Borderline-Pr&#252;flinge zwischen den Pr&#252;fergruppen (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>, siehe Abbildung 5 <ImgLink imgNo="5" imgType="figure"/>). Unerfahrene Pr&#252;fer und Pr&#252;ferinnen neigten dazu, die erbrachte Leistung schlechter einzusch&#228;tzen als erfahrene Pr&#252;fer&#47;innen.</Pgraph><Pgraph>Beide Pr&#252;fergruppen bewerteten die Soziale Kompetenz (Item 5), trotz identischer Standardisierung, bei den Borderline-Pr&#252;flingen schlechter als bei den exzellenten Pr&#252;flingen (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>). Der Unterschied war statistisch signifikant (4,80 vs. 4,13, p&#60;0,001).</Pgraph><SubHeadline3>Akzeptanz f&#252;r Standardisierten Pr&#252;flinge</SubHeadline3><Pgraph>Beide Pr&#252;fergruppen nahmen die Standardisierten Pr&#252;flinge als authentische Pr&#252;fungskandidaten wahr und sahen dieses neue Instrument als M&#246;glichkeit einen OSCE weiter zu objektivieren. Beide Pr&#252;fergruppen empfanden die Einsch&#228;tzung der Leistung bei guten Studierenden tendenziell leichter als bei den Borderline Studierenden, nahmen aber insgesamt keine Schwierigkeiten in der Leistungseinsch&#228;tzung wahr. </Pgraph><Pgraph>Der regelm&#228;&#223;ige Einsatz von Standardisierten Pr&#252;flingen zur Schulung von erfahrenen Pr&#252;fern&#47;innen wurde von der Gruppe der unerfahrenen Pr&#252;fern mehr bef&#252;rwortet als von den erfahrenen (2,9 vs. 2,0). Die detaillierten Ergebnisse sind in Abbildung 6 <ImgLink imgNo="6" imgType="figure"/> dargestellt.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>Detailed instructions on how to design, implement and ensure the quality of an OSCE and the resulting good, statistically measured results justify the use of this test format to assess and grade practical clinical skills at medical schools <TextLink reference="9"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>. While OSCEs and OSPEs, to date, have been used primarily as internal university-specific assessments, the current discussion on including them in state medical examinations is making the need for widespread standardization very clear <TextLink reference="19"></TextLink>. Despite established quality assurance measures, a variety of studies have been able to show that factors can potentially influence OSCE scores. Such studies often involve extensive staff resources, e.g. independent co-examiners, video analyses, etc. At the same time, it is impossible to eliminate individual influences stemming from examinees and examiners or to standardize these factors satisfactorily. Our aim was to develop a new tool for OSCE quality assurance by applying the concept of standardization to student performance, an approach that enables the identification of individual factors influencing the grading of student performance. Simultaneously, this new tool is also meant to serve as a strategy for training OSCE examiners in the future.</Pgraph><Pgraph>As part of verifying the standardized examinees, it was demonstrated that it is possible to successfully standardize students to meet a previously defined performance level.</Pgraph><Pgraph>The verification of the standardization revealed that deviations occurred in both groups of examinees. Excellent examinees tended more toward giving too few answers and had difficulties not appearing to recite previously memorized lists, while the borderline examinees gave both too few and too many answers. The deviations were overall more distinct for the borderline examinees indicating that the standardization for this performance level is more difficult to achieve.</Pgraph><Pgraph>The answers given by borderline examinees deviated in particular for items in which the description of a diagnostic or therapeutic algorithm was required (see table 1 <ImgLink imgNo="1" imgType="table"/>). This suggests that increased complexity of the task makes standardization more difficult. Similar observations were made regarding the complex examination procedures on the abdominal examination checklist where the borderline examinees also deviated from the expected procedural steps (see table 1 <ImgLink imgNo="1" imgType="table"/>). In addition to the purely content-based deviations, individual students tended to over-exaggerate their roles.</Pgraph><Pgraph>Both the content-based deviations by the standardized examinees and the different interpretations of the roles they played suggest that the process of standardization itself and specific training for the roles are essential. In the approach followed here, the students were trained using modified checklists on which, depending upon performance level, each possible answer was predefined and rehearsed, whether it was meant to be given or not. From these results it can be understood that the standardization should be trained in even more detail. As is the case when training simulated patients <TextLink reference="26"></TextLink>, it appears sensible to define a larger role in which the performance level or the characteristic being assessed can be embedded. Since the examiners tended to repeat questions precisely for borderline examinees, the students must be very specially trained for such situations. In particular, attention must be paid to complex tasks and medical examination procedures. Based on the experiences described here, it is wise to let students repeatedly rehearse their roles for verification and to simulate different ways in which examiners intervene in the assessment process to practice conformity with the assigned roles on the part of the standardized examinees. Verifying standardization in a nearly real OSCE is also another option to check if standardization has been satisfactorily achieved. Video recording with subsequent analysis by the trainers and standardized examinees represents an additional training strategy.</Pgraph><Pgraph>An obvious disadvantage of this study is the low case numbers. The study involves one pilot project that is on par with a feasibility study. Future standardization of examinees should take place with more students and in a larger number of test situations than the selected number analyzed here.</Pgraph><Pgraph>In the second part of the study, the video recordings of the OSCE station addressing the <Mark2>management of a patient</Mark2> with sigmoid diverticulitis were used for both standardization levels. The extent to which examiner experience affected the evaluation of examinee performance was investigated. This station was used because the standardization for it was the best.</Pgraph><Pgraph>The results of this part of the study show that the two groups of examiners assessed the performance of borderline examinees differently. Inexperienced examiners graded the performance significantly lower and also applied a larger point range to do so. Basically, there are several conceivable explanations for this. Experienced examiners recognize the performance for what it is and correctly classify it as such. On the other hand, this observation could also indicate that experienced examiners do not use the full grading scale for recognizable performance levels and, as described by Iramaneerat, only apply a restricted range of points <TextLink reference="19"></TextLink>. At the same time, this result could also be construed as indicating that inexperienced examiners are, under circumstances, less confident in classifying poor performances and thus rate them in a potentially exaggerated manner. A study by Yeates et al. demonstrated that different examiners focus on different aspects when assessing a performance <TextLink reference="27"></TextLink>. The results here could therefore be a sign that with increasing clinical or assessment experience, the main focus for assigning points is selected unconsciously. It cannot be fully ruled out that all of the examiners here are not subject to a leniency error that is characterized by a general tendency to rate performances in an extreme manner as poorer or better than they actually are <TextLink reference="13"></TextLink>. At the same time, it is possible that the effect described by Yeates et al. is present in that a borderline performance is rated especially poorly if it is observed directly after an excellent performance <TextLink reference="7"></TextLink>. In the design selected here, the first and last performances in the video sequence were borderline performances, leaving only one instance where the constellation identified by Yeates et al. could have occurred.</Pgraph><Pgraph>The lower score assigned to social competence for borderline examinees (4.80 vs. 4.13, p&#60;0.001), despite identical standardization and identical performance in the verification of standardization, leaves room to presume a halo effect for both examiner groups. The results of this study suggest that in terms of a halo effect, as described by Iramaneerat et al., the poorer content-based performance leads to a misperception of communication skills <TextLink reference="21"></TextLink>. Experienced and inexperienced examiners were affected in equal measure by this, which points out that even having extensive experience as an OSCE assessor cannot negate this effect.</Pgraph><Pgraph>The detected differences in the assessment of borderline examinees depending on the examiner&#8217;s experience suggest that this effect could potentially be decisive for passing or failing an OSCE station. The latter makes it clear that targeted examiner preparation is essential, especially if OSCEs are to be used in future state medical exams.</Pgraph><Pgraph>Another question that should be considered and explored in further studies is whether a difference exists in the grading behavior of experienced examiners depending on if they have experience as an OSCE assessor, or only have extensive clinical experience, or both. The experienced examiners in this study all had more than five years of clinical experience, but their experience as OSCE assessor varied between two and more than five times serving as OSCE examiners. This aspect was not pursued further since this study is a pilot project with a low case number.</Pgraph><Pgraph>In this study the use of videos to carry out such an analysis does not, by itself, present a novel approach. It is rather the standardized examinees who offer a possibility in the future to conduct very similar analyses in an OSCE with standardized examinees unconnected to video analyses. It is conceivable that standardized examinees could be included as a &#8220;quality standard&#8221; in an OSCE. The type of training for standardization must be explored and developed further to minimize deviations. Whether it is possible to standardize a student for several checklists still remains open.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Detaillierte Handlungsanweisungen f&#252;r den Aufbau, die Umsetzung und Qualit&#228;tssicherungsma&#223;nahmen f&#252;r einen OSCE und daraus resultierende gute teststatistische Ergebnisse, rechtfertigen den Einsatz dieses Pr&#252;fungsformats zur &#220;berpr&#252;fung und Bewertung klinisch-praktischer Fertigkeiten an medizinischen Fakult&#228;ten <TextLink reference="9"></TextLink>, <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>. W&#228;hrend OSCEs und OSPEs bislang vorwiegend in fakult&#228;tsinternen Pr&#252;fungen eingesetzt wurden, macht die aktuelle Diskussion zu ihrem Einsatz im Staatsexamen die Notwendigkeit einer Fakult&#228;ts&#252;bergreifenden Standardisierung deutlich <TextLink reference="19"></TextLink>. Trotz etablierter Qualit&#228;tssicherungsma&#223;nahmen konnten potenzielle Einfl&#252;sse auf OSCE-Ergebnisse in verschiedenen Untersuchungen nachgewiesen werden. Dabei setzen solche Studien h&#228;ufig ein hohes Ma&#223; an Personalaufwand, z.B. unabh&#228;ngige Zweit-Bewerter, Video-Bewertungen, etc. voraus. Gleichzeitig lassen sich individuelle Einflussfaktoren von Pr&#252;flings- und Pr&#252;fer-Seite nicht eliminieren und nicht zufriedenstellend standardisieren. Unser Ziel war es durch die Anwendung des Konzepts der Standardisierung auf die studentische Leistung ein neues Instrument zur Qualit&#228;tssicherung in einem OSCE zu entwickelnd, das erm&#246;glicht einzelne Einflussfaktoren auf die Bewertung der studentischen Leistung zu identifizieren. Gleichzeitig soll dieses neue Instrument zuk&#252;nftig auch als Schulungs-Tool f&#252;r OSCE-Pr&#252;fer eingesetzt werden k&#246;nnen. </Pgraph><Pgraph>Im Rahmen der &#220;berpr&#252;fung der Standardisierten Pr&#252;flinge konnte gezeigt werden, dass eine Standardisierung von Studierenden f&#252;r ein zuvor definiertes Leistungsniveau gelingt. </Pgraph><Pgraph>Die &#220;berpr&#252;fung der Standardisierung zeigte, dass bei beiden Pr&#252;flingsgruppen Abweichungen auftraten. Exzellente Pr&#252;flinge neigten eher dazu, zu wenige Antworten zu nennen und hatten Schwierigkeiten nicht einfach auswendig gelernte Listen wiederzugeben, wohingegen die Borderline-Pr&#252;flinge sowohl zu viele als auch zu wenig Antworten nannten. Die Abweichungen waren bei den Borderline-Pr&#252;flingen insgesamt deutlicher, was darauf hinweist, dass die Standardisierung f&#252;r dieses Leistungsniveau schwieriger ist. </Pgraph><Pgraph>Borderline-Pr&#252;flinge wichen insbesondere bei Items von den Antworten ab, in denen die Darstellung eines diagnostischen oder therapeutischen Algorithmus gefordert war, siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>. Dieser Umstand deutet darauf hin, dass m&#246;glicherweise eine zunehmende Komplexit&#228;t der Aufgabe die Standardisierung erschwert. Analog verhielt es sich f&#252;r die komplexeren Untersuchungsschritte aus der Checkliste <Mark2>Abdominelle Untersuchung</Mark2>. Hier wichen die Borderline-Pr&#252;flinge ebenfalls von den erwarteten Untersuchungsschritten ab (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Neben den rein inhaltlichen Abweichungen, neigten einzelne Studierende zur &#220;berinterpretation der Rolle. </Pgraph><Pgraph>Sowohl die inhaltlichen Abweichungen als auch die unterschiedlichen Auslegungen der gespielten Rolle seitens der Standardisierten Pr&#252;flinge, weisen darauf hin, dass der Standardisierungs-Vorgang selbst und das Training der Rolle essentiell sind. In der hier gew&#228;hlten Herangehensweise wurden die Studierenden anhand von modifizierten Checklisten, auf denen abh&#228;ngig vom Leistungsniveau f&#252;r jede m&#246;gliche Antwort definiert wurde, ob diese gegeben werden soll oder nicht, trainiert. Aus den Ergebnissen l&#228;sst sich ableiten, dass die Standardisierung noch genauer trainiert werden sollte. Zus&#228;tzlich erscheint es sinnvoll, analog zum Training von Simulationspatienten <TextLink reference="26"></TextLink>, zus&#228;tzlich eine vollst&#228;ndige Rolle zu definieren, in die dann das Leistungsniveau bzw. die zu &#252;berpr&#252;fende Eigenschaft eingebettet werden kann. Da die Pr&#252;fer&#47;innen dazu neigten gerade bei den Borderline-Pr&#252;flingen Nachfragen zu stellen, m&#252;ssen die Studierenden f&#252;r solche Situationen ganz besonders geschult werden. Insbesondere muss dabei das Augenmerk auf komplexe Aufgebanstellungen und Untersuchungsg&#228;nge gelegt werden. Basierend auf den hier dargestellten Erfahrungen erscheint es sinnvoll, die Studierenden wiederholt ihr Rolle zur &#220;berpr&#252;fung spielen zu lassen und dabei verschiedenen Optionen der Pr&#252;fer-Intervention zu simulieren um das Rollen-konforme Verhalten der Standardisierten Pr&#252;flinge zu &#252;ben. Eine &#220;berpr&#252;fung der Standardisierung in einem Realit&#228;ts-nahen OSCE ist dabei eine weitere Option zur &#220;berpr&#252;fung. Videoaufnahmen mit anschlie&#223;ender Analyse durch die Trainer und Standardisierten Pr&#252;flinge stellen eine weitere Trainings-M&#246;glichkeit dar. </Pgraph><Pgraph>Ein offensichtlicher Nachteil der hier vorgelegten Studie ist die geringe Fallzahl. Es handelt sich um ein Pilotprojekt, das einer Machbarkeitsstudie entspricht. Zuk&#252;nftig sollte die Standardisierung von Pr&#252;flingen mit mehr Studierenden erfolgen und in einer gr&#246;&#223;eren Anzahl von Pr&#252;fungssituationen als der hier gew&#228;hlten Zahl &#252;berpr&#252;ft werden. </Pgraph><Pgraph>Im zweiten Studienabschnitt wurden die Videoaufnahmen der OSCE-Station <Mark2>Management eines Patienten mit Sigmadivertikulitis</Mark2> auf beiden Standardisierungsniveaus verwendet. Untersucht wurde, in wie weit sich die Pr&#252;fererfahrung auf die Bewertung der erbrachten Leistung auswirkt. Es wurde diese Station verwendet, da hier die Standardisierung am besten war. </Pgraph><Pgraph>Die Ergebnisse dieses Studienteils zeigen, dass die Leistung der Borderline-Pr&#252;flinge unterschiedlich durch die beiden Pr&#252;fergruppen eingesch&#228;tzt wurde. Unerfahrene Pr&#252;fer&#47;innen bewerteten die Leistung signifikant schlechter und nutzten dabei auch eine gr&#246;&#223;ere Punkterange aus. Prinzipiell sind hierf&#252;r mehrere Erkl&#228;rungen denkbar. Erfahrene Pr&#252;fer und Pr&#252;ferinnen erkennen die erbrachte Leistung als solche und ordnen sie richtig ein. Auf der anderen Seite k&#246;nnte dieses Ergebnis auch darauf hinweisen, dass erfahrenen Pr&#252;fer&#47;innen f&#252;r erkennbare Leistungsniveaus nicht die volle Bewertungsbreite nutzen und nur, wie von Iramaneerat beschrieben, einen eingeschr&#228;nkten Punktebereich verwenden <TextLink reference="19"></TextLink>. Gleichzeitig k&#246;nnte dieses Ergebnis auch darauf hindeuten, dass unerfahrene Pr&#252;fer&#47;innen, unter Umst&#228;nden unsicherer in der Einordnung schlechterer Leistungen sind und diese m&#246;glichicherweise &#252;bertrieben schlecht bewerten. Yeates und Kollegen zeigten in einer Arbeit wiederum, dass verschiedene Pr&#252;fer den Fokus in der Bewertung einer Leistung unterschiedlich setzen <TextLink reference="27"></TextLink>. Die hier dargestellten Ergebnisse k&#246;nnen daher auch ein Hinweis daf&#252;r sein, dass mit zunehmender klinischer oder Pr&#252;fungserfahrung, Schwerpunkte f&#252;r die Punktevergabe unterbewusst anders gew&#228;hlt werden. Nicht v&#246;llig ausschlie&#223;en l&#228;sst sich, dass alle Pr&#252;fer und Pr&#252;ferinnen hier einem <Mark2>leniency error</Mark2> unterliegen, der durch eine generelle Tendenz gekennzeichnet ist, Leistungen schlechter oder im anderen Extrem besser zu bewerten als sie eigentlich sind <TextLink reference="13"></TextLink>. Gleichzeitig k&#246;nnte auch, der von Yeates und Kollegen beschriebenen Effekt, eingetreten sein, dass eine Borderline-Leistung besonders schlecht bewertet wird, wenn sie direkt nach einer sehr guten Leistung beurteilt werden muss <TextLink reference="7"></TextLink>. Wobei in dem hier gew&#228;hlten Design die erste und die letzte Leistung in der Video-Sequenz jeweils einer Borderline-Leistung entsprach und damit nur einmal die von Yeates und Kollegen beschriebene Konstellation bestanden h&#228;tte.</Pgraph><Pgraph>Durch die schlechtere Bewertung der Sozialen Kompetenz bei Borderline-Pr&#252;flingen (4,80 vs. 4,13, p&#60;0,001) trotz identischer Standardisierung und gleicher Performance in der &#220;berpr&#252;fung der Standardisierung, l&#228;sst sich ein Halo-Effekt f&#252;r beide Pr&#252;fergruppen vermuten. Die Ergebnisse dieser Studie suggerieren, dass im Sinne eines Halo-Effekts, wie von Iramaneerat und Kollegen beschrieben, die schlechtere inhaltliche Leistung zu einer Fehlwahrnehmung des Kommunikationsverhaltens f&#252;hrt <TextLink reference="21"></TextLink>. Davon waren erfahrene und unerfahrene Pr&#252;fer&#47;innen in gleichem Ma&#223;e betroffen, was darauf hindeutet, dass auch eine umfangreiche Erfahrung als OSCE-Pr&#252;fer&#47;in diesen Effekt nicht negieren kann. </Pgraph><Pgraph>Die detektierten Unterschiede in der Bewertung von Borderline-Pr&#252;flingen in Abh&#228;ngigkeit von der Pr&#252;fererfahrung suggerieren, dass diese Effekte potentiell f&#252;r das Bestehen oder Nicht-Bestehen einer OSCE-Station ausschlaggebend sein k&#246;nnen. Letzteres verdeutlicht, dass eine gezielte Pr&#252;fer-Vorbereitung essentiell ist, gerade wenn OSCEs zuk&#252;nftig im medizinischen Staatsexamen eingesetzt werden.</Pgraph><Pgraph>Ein weiterer Aspekt der generell bedacht und in Folgestudien weiter untersucht werden sollte, ist die Frage, ob es einen Unterschied im Bewertungsverhalten von erfahrenen Pr&#252;fern&#47;innen gibt, abh&#228;ngig davon, ob sie Erfahrung als OSCE-Pr&#252;fer&#47;in besitzen oder nur eine l&#228;ngere klinische Erfahrung bzw. ob beides gegeben ist. Die erfahrenen Pr&#252;fer&#47;innen in der aktuellen Studie hatten alle mehr als 5 Jahre klinische Erfahrung, die Erfahrung als OSCE-Pr&#252;fer variierte allerdings zwischen 2 und mehr als 5 OSCE-Pr&#252;fungseins&#228;tzen. Da es sich bei der hier vorliegenden Studie um ein Pilotprojekt mit kleiner Fallzahl handelt, wurde dieser Aspekt nicht weiterverfolgt. </Pgraph><Pgraph>In der hier vorgestellten Studie stellt die Nutzung von Videos zur Durchf&#252;hrung einer solchen Untersuchung an sich dabei keine Neuerung dar. Vielmehr bieten Standardisierte Pr&#252;flinge aber zuk&#252;nftig die M&#246;glichkeit losgel&#246;st von Videoanalysen analoge Untersuchung in einem OSCE mit standardisierten Pr&#252;flingen durchzuf&#252;hren. Dabei ist denkbar, Standardisierte Pr&#252;flinge als &#8222;Qualit&#228;tsstandard&#8220; in einem OSCE mitlaufen zu lassen. Die Art des Trainings f&#252;r die Standardisierung muss zwingend noch weiter ausgearbeitet werden um Abweichungen zu minimieren. Zu &#252;berpr&#252;fen bleibt auch, ob eine Standardisierung eines Studierenden f&#252;r mehrere Checklisten m&#246;glich ist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusions">
      <MainHeadline>Conclusions</MainHeadline><Pgraph>Standardizing simulated examinees to meet defined performance levels represents a future possibility for directly analyzing influences on the grading behavior of OSCE examiners. Within the scope of high-stakes assessments, especially in regard to the future use of OSCEs in state medical exams, standardized examinees represent, alongside quality assurance, a potential tool to train and prepare OSCE examiners <TextLink reference="19"></TextLink>.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Schlussfolgerung">
      <MainHeadline>Schlussfolgerung</MainHeadline><Pgraph>Durch die Standardisierung von simulierten Pr&#252;flingen f&#252;r definierte Leistungsniveaus, ergibt sich zuk&#252;nftig die M&#246;glichkeit Einfl&#252;sse auf das Bewertungsverhalten von Pr&#252;fern in OSCEs direkt zu analysieren. Im Rahmen von High Stakes Pr&#252;fungen, gerade auch im Hinblick auf den zuk&#252;nftigen Einsatz von OSCEs im medizinischen Staatsexamen, stellen Standardisierte Pr&#252;flinge, neben der Qualit&#228;tssicherung, ein m&#246;gliches Instrument zur Schulung von OSCE-Pr&#252;fern dar <TextLink reference="19"></TextLink>.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autor&#42;innen erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>Kruppa E</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Einsatz innovativer Lern- und Pr&#252;fungsmethoden an den Medizinische Fakult&#228;ten der Bundesrepublik Deutschland- eine aktuelle Bestandsaufnahme</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Dtsch Med Wochenschr</RefJournal>
        <RefPage>731-732</RefPage>
        <RefTotal>Nikendei C, Kruppa E, J&#252;nger J. Einsatz innovativer Lern- und Pr&#252;fungsmethoden an den Medizinische Fakult&#228;ten der Bundesrepublik Deutschland- eine aktuelle Bestandsaufnahme. Dtsch Med Wochenschr. 2009;134:731-732.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor>Stevenson M</RefAuthor>
        <RefAuthor>Downie WW</RefAuthor>
        <RefAuthor>Wilson GM</RefAuthor>
        <RefTitle>Assessment of clinical competence using objective structured examination</RefTitle>
        <RefYear>1975</RefYear>
        <RefJournal>Br Med J</RefJournal>
        <RefPage>447-451</RefPage>
        <RefTotal>Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;22(1):447-451. DOI: 10.1136&#47;bmj.1.5955.447</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1136&#47;bmj.1.5955.447</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Schleicher I</RefAuthor>
        <RefAuthor>Leitner K</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>R&#252;ssler M</RefAuthor>
        <RefAuthor>Bender B</RefAuthor>
        <RefAuthor>Sterz J</RefAuthor>
        <RefAuthor>Stibane T</RefAuthor>
        <RefAuthor>K&#246;nig S</RefAuthor>
        <RefAuthor>Frankenhauser S</RefAuthor>
        <RefAuthor>Kreuder JG</RefAuthor>
        <RefTitle>Does quantity ensure quality&#63; Standardized OSCE-stations for outcome-oriented evaluation of practical skills at medical faculties</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Ann Anat</RefJournal>
        <RefPage>55-60</RefPage>
        <RefTotal>Schleicher I, Leitner K, J&#252;nger J, M&#246;ltner A, R&#252;ssler M, Bender B, Sterz J, Stibane T, K&#246;nig S, Frankenhauser S, Kreuder JG. Does quantity ensure quality&#63; Standardized OSCE-stations for outcome-oriented evaluation of practical skills at medical faculties. Ann Anat. 2017;212:55-60. DOI: 10.1016&#47;j.aanat.2017.03.006</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.aanat.2017.03.006</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Byrne A</RefAuthor>
        <RefAuthor>Soskova T</RefAuthor>
        <RefAuthor>Dawkins J</RefAuthor>
        <RefAuthor>coombes L</RefAuthor>
        <RefTitle>A pilot study of marking accuracy and mental workload as measure of OSCE examiner performance</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>191</RefPage>
        <RefTotal>Byrne A, Soskova T, Dawkins J, coombes L. A pilot study of marking accuracy and mental workload as measure of OSCE examiner performance. BMC Med Educ. 2016;16:191. DOI: 10.1186&#47;s12909-016-0708-z</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-016-0708-z</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Wood TJ</RefAuthor>
        <RefAuthor>Chan J</RefAuthor>
        <RefAuthor>Humphrey-Murto S</RefAuthor>
        <RefAuthor>Pugh D</RefAuthor>
        <RefAuthor>Touchie C</RefAuthor>
        <RefTitle>The influence of first impressions on subsequent ratings within an OSCE station</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>969-983</RefPage>
        <RefTotal>Wood TJ, Chan J, Humphrey-Murto S, Pugh D, Touchie C. The influence of first impressions on subsequent ratings within an OSCE station. Adv Health Sci Educ Theory Pract. 2017;22(4):969-983. DOI: 10.1007&#47;s10459-016-9736-z</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-016-9736-z</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Fuller R</RefAuthor>
        <RefAuthor>Homer M</RefAuthor>
        <RefAuthor>Pell G</RefAuthor>
        <RefAuthor>Hallam J</RefAuthor>
        <RefTitle>Managing extremes of assessor judgement within the OSCE</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>58-66</RefPage>
        <RefTotal>Fuller R, Homer M, Pell G, Hallam J. Managing extremes of assessor judgement within the OSCE. Med Teach. 2017;37(1):58-66. DOI: 10.1080&#47;0142159X.2016.1230189</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;0142159X.2016.1230189</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Yeates P</RefAuthor>
        <RefAuthor>Cardell J</RefAuthor>
        <RefAuthor>Byrne G</RefAuthor>
        <RefAuthor>Eva KW</RefAuthor>
        <RefTitle>Relatively speaking: contrast effects influence assessors&#39; scores and narrative feedback</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>909-919</RefPage>
        <RefTotal>Yeates P, Cardell J, Byrne G, Eva KW. Relatively speaking: contrast effects influence assessors&#39; scores and narrative feedback. Med Educ. 2015;49(9):909-919. DOI: 10.1111&#47;medu.12777</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.12777</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Bartman I</RefAuthor>
        <RefAuthor>Smee S</RefAuthor>
        <RefAuthor>Roy M</RefAuthor>
        <RefTitle>A method of identifying extreme OSCE examiners</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Clin Teach</RefJournal>
        <RefPage>27-31</RefPage>
        <RefTotal>Bartman I, Smee S, Roy M. A method of identifying extreme OSCE examiners. Clin Teach. 2013;10(1):27-31. DOI: 10.1111&#47;j.1743-498X.2012.00607.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1743-498X.2012.00607.x</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Pell G</RefAuthor>
        <RefAuthor>Fuller R</RefAuthor>
        <RefAuthor>Homer M</RefAuthor>
        <RefAuthor>Robert T</RefAuthor>
        <RefTitle>How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>802-811</RefPage>
        <RefTotal>Pell G, Fuller R, Homer M, Robert T. How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49. Med Teach. 2010;32(10):802-811. DOI: 10.3109&#47;0142159X.2010.507716</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2010.507716</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Khan KZ</RefAuthor>
        <RefAuthor>Ramachandran S</RefAuthor>
        <RefAuthor>Gaunt K</RefAuthor>
        <RefAuthor>Pushkar P</RefAuthor>
        <RefTitle>The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81 Part I: A historical and theoretical perspective</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>e1437-1446</RefPage>
        <RefTotal>Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81 Part I: A historical and theoretical perspective. Med Teach. 2013;35(9):e1437-1446. DOI: 10.3109&#47;0142159X.2013.818634</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2013.818634</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Chesser A</RefAuthor>
        <RefAuthor>Cameron H</RefAuthor>
        <RefAuthor>Evans P</RefAuthor>
        <RefAuthor>Gleland J</RefAuthor>
        <RefAuthor>Boursicot K</RefAuthor>
        <RefAuthor>Mires G</RefAuthor>
        <RefTitle>Sources of variation in performance on a shared OSCE station across four UK medical schools</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>526-532</RefPage>
        <RefTotal>Chesser A, Cameron H, Evans P, Gleland J, Boursicot K, Mires G. Sources of variation in performance on a shared OSCE station across four UK medical schools. Med Educ. 2009;43(6):526-532. DOI: 10.1111&#47;j.1365-2923.2009.03370.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2009.03370.x</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Humphrey-Murto S</RefAuthor>
        <RefAuthor>Touchi C</RefAuthor>
        <RefAuthor>Wood TJ</RefAuthor>
        <RefAuthor>Smee S</RefAuthor>
        <RefTitle>Does the gender of the standardised patient influence candidate performance in an objective structured clinical examination&#63;</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>521-525</RefPage>
        <RefTotal>Humphrey-Murto S, Touchi C, Wood TJ, Smee S. Does the gender of the standardised patient influence candidate performance in an objective structured clinical examination&#63; Med Educ. 2009;43(6):521-525. DOI: 10.1111&#47;j.1365-2923.2009.03336.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2009.03336.x</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Harasym PH</RefAuthor>
        <RefAuthor>Woloschuk W</RefAuthor>
        <RefAuthor>Cunning L</RefAuthor>
        <RefTitle>Undesired variance due to examiner stringency&#47;leniency effect in communication skill scores assessed in OSCEs</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>617-632</RefPage>
        <RefTotal>Harasym PH, Woloschuk W, Cunning L. Undesired variance due to examiner stringency&#47;leniency effect in communication skill scores assessed in OSCEs. Adv Health Sci Educ Theory Pract. 2008;13(5):617-632. DOI: 10.1007&#47;s10459-007-9068-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-007-9068-0</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Turner JL</RefAuthor>
        <RefAuthor>Dankosko ME</RefAuthor>
        <RefTitle>Objective structured clinical exams: A critical review</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Fam Med</RefJournal>
        <RefPage>574-578</RefPage>
        <RefTotal>Turner JL, Dankosko ME. Objective structured clinical exams: A critical review. Fam Med. 2008;40(8):574-578.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Schultz JH</RefAuthor>
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Fischer M R</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Qualit&#228;tssicherung von Pr&#252;fungen am Beispiel des OSCE-Pr&#252;fungsformats: Erfahrungen der Medizinischen Fakult&#228;t der Universit&#228;t Heidelberg</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Z Evid Fortbild Qual Gesundhwes</RefJournal>
        <RefPage>668-672</RefPage>
        <RefTotal>Schultz JH, Nikendei C, Weyrich P, M&#246;ltner A, Fischer M R, J&#252;nger J. Qualit&#228;tssicherung von Pr&#252;fungen am Beispiel des OSCE-Pr&#252;fungsformats: Erfahrungen der Medizinischen Fakult&#228;t der Universit&#228;t Heidelberg. Z Evid Fortbild Qual Gesundhwes. 2008;102(10):668-672. DOI: 10.1016&#47;j.zefq.2008.11.024</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.zefq.2008.11.024</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Barman A</RefAuthor>
        <RefTitle>Critiques on the objective structured clinical examination</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Ann Acad Med Singapore</RefJournal>
        <RefPage>478-482</RefPage>
        <RefTotal>Barman A. Critiques on the objective structured clinical examination. Ann Acad Med Singapore. 2005;34(8):478-482.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Sloan DA</RefAuthor>
        <RefAuthor>Donelly MB</RefAuthor>
        <RefAuthor>Schwartz RW</RefAuthor>
        <RefAuthor>Strodel WE</RefAuthor>
        <RefTitle>The Objective Structured Clinical Examination. The new gold standard for evaluating postgraduate clinical performance</RefTitle>
        <RefYear>g</RefYear>
        <RefJournal>Ann Sur</RefJournal>
        <RefPage>735-742</RefPage>
        <RefTotal>Sloan DA, Donelly MB, Schwartz RW, Strodel WE. The Objective Structured Clinical Examination. The new gold standard for evaluating postgraduate clinical performance. Ann Sur.g 1995;222(6):735-742. DOI: 10.1097&#47;00000658-199512000-00007</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;00000658-199512000-00007</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Mash B</RefAuthor>
        <RefTitle>Assessing clinical skill - standard setting in the objective structured clinical exam (OSCE)</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>South Afr Fam Pract</RefJournal>
        <RefPage>5-7</RefPage>
        <RefTotal>Mash B. Assessing clinical skill - standard setting in the objective structured clinical exam (OSCE). South Afr Fam Pract. 2007;49(3):5-7. DOI: 10.1080&#47;20786204.2007.10873520</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;20786204.2007.10873520</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Kompetenzorientiert pr&#252;fen im Staatsexamen Medizin</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Bundesgesundheitsbl</RefJournal>
        <RefPage>171-177</RefPage>
        <RefTotal>J&#252;nger J. Kompetenzorientiert pr&#252;fen im Staatsexamen Medizin. Bundesgesundheitsbl. 2018;61:171-177. DOI: 10.1007&#47;s00103-017-2668-9</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00103-017-2668-9</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Yeates P</RefAuthor>
        <RefAuthor>O&#39;Neill P</RefAuthor>
        <RefAuthor>Mann K</RefAuthor>
        <RefAuthor>Eva KW</RefAuthor>
        <RefTitle>&#39;You&#39;re certainly relatively competent&#39;: Assessor bias dur to recent experiences</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>910-922</RefPage>
        <RefTotal>Yeates P, O&#39;Neill P, Mann K, Eva KW. &#39;You&#39;re certainly relatively competent&#39;: Assessor bias dur to recent experiences. Med Educ. 2013;47:910-922. DOI: 10.1111&#47;medu.12254</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.12254</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Iramaneerat C</RefAuthor>
        <RefAuthor>Yudkowsky R</RefAuthor>
        <RefTitle>Rater errors in a clinical skills assessmant of medical students</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Eval Health Prof</RefJournal>
        <RefPage>266-283</RefPage>
        <RefTotal>Iramaneerat C, Yudkowsky R. Rater errors in a clinical skills assessmant of medical students. Eval Health Prof. 2007;30(3):266-283. DOI: 10.1177&#47;0163278707304040</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;0163278707304040</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Schleicher I</RefAuthor>
        <RefAuthor>Leitner K</RefAuthor>
        <RefAuthor>Juenger H</RefAuthor>
        <RefAuthor>Moeltner A</RefAuthor>
        <RefAuthor>Ruesseler M</RefAuthor>
        <RefAuthor>Bender B</RefAuthor>
        <RefAuthor>Sterz J</RefAuthor>
        <RefAuthor>Schuettler KF</RefAuthor>
        <RefAuthor>Koenig S</RefAuthor>
        <RefAuthor>Kreuder JG</RefAuthor>
        <RefTitle>Examiner effect on the objective structured cliniclal exam - a study at five medical schools</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>71</RefPage>
        <RefTotal>Schleicher I, Leitner K, Juenger H, Moeltner A, Ruesseler M, Bender B, Sterz J, Schuettler KF, Koenig S, Kreuder JG. Examiner effect on the objective structured cliniclal exam - a study at five medical schools. BMC Med Educ. 2017;17:71. DOI: 10.1186&#47;s12909-017-0908-1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;s12909-017-0908-1</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>Kraus B</RefAuthor>
        <RefAuthor>Lauber H</RefAuthor>
        <RefAuthor>Schrauth M</RefAuthor>
        <RefAuthor>Weyrich P</RefAuthor>
        <RefAuthor>Zipfel S</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>An innovative model for teaching complex clinical procedures: Integration of standardised patients into ward round training for final year students</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>246-252</RefPage>
        <RefTotal>Nikendei C, Kraus B, Lauber H, Schrauth M, Weyrich P, Zipfel S, J&#252;nger J. An innovative model for teaching complex clinical procedures: Integration of standardised patients into ward round training for final year students. Med Teach. 2007;29(2-3):246-252. DOI: 10.1080&#47;01421590701299264</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;01421590701299264</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Rethans JJ</RefAuthor>
        <RefAuthor>Grosfeld FJ</RefAuthor>
        <RefAuthor>Aper L</RefAuthor>
        <RefAuthor>Reniers J</RefAuthor>
        <RefAuthor>Westen JH</RefAuthor>
        <RefAuthor>van Wijngaarden JJ</RefAuthor>
        <RefAuthor>van Weel-Baumgarten EM</RefAuthor>
        <RefTitle>Six formats in simulated and standardized patients use, based on experiences of 13 undergraduate medical curricula in Belgium and the Netherlands</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>710-716</RefPage>
        <RefTotal>Rethans JJ, Grosfeld FJ, Aper L, Reniers J, Westen JH, van Wijngaarden JJ, van Weel-Baumgarten EM. Six formats in simulated and standardized patients use, based on experiences of 13 undergraduate medical curricula in Belgium and the Netherlands. Med Teach. 2012;34(9):710-716. DOI: 10.3109&#47;0142159X.2012.708466</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2012.708466</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Barrows HS</RefAuthor>
        <RefTitle>An Overview of the uses of standardized patients for teaching and evaluating clinical skills</RefTitle>
        <RefYear>1993</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>443-451</RefPage>
        <RefTotal>Barrows HS. An Overview of the uses of standardized patients for teaching and evaluating clinical skills. Acad Med. 1993;68(6):443-451. DOI: 10.1097&#47;00001888-199306000-00002</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;00001888-199306000-00002</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Schulz JH</RefAuthor>
        <RefAuthor>Sch&#246;nemann J</RefAuthor>
        <RefAuthor>Lauber H</RefAuthor>
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>Herzog W</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Einsatz von Simulationspatienten im Kommunikations- und Interaktionstraining f&#252;r Medizinerinnen und Mediziner (Medi-KIT): Bedarfsanalyse - Training - Perspektiven</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Gruppendyn Organisationsberat</RefJournal>
        <RefPage>7-23</RefPage>
        <RefTotal>Schulz JH, Sch&#246;nemann J, Lauber H, Nikendei C, Herzog W, J&#252;nger J. Einsatz von Simulationspatienten im Kommunikations- und Interaktionstraining f&#252;r Medizinerinnen und Mediziner (Medi-KIT): Bedarfsanalyse - Training - Perspektiven. Gruppendyn Organisationsberat. 2007;38(1):7-23. DOI: 10.1007&#47;s11612-007-0002-y</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s11612-007-0002-y</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Yeates P</RefAuthor>
        <RefAuthor>O&#39;Neill P</RefAuthor>
        <RefAuthor>Mann K</RefAuthor>
        <RefAuthor>Eva K</RefAuthor>
        <RefTitle>Seeing the same thing differently - Mechanisms that contribute to assessor differences in directly-observed performance assessments</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Adv Helath Sci Educ Theory Paract</RefJournal>
        <RefPage>325-341</RefPage>
        <RefTotal>Yeates P, O&#39;Neill P, Mann K, Eva K. Seeing the same thing differently - Mechanisms that contribute to assessor differences in directly-observed performance assessments. Adv Helath Sci Educ Theory Paract. 2013;18(3):325-341. DOI: 10.1007&#47;s10459-012-9372-1</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-012-9372-1</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Presented here are the percentages of deviations (too many and too few answers given) from the number of expected answers per item calculated from the quantitative analysis of the OSCE as well as the video analysis differentiated in addition according to standardized performance level (&#8593; Percent of answers that were given as too many; &#8595; Percent of answers that were given as too few). Only three students could be analyzed for the </Mark1><Mark1><Mark2>abdominal examination</Mark2></Mark1><Mark1> checklist because one student was unable to participate in the OSCE for health reasons.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Dargestellt ist die prozentuale Abweichung (zu viel und zu wenig genannte Antworten) von der Anzahl erwarteter Antworten pro Item berechnet aus der quantitativen Auswertung des OSCE und der Videoanalyse unterschieden zus&#228;tzlich nach standardisiertem Leistungsniveau (</Mark1><Mark1>&#8593; Anteil Antworten, der zu viel genannt wurde; &#8595; Anteil Antworten, der zu wenig genannt wurde).  F&#252;r die Checkliste Abdominelle Untersuchung konnten nur drei Studierende ausgewertet werden, da ein Studierender krankheitsbedingt nicht am OSCE teilnehmen konnte.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Examiner characteristics, age as mean values with standard deviation; all figures given as absolute values</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Pr&#252;fer-Charakteristika, Alter als Mittelwerte mit Standardabweichung, alle &#252;brigen Angaben als Absolut-Werte</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Assessment results for excellent and borderline students according to examiner experience, presented as mean values (min.-max.)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Pr&#252;fungs-Ergebnisse f&#252;r Exzellente und Borderline Studierende aufgeschl&#252;sselt nach Pr&#252;fererfahrung, Angaben als Mittelwerte (Min-Max) </Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="728" width="1051">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Schematic illustration of the study design with the first and second parts of the study</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Schematische Darstellung des Studienablaufs mit 1. und 2. Studienteil</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="359" width="760">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Example of an excerpt from a checklist defining the borderline examinee answers</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Exemplarischer Auszug aus einer Checkliste mit Definitionen f&#252;r die Antworten der Pr&#252;flinge mit einer Borderline-Leistung </Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="305" width="742">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Example of an excerpt from a modified examiner checklist </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Exemplarischer Auszug aus einer modifizierten Pr&#252;fer-Checkliste </Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="433" width="744">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 4: Overall point totals for the students with the excellent performance according the examiners&#8217; experience.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 4: Gesamtpunktzahl f&#252;r die Studierenden mit exzellenter Leistung nach Pr&#252;fererfahrung</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="437" width="745">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 5: Overall point totals for the students with the borderline performance according to examiners&#8217; experience</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 5: Gesamtpunktzahl f&#252;r die Studierenden mit Borderline-Leistung nach Pr&#252;fererfahrung</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="563" width="1192">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 6: Results of the evaluation questionnaire regarding the standardized students according to experienced and inexperienced OSCE examiners, evaluation using a five-point Likert scale (1&#61;completely disagree, 2&#61;mostly disagree, 3&#61;agree in part, 4&#61;mostly agree, 5&#61;completely agree)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 6: Ergebnisse der Evaluation der Standardisierten Studierenden durch erfahrene und unerfahrene OSCE-Pr&#252;fer&#47;innen. Bewertung anhand einer 5 Punkte Likert-Skala (1&#61; trifft gar nicht zu, 2&#61;trifft wenig zu, 3&#61;trifft teils zu, 4&#61;trifft ziemlich zu, 5&#61;trifft voll zu) </Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>6</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>