<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle>
  <MetaData>
    <Identifier>zma000933</Identifier>
    <IdentifierDoi>10.3205/zma000933</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0009338</IdentifierUrn>
    <ArticleType language="en">research article</ArticleType>
    <ArticleType language="de">Forschungsarbeit</ArticleType>
    <TitleGroup>
      <Title language="en">Effects of a rater training on rating accuracy in a physical examination skills assessment </Title>
      <TitleTranslated language="de">Einfluss einer Pr&#252;ferschulung auf die Genauigkeit der Bewertung einer Untersuchungskurspr&#252;fung</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Weitz</Lastname>
          <LastnameHeading>Weitz</LastnameHeading>
          <Firstname>Gunther</Firstname>
          <Initials>G</Initials>
          <AcademicTitle>PD Dr. med.</AcademicTitle>
          <AcademicTitleSuffix>MME</AcademicTitleSuffix>
        </PersonNames>
        <Address>Universit&#228;tsklinikum Schleswig-Holstein, Campus L&#252;beck, Medizinische Klinik I, Ratzeburger Allee 160, 23538 L&#252;beck, Deutschland, Tel.: &#43;49 (0)451&#47;500-6033, Fax: &#43;49 (0)451&#47;500-6242<Affiliation>Universit&#228;tsklinikum Schleswig-Holstein, Campus L&#252;beck, Medizinische Klinik I, L&#252;beck, Deutschland</Affiliation></Address>
        <Email>gunther.weitz&#64;uksh.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Vinzentius</Lastname>
          <LastnameHeading>Vinzentius</LastnameHeading>
          <Firstname>Christian</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r Qualit&#228;tsentwicklung an Schulen Schleswig-Holstein, Kronshagen, Deutschland</Affiliation>
        </Address>
        <Email>christian.vinzentius&#64;iqsh.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Twesten</Lastname>
          <LastnameHeading>Twesten</LastnameHeading>
          <Firstname>Christoph</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Schleswig-Holstein, Campus L&#252;beck, Medizinische Klinik I, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Email>christoph.twesten&#64;medizin.uni-luebeck.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Lehnert</Lastname>
          <LastnameHeading>Lehnert</LastnameHeading>
          <Firstname>Hendrik</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Schleswig-Holstein, Campus L&#252;beck, Medizinische Klinik I, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Email>hendrik.lehnert&#64;uksh.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Bonnemeier</Lastname>
          <LastnameHeading>Bonnemeier</LastnameHeading>
          <Firstname>Hendrik</Firstname>
          <Initials>H</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Schlesweig-Holstein, Campus Kiel, Medizinische Klinik III, Kiel, Deutschland</Affiliation>
        </Address>
        <Email>hendrik.bonnemeier&#64;uksh.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>K&#246;nig</Lastname>
          <LastnameHeading>K&#246;nig</LastnameHeading>
          <Firstname>Inke R.</Firstname>
          <Initials>IR</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;t zu L&#252;beck, Institut f&#252;r Medizinische Biometrie und Statistik, L&#252;beck, Deutschland</Affiliation>
        </Address>
        <Email>inke.koenig&#64;imbs.uni-luebeck.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">rater training</Keyword>
      <Keyword language="en">rating accuracy</Keyword>
      <Keyword language="en">skills assessment</Keyword>
      <Keyword language="en">physical examination skills</Keyword>
      <Keyword language="en">randomised controlled trial</Keyword>
      <Keyword language="de">Pr&#252;ferschulung</Keyword>
      <Keyword language="de">Pr&#252;fergenauigkeit</Keyword>
      <Keyword language="de">Testat</Keyword>
      <Keyword language="de">k&#246;rperliche Untersuchung</Keyword>
      <Keyword language="de">randomisierte kontrollierte Studie</Keyword>
      <SectionHeading language="en">medicine</SectionHeading>
      <SectionHeading language="de">Humanmedizin</SectionHeading>
    </SubjectGroup>
    <DateReceived>20140108</DateReceived>
    <DateRevised>20140324</DateRevised>
    <DateAccepted>20140820</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20141117</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <SourceGroup>
      <Journal>
        <ISSN>1860-3572</ISSN>
        <Volume>31</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Zeitschrift f&#252;r Medizinische Ausbildung</JournalTitle>
        <JournalTitleAbbr>GMS Z Med Ausbild</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>41</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund: </Mark1>Die Genauigkeit und Reproduzierbarkeit von Pr&#252;ferurteilen im Medizinstudium ist gering. Eine Schulung von Pr&#252;fern hat keinen oder allenfalls minimalen Effekt. Die dazu verf&#252;gbaren Studien beziehen sich jedoch auf die Beurteilung von Arzt-Patienten-Interaktionen in eigens daf&#252;r angefertigten Videos. Wir untersuchten, ob eine Schulung, die sich auf den Bezugsrahmen des Pr&#252;fers bezieht, die Pr&#252;fergenauigkeit bei curricularen Untersuchungskurstestaten verbessert.</Pgraph><Pgraph><Mark1>Methoden: </Mark1>21 Pr&#252;fer testierten 242 Studierende im dritten Studienjahr. Elf der Pr&#252;fer wurden randomisiert ausgew&#228;hlt, an einer kurzen Pr&#252;ferschulung teilzunehmen, die wenige Tage vor dem Testat stattfand. 218 Testate konnten auf Video festgehalten werden und wurden sp&#228;ter unabh&#228;ngig von drei Nachpr&#252;fern bewertet. Genauigkeit definierten wir als die Konkordanz zwischen der Benotung des eigentlichen Pr&#252;fers und dem Median der Benotung der Nachpr&#252;fer. Im Anschluss an das Testat f&#252;llten sowohl Pr&#252;flinge als auch Pr&#252;fer einen Fragebogen zum Testat aus.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Pr&#252;ferschulung hatte keinen messbaren Einfluss auf die Genauigkeit der Bewertung. Die geschulten Pr&#252;fer waren aber strenger als die ungeschulten und ihr Notenspektrum lag eher in dem Bereich des Spektrums der Nachpr&#252;fer. Au&#223;erdem waren die geschulten Pr&#252;fer sich des Halo-Effektes st&#228;rker bewusst. Obwohl die Selbsteinsch&#228;tzung der Studierenden in beiden Gruppen nahe bei der Pr&#252;fernote lag, waren die Studierenden, die von geschulten Pr&#252;fern testiert wurden, h&#228;ufiger mit ihrer Note unzufrieden.</Pgraph><Pgraph><Mark1>Diskussion: </Mark1>Trotz einiger marginaler Effekte hatte die Pr&#252;ferschulung keinen Effekt auf die Genauigkeit der Bewertung. Diese Beobachtung bei echten Testaten stimmt mit den Ergebnissen von Studien mit Videobewertungen &#252;berein. Auch die starke Standardisierung der Aufgabe im Testat half nicht, das Pr&#252;ferurteil zu harmonisieren. Unsere Studie best&#228;tigt, dass die Bewertung &#228;rztlicher T&#228;tigkeiten individuell sehr unterschiedlich ist. Eine Schulung, die wie in unserem Versuch auf den Bezugsrahmen des Urteils abzielt, ist nicht in der Lage, die &#228;rztliche Bewertung von Testatleistungen zu vereinheitlichen. </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background:</Mark1> The accuracy and reproducibility of medical skills assessment is generally low. Rater training has little or no effect. Our knowledge in this field, however, relies on studies involving video ratings of overall clinical performances.  We hypothesised that a rater training focussing on the frame of reference could improve accuracy in grading the curricular assessment of a highly standardised physical head-to-toe examination.</Pgraph><Pgraph><Mark1>Methods: </Mark1>Twenty-one raters assessed the performance of 242 third-year medical students. Eleven raters had been randomly assigned to undergo a brief frame-of-reference training a few days before the assessment. 218 encounters were successfully recorded on video and re-assessed independently by three additional observers. Accuracy was defined as the concordance between the raters&#39; grade and the median of the observers&#39; grade. After the assessment, both students and raters filled in a questionnaire about their views on the assessment.</Pgraph><Pgraph><Mark1>Results: </Mark1>Rater training did not have a measurable influence on accuracy. However, trained raters rated significantly more stringently than untrained raters, and their overall stringency was closer to the stringency of the observers. The questionnaire indicated a higher awareness of the halo effect in the trained raters group. Although the self-assessment of the students mirrored the assessment of the raters in both groups, the students assessed by trained raters felt more discontent with their grade.</Pgraph><Pgraph><Mark1>Conclusions: </Mark1>While training had some marginal effects, it failed to have an impact on the individual accuracy. These results in real-life encounters are consistent with previous studies on rater training using video assessments of clinical performances. The high degree of standardisation in this study was not suitable to harmonize the trained raters&#8217; grading. The data support the notion that the process of appraising medical performance is highly individual. A frame-of-reference training as applied does not effectively adjust the physicians&#39; judgement on medical students in real-live assessments.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>The physical examination is a core clinical competence for every physician. A major task in medical education is to impart profound physical examination skills. However, recent literature raises concerns over declining abilities of graduates to perform a thorough physical examination <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Factors contributing to this development include a scarcity of good teaching patients, skilled faculty, and time for bedside teaching <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>. Also, increasing specialisation has led to an over-reliance on technology and a loss of the big picture <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. Hence, teaching and accurately assessing basic examination skills may more and more become a challenge in medical education.</Pgraph><Pgraph>Over the last decades several strategies have been established to secure the quality of physical examination skills training. These include the introduction of standardised patients (SPs) and patient instructors <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, the application of checklists and rating forms <TextLink reference="8"></TextLink>, the implementation of Objective Structured Clinical Examinations (OSCEs) <TextLink reference="9"></TextLink>, and systematic direct observations of patient encounters <TextLink reference="10"></TextLink>. In practice, however, these tools do not always take effect as intended. E.g., in a study from Taiwan, 22&#37; of final year students reported to have never been observed in a physical examination (36&#37; never by faculty) and 10&#37; felt not yet confident with the procedure <TextLink reference="11"></TextLink>. </Pgraph><Pgraph>In our faculty, we evaluate a standardized head-to-toe examination of every third year student immediately after a tutorial over the first five weeks of the semester. However, we frequently receive complaints concerning the fairness of these assessments. Reliability and accuracy of faculty evaluation is indeed known to be low <TextLink reference="12"></TextLink>. Structuring the evaluation by a rating form markedly increases the accuracy of the observations, but does not improve the agreement in the overall assessment <TextLink reference="13"></TextLink>. This may be due to the fact that the raters&#39; strategies to integrate information are rather individual and that the frame of reference differs between the raters <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. Studies from personnel psychology indicate that frame-of-reference training in groups can improve the accuracy in performance appraisal <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. The goal of such training is to teach raters to share a common conceptualisation of performance. It thereby imposes more accurate schemes <TextLink reference="18"></TextLink>. We therefore planned to implement a rater training for the assessment of the physical examination skills.</Pgraph><Pgraph>Surprisingly, studies on rater training in medical education are scarce and the results are somewhat disappointing. In a small study, Newble and co-workers investigated the impact of training on the ratings of five videotaped physical examinations <TextLink reference="19"></TextLink>. They gave either no training, performance feedback to the raters in one group, or feedback with additional training, including a discussion of another videotaped encounter, in a third group. There were no notable differences in the re-ratings of the videotapes after two months in either group. Holmboe and co-workers studied the effects of an intensive multi-dimensional rater training on the ratings of videotaped patient encounters eight months after training <TextLink reference="20"></TextLink>. The trained faculty was more stringent and had a smaller range in some of the ratings. More recently, Cook and co-workers investigated the effects of similar but shorter training on interrater reliability and accuracy of mini-CEX ratings in a resident program <TextLink reference="21"></TextLink>. The training did not improve these parameters. </Pgraph><Pgraph>To test whether a rater training would improve accuracy in our setting we undertook this study. Our setting differs from previous studies in several aspects: </Pgraph><Pgraph>Firstly, our rating focussed on a defined skill rather than assessing overall performance. Secondly, we standardized the physical examination task and all raters were familiar with the faculty standard. And thirdly, while previous studies relied on videotaped and scripted situations to determine the quality of rating, we had the chance to study real-live encounters between examinees and standardized patients (SPs). This implies that the grading was relevant and that the raters had to announce their decisions face to face to the examinees. For evaluation we videotaped all the exams and let three observers independently grade the students&#39; performance retrospectively. We hypothesised that trained raters would rate more in line with the post-hoc observers, hence, being more accurate. We also sought to assess the effects of the rater training on stringency and the range of the grades. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Die k&#246;rperliche Untersuchung ist eine Kernkompetenz im klinischen Alltag. Eine wesentliche Aufgabe der &#228;rztlichen Ausbildung muss es daher sein, die Beherrschung von k&#246;rperlichen Untersuchungstechniken sicher zu vermitteln. K&#252;rzlich publizierte Studien machen allerdings auf wachsende Defizite auf diesem Gebiet bei Absolventen des Medizinstudiums aufmerksam <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Zu dieser Entwicklung tragen der Mangel an geeigneten Patienten, geeigneten Dozenten und Unterrichtszeit am Patientenbett bei <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>. Au&#223;erdem f&#252;hrt die zunehmende Spezialisierung in der Medizin zu Apparategl&#228;ubigkeit und Betriebsblindheit <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. Das Vermitteln und Pr&#252;fen von Fertigkeiten der k&#246;rperlichen Untersuchung d&#252;rfte daher mehr und mehr zur Herausforderung im Medizinstudium werden.</Pgraph><Pgraph>In den letzten Jahrzehnten wurden zahlreiche Anstrengungen unternommen, die Qualit&#228;t der Vermittlung von Fertigkeiten der k&#246;rperlichen Untersuchung zu verbessern. Dazu geh&#246;ren die Einf&#252;hrung von Schauspielerpatienten und Patienteninstruktoren <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>, die Anwendung von Checklisten und Bewertungsb&#246;gen <TextLink reference="8"></TextLink>, das Implementieren von OSCEs <TextLink reference="9"></TextLink> und die systematische Beobachtung von Arzt-Patienten-Interaktionen <TextLink reference="10"></TextLink>. Nicht immer hatten diese Ma&#223;nahmen den gew&#252;nschten Effekt. So gaben in einer Studie aus Taiwan 22&#37; der Studierenden im letzten Studienjahr an, niemals bei einer k&#246;rperlichen Untersuchung supervidiert worden zu sein (36&#37; nicht von Lehrpersonal) und 10&#37; f&#252;hlten sich bei der Prozedur noch unsicher <TextLink reference="11"></TextLink>. </Pgraph><Pgraph>An unserer Fakult&#228;t muss jeder Student im dritten Studienjahr eine k&#246;rperliche Untersuchung von Kopf bis Fu&#223; im Rahmen eines Untersuchungskurstestates vorf&#252;hren. Dieses Testat findet unmittelbar im Anschluss an ein f&#252;nfw&#246;chiges Tutorium statt. In den Evaluationen wird allerdings vielfach eine mangelnde Fairness bei der Benotung beklagt. In der Tat sind Reliabilit&#228;t und Genauigkeit der Bewertung durch Lehrpersonal gering <TextLink reference="12"></TextLink>. Die Strukturierung der Bewertung mittels Bewertungsb&#246;gen kann zwar die Genauigkeit der Beobachtungen verbessern, hat aber keinen Einfluss auf die &#220;bereinstimmung von Gesamtbeurteilungen <TextLink reference="13"></TextLink>. Das d&#252;rfte daran liegen, dass die Strategien der Pr&#252;fer, Informationen zu integrieren, eher individuell gepr&#228;gt sind und dass sich der Bezugsrahmen der Pr&#252;fer stark unterscheidet <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. Studien aus der Personalpsychologie zeigen, dass Schulungen, die sich auf diesen Bezugsrahmen beziehen, durchaus die Genauigkeit von Personalbeurteilungen verbessern k&#246;nnen <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>. Ziel eines solchen Trainings ist es, Pr&#252;fern eine gemeinsame Konzeptualisierung der zu beurteilenden Aufgabe zu vermitteln. Dabei sollen sich verl&#228;sslichere Bewertungsschemata entwickeln <TextLink reference="18"></TextLink>. Diese Art der Pr&#252;ferschulung wollten wir daher auf unser Setting &#252;bertragen.</Pgraph><Pgraph>Erstaunlicherweise gibt es kaum Studien zum Thema Pr&#252;ferschulung in der medizinischen Ausbildung und die Ergebnisse sind eher entt&#228;uschend. In einer kleinen Studie untersuchten Newble und Mitarbeiter den Einfluss einer Pr&#252;ferschulung auf die Bewertung von f&#252;nf gefilmten Untersuchungstechniken <TextLink reference="19"></TextLink>. Die Pr&#252;fer erhielten entweder keine Intervention, ein Feedback &#252;ber die Pr&#252;ferleistung in der zweiten Gruppe oder zus&#228;tzlich eine Pr&#252;ferschulung mit Diskussion eines weiteren Videos in der dritten Gruppe. Als die f&#252;nf Filme zwei Monate sp&#228;ter erneut bewertet wurden, gab es keine messbaren Unterschiede im Pr&#252;ferurteil der drei Gruppen. Holmboe und Mitarbeiter untersuchten die Effekte einer intensiven multidimensionalen Pr&#252;ferschulung auf die Bewertungen von gefilmten Arzt-Patienten-Interaktionen acht Monate nach der Schulung <TextLink reference="20"></TextLink>. Die geschulten Pr&#252;fer waren strenger und nutzten bei einigen Bewertungen eine kleinere Notenskala. Des Weiteren untersuchten Cook und Mitarbeiter die Effekte einer &#228;hnlichen, aber k&#252;rzeren Schulung auf die Interrater-Reliabilit&#228;t und die Genauigkeit von Mini-CEX-Bewertungen in einem Weiterbildungsprogramm <TextLink reference="21"></TextLink>. Die Schulung hatte keinen Einfluss auf diese Parameter.</Pgraph><Pgraph>Wir wollten nun untersuchen, ob eine Pr&#252;ferschulung die Genauigkeit der Bewertungen in unserem Untersuchungskurstestat verbessern k&#246;nnte. Unser Setting unterscheidet sich in mehrfacher Hinsicht von dem der zitierten Studien: Zum einen fokussiert unser Testat auf eine klar umrissene Fertigkeit statt auf die Bewertung einer allgemeinen Arzt-Patienten-Interaktion. Zum zweiten haben wir die Aufgabe f&#252;r alle Beteiligten genau definiert und Pr&#252;flinge wie Pr&#252;fer waren mit diesem Standard vertraut. Zum dritten geht es in der vorliegenden Studie um echte Pr&#252;fungssituationen statt um die Bewertung gestellter Filmszenen. Das bedeutet, dass die Bewertungen relevant waren und der Pr&#252;fer die Note den Pr&#252;flingen auch mitteilen musste. Um die tats&#228;chliche Leistung der Studierenden absch&#228;tzen zu k&#246;nnen, haben wir die Videoaufnahme jeder einzelnen Pr&#252;fung drei Nachpr&#252;fern zur Bewertung vorgelegt. Die &#220;berlegung war, dass die Bewertungen der trainierten Pr&#252;fer n&#228;her an der Einsch&#228;tzung der Nachpr&#252;fer liegen w&#252;rden und demnach genauer w&#228;ren. Zudem wollten wir die Effekte der Pr&#252;ferschulung auf Strenge der Pr&#252;fer und die Ausnutzung der Notenskala untersuchen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><SubHeadline2>Curricular embedment</SubHeadline2><Pgraph>The physical examination skills assessment was part of a course in physical examination to medical students at the beginning of their third year. The goal of this part of the course is to teach the students the basics of the physical examination in general internal medicine. After training the course continues with bedside teaching. The procedure is standardised to a head-to-toe screening physical examination and includes the inspection of head and mouth, the inspection and palpation of the neck, the complete examination of thorax and abdomen, an orientating examination of the vascular system (including measurement of one blood pressure), and the inspection of the limbs. A video explaining the standardised procedure is accessible to all students on the web. Other elements of the physical examination such as the pelvic, the musculoskeletal, and the neurological examination are taught in other parts of the course.</Pgraph><Pgraph>Training takes place in the first five weeks of the winter semester. It consists of five ninety-minute lectures and the same amount of training with peer examinations in groups of six students instructed by one experienced internist each. The assessment of the students&#8217; skills is scheduled in the sixth week. The students&#8217; task is to present the standardised examination with a standardized patient (SP) in a time limit of ten minutes. The raters are physicians selected from the medical departments of the University Hospital. They watch the students&#8217; performance, give feedback, and rate the performance by assigning a grade (German school grading, see table 1 <ImgLink imgNo="1" imgType="table"/>). They do not interfere with the students&#8217; examination nor do they ask theoretical questions. Each rater assesses six students in a time frame of fifteen minutes per student on two days each. The SPs are healthy students. They are instructed to behave passively and only to comply with coherent commands.</Pgraph><Pgraph>For this study, twenty-one physicians were chosen to rate the performance of 242 students. All twenty-one raters were familiar with the learning objectives of the course, the free accessible video of the standard procedure on the web, and the feedback code. Eleven out of these twenty-one individuals were randomly chosen to undergo the rater training. For the randomisation, the raters were numbered and then assigned to the groups by numbers derived from a website creating random numbers in a given range. To determine the accuracy of the grading all the examinations were videotaped for further evaluation. Both raters and students gave written informed consent before the study. The study was approved by means of the local ethics committee. The work was carried out in accordance with the Declaration of Helsinki, and the anonymity of all participants was guaranteed.</Pgraph><SubHeadline2>Intervention</SubHeadline2><Pgraph>The eleven raters chosen for the training were split into two groups (six and five persons per group, respectively) to achieve a smaller group size. The training was scheduled in the end of the week before the skills assessment (Thursday and Friday afternoon, respectively, skills assessment on Monday and Tuesday afternoon). Training was limited to ninety minutes. In a short introduction, the moderator (author GW) stated the goals and the standards of the assessment as well as the rating dimensions (see table 2 <ImgLink imgNo="2" imgType="table"/>. The raters were then shown four videos showing different fourth-year students performing the standardised examination with a standardised SP at different levels of competence. The videos were presented in the same order in both training groups. After each presentation the raters were asked to assess the performance using a checklist with seven dimensions (see table 2 <ImgLink imgNo="2" imgType="table"/>) and to write down their grades for each item (see table 1 <ImgLink imgNo="1" imgType="table"/>). The raters then read out all their grades and for each item the raters with the most different grades were asked to justify their judgement. The ensuing discussions of all participants were chaired by the moderator. After all dimensions had been discussed, the moderator gave feedback featuring the embedded faults of each video. </Pgraph><SubHeadline2>Examination skills assessment</SubHeadline2><Pgraph>Because the untrained raters were not familiar with checklist forms both the trained and the untrained raters were asked to assign an overall grade for the whole performance of the students (see table 1 <ImgLink imgNo="1" imgType="table"/>). Hence, the scoring method of the training was abandoned for the actual assessment. After the assessment each of the tested students was asked to fill in a questionnaire about his or her views on the assessment and to grade his or her own performance. Additionally, the raters were asked to give information on their experience in assessing students, their views on the idea of rater training and on their own performance (see figure 1 <ImgLink imgNo="1" imgType="figure"/>), and (in case of the trained raters) their satisfaction with the training on a five-point scale. The videos of the examinations were collected from the examination rooms, cut, and the allocation to trained and untrained raters was made anonymous.  </Pgraph><SubHeadline2>Video-based re-assessment</SubHeadline2><Pgraph>All the videotaped examinations were re-evaluated by three observers, one faculty member and two fifth-year students who as a group underwent the same training described above (moderated by author CV). All videotapes were evaluated by global rating at first. Subsequently the observers performed the dimension-evaluation that had been applied in the training concluding with a second overall rating. The observers rated the videos independently of each other and were unaware of the randomisation. The reference rating for the analysis was defined as the median of the three observers&#39; ratings.</Pgraph><SubHeadline2>Statistics</SubHeadline2><Pgraph>The grades are given as medians with 1<Superscript>st</Superscript> and 3<Superscript>rd</Superscript> quartiles. For reasons of graphical presentability the mean &#177;standard error of means (SEM) and &#177;standard deviation (SD), respectively, are used in the figures. The range of the ratings is given as the mean standard deviation per rater &#177;SD. Kendall&#39;s coefficient of concordance was calculated for every pair of observers and for all three observers together. The primary outcome measure was the difference between the raters&#39; and the observers&#39; ratings given as absolute value. The determining factor was the training and the studied entity were the students considering that every rater evaluated several students. This model was analysed by generalised estimating equations with exchangeable correlation structures. Parameter estimates <Mark2>&#946;</Mark2> with standard errors are presented. Likewise, the effect of experience on accuracy and the effect of the training on grading were investigated using generalized estimating equations.</Pgraph><Pgraph>For the self-assessment of students, the effect of training on the self-assessed grades as well as on the agreement with the raters&#8217; grade was analyzed using Mann-Whitney U tests. Moreover, concordance between the raters&#39; grading and the self-assessment was estimated by Kendall&#39;s coefficient. To control for multiple tests, we adhered to the following test hierarchy: Firstly we tested the concordance between the three observers using a significance level of 5&#37;. Only if this was significant, we tested whether the training had an effect on the accuracy, again at a significance level of 5&#37;. All the other tests are reported for descriptive purposes only. All analyses were performed using SPSS and R, version 2.15.0 &#91;<Hyperlink href="http:&#47;&#47;www.R-project.org">http:&#47;&#47;www.R-project.org</Hyperlink>&#93;.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><SubHeadline2>Curricul&#228;rer Zusammenhang</SubHeadline2><Pgraph>Das Untersuchungskurstestat ist der Abschluss eines Untersuchungskurstutoriums am Beginn des dritten Studienjahres. Ziel des Tutoriums ist es, den Studenten die Grundlagen der allgemeinen k&#246;rperlichen Untersuchung zu vermitteln. Nach dem Tutorium geht der Untersuchungskurs mit Unterricht am Krankenbett weiter, wo die Studierenden die erlernten Fertigkeiten praktisch anwenden. Aufgabe im Testat ist, eine standardisierte Untersuchung von Kopf bis Fu&#223; vorzuf&#252;hren. Die Untersuchung umfasst die Inspektion von Kopf und Mundh&#246;hle, die Inspektion und Palpation vom Hals, die komplette Untersuchung von Thorax und Abdomen, die korrekte Messung des Blutdrucks an einem Arm, die Erhebung des Pulsstatus, sowie die Inspektion der Extremit&#228;ten. Ein Anleitungsvideo ist f&#252;r alle Studierenden auf unserer Homepage frei zug&#228;nglich. Weitere Untersuchungstechniken wie die genitorektale Untersuchung, die neurologische Untersuchung und die Untersuchung des Bewegungsapparates werden in anderen Teilen des Kurses vermittelt.</Pgraph><Pgraph>Das Tutorium findet in den ersten f&#252;nf Wochen des Wintersemesters statt. Es besteht aus f&#252;nf Abschnitten mit jeweils zwei Vorlesungsstunden und jeweils anderthalbst&#252;ndigem Kleingruppenunterricht, in dem sechs Studierende sich unter Anleitung eines erfahrenen Internisten gegenseitig untersuchen. Das Testat findet in der sechsten Semesterwoche statt. Aufgabe ist es, die standardisierte Untersuchung in einem Zeitlimit von zehn Minuten an einem Schauspielerpatienten vorzuf&#252;hren. Die Pr&#252;fer sind &#196;rzte der Medizinischen Kliniken. Sie beobachten den Untersuchungsgang, geben Feedback und bewerten die Leistung mit einer Schulnote (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/> ). Sie greifen weder in die Untersuchung ein, noch stellen sie Theoriefragen. Jeder Pr&#252;fer pr&#252;ft sechs Studierende in einem Zeitrahmen von 15 Minuten pro Pr&#252;fling an jeweils zwei Tagen. Die Schauspielerpatienten sind gesunde Studierende. Sie sollen passiv agieren und nur eindeutigen Anweisungen folgen.</Pgraph><Pgraph>F&#252;r diese Studie w&#228;hlten wir 21 &#196;rzte aus, die 242 Testate abnehmen sollten. Alle 21 Pr&#252;fer waren mit den Lernzielen des Tutoriums, dem Anleitungsvideos und den Feedback-Regeln vertraut. Elf der 21 Personen wurden randomisiert der Pr&#252;ferschulung zugeordnet. F&#252;r die Randomisierung wurden die Pr&#252;fer nummeriert und mittels Zufallszahlengenerator einer einschl&#228;gigen Internetseite den beiden Gruppen zugeteilt. Zur Bestimmung der Pr&#252;fergenauigkeit wurden alle Testate auf Video aufgenommen. Dazu gaben sowohl alle Pr&#252;fer als auch alle Studierenden vor der Studie ihr schriftliches Einverst&#228;ndnis. Die Studie war der Ethikkommission zur Begutachtung vorgelegt worden und es gab keine Einw&#228;nde. Das Protokoll befindet sich im Einklang mit der Helsinki-Deklaration und die Anonymit&#228;t aller Teilnehmer wurde gewahrt.</Pgraph><SubHeadline2>Intervention</SubHeadline2><Pgraph>Die elf Pr&#252;fer, die f&#252;r die Schulung ausgew&#228;hlt waren, wurden in zwei Gruppen (zu 6 und 5) aufgeteilt um eine kleinere Gruppengr&#246;&#223;e zu erreichen. Die Schulung fand am Ende der f&#252;nften Semesterwoche kurz vor den Testaten statt (Schulung Donnerstag- und Freitagnachmittag, Testate Montag- und Dienstagnachmittag). F&#252;r die Schulung wurden 90 Minuten angesetzt. In einer kurzen Begr&#252;&#223;ung erl&#228;uterte der Moderator (Autor GW) Ziele und Standards der Testate und die Bewertungsdimensionen (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Im Anschluss wurden vier Beispielvideos gezeigt, in denen Studierende des vierten Studienjahres die standardisierte Untersuchung in unterschiedlicher Qualit&#228;t an Schauspielerpatienten durchf&#252;hrten. Die Reihenfolge der Videos war in beiden Schulungsgruppen gleich. Nach jeder Pr&#228;sentation wurden die Pr&#252;fer gebeten, anhand einer Checkliste mit den sieben Dimensionen (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>) die jeweilige Leistung einer Schulnote (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>) zuzuordnen. Die Pr&#252;fer lasen dann ihre Bewertung vor und die Pr&#252;fer mit der h&#246;chsten und der niedrigsten Schulnote wurden f&#252;r die jeweilige Dimension gebeten, ihre Bewertung zu rechtfertigen. Die daraufhin entstehende Diskussion wurde vom Erstautor moderiert. Nachdem alle Dimensionen diskutiert waren, erl&#228;uterte der Moderator die im Video eingebauten Fehler.</Pgraph><SubHeadline2>Testate</SubHeadline2><Pgraph>Da die nicht geschulten Pr&#252;fer mit der Checkliste nicht vertraut waren, wurden alle Pr&#252;fer gebeten, im Testat lediglich eine Gesamtnote zu vergeben (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Die feinteilige Bewertung in der Schulung wurde f&#252;rs Testat also wieder verlassen. Nach dem Testat wurden alle Studierenden gebeten, einen Fragebogen zu ihren Ansichten &#252;ber das Testat auszuf&#252;llen und sich selbst eine Note f&#252;r die Testatleistung zu geben. Au&#223;erdem wurden die Pr&#252;fer gebeten, ihre bisherige Erfahrung als Pr&#252;fer offenzulegen und zur Idee der Pr&#252;ferschulung und ihrer eigenen Leistung im Testat Stellung zu nehmen (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Die geschulten Pr&#252;fer wurden zudem gebeten, ihre Zufriedenheit mit der Schulung auf einer Skala von eins bis f&#252;nf wiederzugeben. Die Videos der Testate wurden eingesammelt, geschnitten und hinsichtlich der Allokation (geschulte&#47;ungeschulte Pr&#252;fer) anonymisiert.</Pgraph><SubHeadline2>Bewertung der Videos durch Nachpr&#252;fer</SubHeadline2><Pgraph>Alle Videos der Testate wurden durch drei Nachpr&#252;fer (ein Dozent, zwei Studierende im f&#252;nften Studienjahr) reevaluiert, die als Gruppe ebenfalls die oben beschriebene Pr&#252;ferschulung erhalten hatten (moderiert durch Autor CV). Dabei wurde zun&#228;chst eine Gesamtnote vergeben, um dann wie im Training die einzelnen Dimensionen zu bewerten, wiederum gefolgt von einer Gesamtnote. Die Bewertung der Nachpr&#252;fer erfolgte unabh&#228;ngig voneinander und bez&#252;glich der Randomisierung verblindet. Der Median der drei Nachpr&#252;fernoten wurde als endg&#252;ltige Note der Nachpr&#252;fer definiert.</Pgraph><SubHeadline2>Statistik</SubHeadline2><Pgraph>Alle Noten werden als Median mit 1. und 3. Quartile angegeben. Aus Gr&#252;nden der Veranschaulichung werden in den Grafiken abweichend Mittelwert und Standardfehler bzw. Standardabweichung verwendet. Die Bandbreite der verwendeten Notenskala wird als mittlere Standardabweichung pro Pr&#252;fer (ihrerseits mit Standardabweichung) angegeben. F&#252;r jedes Paar an Nachpr&#252;fern und f&#252;r alle drei Nachpr&#252;fer zusammen wurde Kendalls Konkordanzkoeffizient berechnet. Zielvariable war die Differenz zwischen der Note der Pr&#252;fer und der Note der Nachpr&#252;fer als Absolutwert. Einflussvariable war das Training, Beobachtungseinheit waren die Pr&#252;flinge, wobei in dem Modell ber&#252;cksichtigt wurde, dass mehrere Pr&#252;flinge vom selben Pr&#252;fer gepr&#252;ft wurden. Das Modell wurde mittels verallgemeinerter Sch&#228;tzgleichungen mit austauschbaren Korrelationsstrukturen ausgewertet. Angegeben werden die Sch&#228;tzwerte <Mark2>&#946;</Mark2> mit Standardabweichungen. Analog wurde der Effekt von Pr&#252;fererfahrung auf die Genauigkeit und der Effekt von Training auf die Bewertung mittels verallgemeinerter Sch&#228;tzgleichungen untersucht.</Pgraph><Pgraph>Bez&#252;glich der Selbsteinsch&#228;tzung der Pr&#252;flinge wurden zwei Parameter zwischen den beiden Gruppen von Pr&#252;flingen mit geschulten und ungeschulten Pr&#252;fern mittels Mann-Whitney U-Test verglichen: die selbst gegebene Note an sich und die absolute Abweichung zwischen selbst gegebener Note und der Note der Pr&#252;fer. Dar&#252;ber hinaus wurde die Konkordanz zwischen der Pr&#252;fernote und der selbst gegebenen Note mittels Kendalls Koeffizient abgesch&#228;tzt. Zur Kontrolle des multiplen Testens legten wir folgende Testhierarchie fest: Zun&#228;chst testeten wir die Konkordanz zwischen den drei Nachpr&#252;fern mit einem Signifikanzniveau von 5&#37;. Nur bei Signifikanz sollte getestet werden, ob die Pr&#252;ferschulung einen Effekt auf die Genauigkeit hat, wiederum mit einem Signifikanzniveau von 5&#37;. Alle anderen Tests sind rein deskriptiv. Die Auswertungen erfolgten mittels SPSS und R Version 2.15.0 &#91;<Hyperlink href="http:&#47;&#47;www.R-project.org">http:&#47;&#47;www.R-project.org</Hyperlink>&#93;. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><SubHeadline2>Global results</SubHeadline2><Pgraph>All twenty-one raters completed the study. The characteristics of trained and untrained raters are given in table 3 <ImgLink imgNo="3" imgType="table"/>. The randomly chosen training group was older and there were more males, and more senior and experienced physicians in this group. Of the 247 students scheduled for the assessment, 242 (98&#37;) completed the assessment, and 218 assessments (90&#37;) were successfully taped on video. 208 students of the latter group (95&#37;) completed the questionnaire. The median of the number of rated students per rater was 11 in each group (4-12 in the untrained and 5-12 in the trained group, respectively).</Pgraph><SubHeadline2>Observers&#8217; ratings and their concordance</SubHeadline2><Pgraph>To assess the accuracy of the ratings, the median of the global ratings of the three observers was used as comparison. The difference between this median and the grade of the rater was used to estimate the (lack of) accuracy. To evaluate the adequacy of this, we estimated the coefficient of concordance between the observers, which was 0.70 (<Mark2>P</Mark2>&#61;5.84x10<Superscript>-19</Superscript>). The concordance was higher between the two student observers (0.90, <Mark2>P</Mark2>&#61;6.58x10-<Superscript>12</Superscript>) than between the faculty member and the students (0.70, <Mark2>P</Mark2>&#61;1.26x10<Superscript>-4</Superscript> and 0.73, <Mark2>P</Mark2>&#61;1.01x10<Superscript>-5</Superscript>, respectively). Sixty-one and 75&#37; of the students&#39; ratings equalled the median of all three raters, respectively, and 30&#37; of the faculty&#39;s ratings. The median overall grading &#91;1<Superscript>st</Superscript>;3<Superscript>rd</Superscript> quartile&#93; of the observers was 2 &#91;1-;2-&#93; (German school grading, see table 1 <ImgLink imgNo="1" imgType="table"/>). Comparing the grades among observers, the faculty&#39;s median grade &#91;1<Superscript>st</Superscript>;3<Superscript>rd</Superscript> quartile&#93; was more stringent than the students&#39; grades (2- &#91;2&#43;;3&#93; versus 2 &#91;1-;2-&#93; both). The overall ratings of the observers after assessing the seven dimensions (see table 2 <ImgLink imgNo="2" imgType="table"/>) were virtually the same as these ratings and did not enter further analysis.</Pgraph><SubHeadline2>Effect of training on grading and accuracy, effect of experience on accuracy</SubHeadline2><Pgraph>The median overall grading &#91;1<Superscript>st</Superscript>;3<Superscript>rd</Superscript> quartile&#93; of the trained raters was 2 &#91;1-;2-&#93; and of the untrained raters 2&#43; &#91;1;2&#93;, respectively. The pairs of means (&#177;SEM) of the raters&#8217; and median observers&#8217; gradings are given in figure 2 <ImgLink imgNo="2" imgType="figure"/>. In the generalised estimating equations model, the trained raters were more stringent than those without the training (&#946;&#61;-0.94 &#177;0.36, <Mark2>P</Mark2>&#61;0.01). No effect of the training on rating accuracy was detectable (&#946;&#61;-0.09 &#177;0.20, <Mark2>P</Mark2>&#61;0.64). The factor experience of the raters did not have any influence on the accuracy of the ratings (&#946;&#61;-0.12 &#177;0.17, <Mark2>P</Mark2>&#61;0.48).</Pgraph><SubHeadline2>Self-assessment by the students</SubHeadline2><Pgraph>Similar to the grades of the raters, the students in the group with trained raters assessed themselves more stringently than the students in the group with untrained raters (2 &#91;2&#43;;2&#93; and 2&#43; &#91;1-;2&#93;, respectively; <Mark2>P</Mark2>&#61;0.01 from the Mann-Whitney U test). The concordance between the raters&#39; grading and the self-assessment of the students was high in both groups (Kendall&#39;s coefficient 0.83 and 0.80 in the group with trained and untrained raters, respectively, <Mark2>P</Mark2>&#61;1.29x10<Superscript>-5</Superscript> and <Mark2>P</Mark2>&#61;1.25x10<Superscript>-4</Superscript>). However, students in the group with trained raters disagreed more strongly with their assessment, finding their grade more often inadequate (<Mark2>P</Mark2>&#61;5.74x10<Superscript>-3</Superscript> from the Mann-Whitney U test).</Pgraph><Pgraph>The range of grades applied by each rater did not differ between the groups. The mean standard deviations of the grades were 0.56 &#177;0.18 in the group of trained raters and 0.61 &#177;0.15 in the group of untrained raters. The corresponding standard deviation of the observers&#39; medians were 0.67 &#177;0.26 and 0.66 &#177;0.19, and of the students&#39; self-assessment 0.49 &#177;0.21 and 0.50 &#177;0.10.</Pgraph><Pgraph>The raters&#39; views on the idea of a rater training and on their own performance are given in figure 1 <ImgLink imgNo="1" imgType="figure"/>. Of the eleven trained raters, ten agreed with the notion that he or she felt more secure in their judgement after the training; one rater was neutral in this regard.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline2>Stichprobe</SubHeadline2><Pgraph>Alle 21 Pr&#252;fer vollendeten die Studie. Die Charakteristika der geschulten und ungeschulten Pr&#252;fer sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> wiedergegeben. Die zuf&#228;llig ausgew&#228;hlten Pr&#252;fer der geschulten Gruppe waren &#228;lter sowie h&#228;ufiger m&#228;nnlich, h&#246;hergestellt und pr&#252;fungserfahren. Von den 247 Studierenden, die zum Testat angemeldet waren, absolvierten 242 (98&#37;) das Testat und 218 Testate (90&#37;) wurden erfolgreich auf Video dokumentiert. 208 Pr&#252;flinge der letzten Gruppe (95&#37;) beantworteten den Fragebogen. Der Median von Pr&#252;flingen pro Pr&#252;fer war 11 in beiden Gruppen (4-12 Pr&#252;flinge in der ungeschulten bzw. 5-12 in der geschulten Gruppe). </Pgraph><SubHeadline2>Noten der Nachpr&#252;fer und ihre Konkordanz</SubHeadline2><Pgraph>Um die Genauigkeit der Bewertungen abzusch&#228;tzen, wurde der Median der Gesamtnoten der drei Nachpr&#252;fer als Vergleich herangezogen. Die Differenz zwischen diesem Median und der Pr&#252;fernote definierte die Genauigkeit (bzw. Ungenauigkeit). Um die Zul&#228;ssigkeit dieses Vorgehens zu determinieren, errechneten wir den Konkordanzkoeffizienten zwischen den drei Nachpr&#252;fern. Dieser betrug 0,70 (<Mark2>P</Mark2>&#61;5,84x10<Superscript>-19</Superscript>). Die Konkordanz war h&#246;her zwischen den studentischen Nachpr&#252;fern (0,90; <Mark2>P</Mark2>&#61;6,58x10<Superscript>-12</Superscript>) als zwischen dem Dozenten und den Studenten (0,70; <Mark2>P</Mark2>&#61;1,26x10<Superscript>-4</Superscript> bzw. 0,73; <Mark2>P</Mark2>&#61;1,01x10<Superscript>-5</Superscript>). 71 bzw. 75&#37; der studentischen Noten entsprachen dem Median, w&#228;hrend das nur in 30&#37; beim Dozenten der Fall war. Der Median der Gesamtnote &#91;1.;3. Quartile&#93; der Nachpr&#252;fer war 2 &#91;1-;2-&#93;. Im Vergleich der Bewertungen der Nachpr&#252;fer war der Median des Dozenten (2- &#91;2&#43;;3&#93;) strenger als derjenige der Studenten (beide 2 &#91;1-;2-&#93;). Die Gesamtnote nach Bewertung aller sieben Dimensionen (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>) war praktisch identisch mit der prim&#228;r gegebenen Gesamtnote und wurde nicht weiter verfolgt.</Pgraph><SubHeadline2>Effekt der Pr&#252;ferschulung auf Benotung und Genauigkeit, Effekt der Pr&#252;ferfahrung auf Genauigkeit</SubHeadline2><Pgraph>Der Median der Gesamtnote &#91;1.;3. Quartile&#93; der geschulten Pr&#252;fer war 2 &#91;1-;2-&#93;, die der ungeschulten Pr&#252;fer 2&#43; &#91;1;2&#93;. In Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> sind die mittleren Gesamtnoten der Pr&#252;fer (&#177;Standardfehler) gegen die korrespondierenden Gesamtnoten der Nachpr&#252;fer aufgetragen. Im Modell der verallgemeinerten Sch&#228;tzgleichungen waren die geschulten Pr&#252;fer strenger als die ungeschulten (<Mark2>&#946;</Mark2>&#61;-0,94 &#177;0,36; <Mark2>P</Mark2>&#61;0,01).</Pgraph><Pgraph>Es gab keinen erkennbaren Effekt der Schulung auf die Genauigkeit (<Mark2>&#946;</Mark2>&#61;-0,09 &#177;0,20; <Mark2>P</Mark2>&#61;0,64). Der Faktor &#34;Pr&#252;ferfahrung&#34; hatte ebenfalls keinen Einfluss auf die Genauigkeit der Benotung (<Mark2>&#946;</Mark2>&#61;-0,12 &#177;0,17; <Mark2>P</Mark2>&#61;0,48).</Pgraph><SubHeadline2>Selbsteinsch&#228;tzung der Pr&#252;flinge</SubHeadline2><Pgraph>Analog zu den Benotungen der Pr&#252;fer sch&#228;tzten sich die Pr&#252;flinge, die von geschulten Pr&#252;fern testiert worden waren, strenger ein als die Pr&#252;flinge, deren Pr&#252;fer nicht geschult waren (2 &#91;2&#43;;2&#93; bzw. 2&#43; &#91;1-;2&#93;; P&#61;0,01 nach Mann-Whitney U-Test). Die Konkordanz zwischen den Pr&#252;fernoten und der Selbsteinsch&#228;tzung war in beiden Gruppe hoch (Kendalls Koeffizient 0,83 bzw. 0,80 in der Gruppe mit geschulten bzw. ungeschulten Pr&#252;fern; <Mark2>P</Mark2>&#61;1,29x10<Superscript>-5</Superscript> bzw. <Mark2>P</Mark2>&#61;1,25x10<Superscript>-4</Superscript>). Allerdings waren die Pr&#252;flinge, die von geschulten Pr&#252;fern testiert worden waren, bez&#252;glich ihrer Note eher unzufrieden und fanden die Benotung h&#228;ufiger nicht ad&#228;quat (<Mark2>P</Mark2>&#61;5,74x10<Superscript>-3</Superscript> nach Mann-Whitney U-Test).</Pgraph><Pgraph>Die Bandbreite der verwendeten Notenskala unterschied sich nicht zwischen geschulten und ungeschulten Pr&#252;fern. Die mittleren Standardabweichungen der gegebenen Noten waren 0,56 &#177;0,18 in der Gruppe der geschulten und 0,61 &#177;0,15 in der Gruppe der ungeschulten Pr&#252;fer. Die entsprechenden Standardabweichungen der Mediane der Nachbeobachter waren 0,67 &#177;0,26 bzw. 0,66 &#177;0,19, die der studentischen Selbsteinsch&#228;tzungen 0,49 &#177;0,21 bzw. 0,50 &#177;0,10.</Pgraph><Pgraph>Die erfragten Meinungen der Pr&#252;fer zur Pr&#252;ferschulung und ihre Sicht auf die eigenen Leistungen sind in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> wiedergegeben. Von den elf geschulten Pr&#252;fern gaben zehn an, sich bei der Benotung sicherer gef&#252;hlt zu haben. Der elfte Pr&#252;fer &#228;u&#223;erte sich in dieser Hinsicht neutral. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>The present study failed to show an effect of a rater training on the raters&#39; accuracy. Trained raters were more stringent than their untrained counterparts but did not apply a wider range of grades. These results largely reflect the outcome of previous studies on rater training in a medical context. In the study by Newble and coworkers <TextLink reference="19"></TextLink>, raters were asked to fill in a rating form and rating quality was measured by the consistency of the raters in assessing five videotaped encounters. Similar to our study, this study focussed on physical examination skills. Despite the rather specific task, the overall consistency was only moderate to acceptable and did not change after the training. The most inconsistent ratings were given in the items &#34;general approach to the patient&#34; and &#34;general observation&#34;, indicating that global rating categories (as applied in our study) were more difficult to agree on than more specific categories. </Pgraph><Pgraph>Holmboe and co-workers studied the effects of a four-day faculty development course on the rating of nine scripted videotaped clinical encounters using a mini-CEX rating form <TextLink reference="20"></TextLink>. The trained faculty members felt significantly more comfortable with their evaluations of real-live encounters in a follow-up survey. After eight months the participants were re-assessed. The trained raters were found to rate significantly more stringent partially with smaller ranges of ratings. The accuracy of ratings was represented by the capability to discriminate three different levels of competence displayed in the videos. This discrimination was good in the trained and untrained raters both before and after the training. Although the approach in this study was fundamentally different to ours, the higher stringency of the trained raters and the lack of evidence for an effect on accuracy very much resemble the results of our study. </Pgraph><Pgraph>The effects of a rater training on accuracy was more specifically studied by Cook and coworkers <TextLink reference="21"></TextLink>. Eighteen of the thirty-two videos used in the pre- and post-test, respectively, were the same scripted videos used by Holmboe and co-workers. The time span between training and the re-assessment in this study was one month. Accuracy was estimated by discrimination of the mean ratings between the scripted levels of competence, by the frequency with which ratings matched scripted performance, and (because of disagreements with the scripted performance ratings) by a chance-corrected agreement using intraclass correlation coefficients. The rater training had no effect at all on either of these accuracy measures. Notably, the interrater reliability for the ratings in the subcategory &#34;physical examination&#34; was comparably small. This might indicate that it was particularly difficult to achieve an agreement on the performance ratings in physical examination.</Pgraph><Pgraph>Our study differed to the previous studies on rater training in one decisive point. While the other studies used prepared video scenes to assess rating scores, we investigated real-live student-SP encounters and re-assessed them by video recordings. Re-assessing examinations by videotapes may have an impact on the ratings and has been formerly studied. In a study dealing with an OSCE assessing joint examination skills, the investigators found a moderate interrater-reliability between live and video raters <TextLink reference="22"></TextLink>. The authors point out that the range was similar to previously published interrater-reliability scores of live raters <TextLink reference="23"></TextLink>. A second study with pharmacy students specifically studied the intra-rater reliability after one month <TextLink reference="24"></TextLink>. The reliability was high; however, due to a higher stringency in the video rating, more candidates would have failed in the post-hoc assessment. A higher stringency in video ratings had already been observed in the first study on joint examinations and in tendency was also present in our study. This effect is most likely due to the fact that an on-scene rater has to announce his judgement face-to-face to the student, while a video observer does not have to take responsibility for his ratings. Announcing decisions face-to-face indeed influences the ratings towards greater leniency <TextLink reference="25"></TextLink>. Since this affected both groups equally in our study, we do not consider it crucial for the interpretation of our data.</Pgraph><Pgraph>To overcome the problem of low interrater-reliability in rating medical encounters <TextLink reference="26"></TextLink>, we re-assessed the videotaped encounters by three observers each. Two of the observers were senior students; the third observer was a faculty member. Trained students have been shown to be equally reliable in rating the practical skills of their junior peers than faculty staff <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. Latter studies also show that faculty staff rate more stringently than do student assessors. This was obvious in our study. Hence, by choosing the median of the three observers as the measure for accuracy, the student observers&#39; ratings dominated the re-ratings. This might be a concern in the interpretation of the data. Moreover, the randomisation process in our study skewed the allocation of the raters to the groups: the raters in the training group were older, more likely male, and senior and they were more frequently experienced in testing students. These factors have been shown to have no <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink> or marginal <TextLink reference="31"></TextLink> influence on ratings. Accordingly, in our study we were also unable to find an influence of the factor &#34;rating experience&#34; on rating accuracy.</Pgraph><Pgraph>Other concerns might be the size of the study and the type of intervention. To reduce the effect of intra-observer variety we tried to achieve a sample size of at least ten examinees per rater. Due to the size of the students&#39; cohort, the number of raters was therefore limited to a little over twenty. This was also the number of physicians we were able to recruit from the medical departments for the time of the exams. The time limit of the training was related to the time spent for the ratings (ninety minutes on either day). A greater number of raters or more training would not have been feasible in our setting. We also believe that the effort of a more intensive intervention with the chance of a measurable effect on accuracy would not match the benefit. </Pgraph><Pgraph>However, some other aspects of the study seem noteworthy. Firstly, the time between the training and the exams was relatively short implying that the effect of the training was still present at the time of the ratings. Secondly, the task to be presented by the students was very clear and uniform. Hence, case specificy and contextual factors as sources of rater errors <TextLink reference="14"></TextLink>, <TextLink reference="32"></TextLink> could largely be eliminated from the experiment. And thirdly, one can also argue that the training indeed had some kind of effect on accuracy. The stringency of overall grading of the trained raters was significantly closer to the observers&#39; gradings and (despite the lack of individual accuracy) can be viewed as more accurate for the group. Consequently, the trained raters were rather less lenient than more stringent. The effect had already been observed in the study by Holmboe and coworkers <TextLink reference="20"></TextLink> and suggests that the training in a way helped to standardise the raters&#39; frame of reference by assigning a more appropriate range of ratings. However, the idiosyncrasy of processing the observations and converting the judgements to an ordinal scale <TextLink reference="33"></TextLink> within this range obviously remained unaffected. </Pgraph><Pgraph>The untrained raters also denied the possibility of a halo effect in their ratings more consistently than the trained raters. This might well be a training effect and implies that training may be able to raise the awareness of a cognitive bias. Moreover, the students assessed by the trained raters rather felt incorrectly judged, stating more often that their grading was inadequate. This can easily be explained by the more stringent grades in this group. The observation that despite this difference there was a similarly high concordance between the self-assessment of the students and the raters&#39; gradings in both groups could be due to the fact that the students filled in the questionnaire straight after the announcement of the grade. Hence, although the students in the trained raters&#39; group were more likely discontent with the grading, their self-assessment was strongly influenced by the raters&#39; judgement. </Pgraph><Pgraph>In conclusion, our study focussed on the curricular assessment of a very specific task, a brief and highly standardised physical examination. Rater training failed to have an impact on the raters&#39; individual accuracy. However, the stringency of ratings was more in line with the observers&#39; assessment when the raters were trained. Moreover, the trained raters were rather aware of a halo effect and their ratees were more likely discontent with their grade. The data suggest that rater training did have some kind of effect but that the idiosyncrasy of judgement in assessing complex medical skills is too strong to be influenced by a single training. The effort of implementing rater training in order to improve fairness of exams may therefore not be effective. Ratings of medical performance, however, should be interpreted with discretion. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Die vorliegende Studie konnte keinen Effekt einer Pr&#252;ferschulung auf die Genauigkeit der Bewertung belegen. Geschulte Pr&#252;fer waren strenger als ungeschulte, haben aber die Bandbreite der Notenskala nicht besser genutzt. Diese Ergebnisse spiegeln im Wesentlichen die Ergebnisse anderer Studien zu Pr&#252;ferschulungen im medizinischen Kontext wider. In der Studie von Newble und Mitarbeitern <TextLink reference="19"></TextLink> mussten die Pr&#252;fer Bewertungsb&#246;gen ausf&#252;llen und die Bewertungsqualit&#228;t wurde anhand der &#220;bereinstimmung bemessen, mit der die Pr&#252;fer f&#252;nf gefilmte Situationen bewerteten. Wie in unserer Studie fokussierten die Autoren auf k&#246;rperliche Untersuchungstechniken. Trotz der hohen Spezifit&#228;t der Aufgabe war die &#220;bereinstimmung allenfalls schwach bis akzeptabel und ver&#228;nderte sich nach der Schulung nicht. Die geringsten &#220;bereinstimmungen ergaben sich in den Merkmalen &#34;allgemeiner Zugang zum Patienten&#34; und &#34;allgemeine Beobachtung&#34;. Dies k&#246;nnte darauf hindeuten, dass allgemeine Kategorien (wie in unserer Studie) schwieriger einheitlich zu bewerten sind als konkretere. </Pgraph><Pgraph>Holmboe und Mitarbeiter untersuchten die Effekte eines viert&#228;gigen hochschuldidaktischen Kurses auf die Bewertung von neun Filmszenen einer Arzt-Patienten-Interaktion mittels Mini-CEX-Bewertungsbogen <TextLink reference="20"></TextLink>. Die geschulten Pr&#252;fer f&#252;hlten sich in einer sp&#228;teren Umfrage wesentlich sicherer mit ihrer Einsch&#228;tzung von tats&#228;chlichen Arzt-Patienten-Interaktionen. Nach acht Monaten wurden die Teilnehmer erneut beurteilt. Die geschulten Pr&#252;fer benoteten dabei wesentlich strenger unter geringerer Ausnutzung der Notenskala. Die Genauigkeit wurde als F&#228;higkeit definiert, zwischen drei verschiedenen Kompetenzstufen der gezeigten Filmszenen zu unterscheiden. Die Differenzierung war gleicherma&#223;en gut bei geschulten wie ungeschulten Pr&#252;fern vor und nach dem Training. Obwohl sich dieser Ansatz grunds&#228;tzlich von unserem unterscheidet, spiegeln die gr&#246;&#223;ere Strenge der geschulten Pr&#252;fer und das Ausbleiben eines Effekts der Schulung auf die Genauigkeit in dieser Studie unsere Ergebnisse weitgehend wider.  </Pgraph><Pgraph>Die Effekte einer Pr&#252;ferschulung auf die Genauigkeit der Bewertung wurden noch spezifischer von Cook und Mitarbeitern untersucht <TextLink reference="21"></TextLink>. 18 der 32 in Pr&#228;- und Posttest verwendeten Videos beinhalteten dieselben gestellten Szenen, die schon Holmboe und Mitarbeiter verwendet hatten. Die Zeitspanne zwischen Schulung und Nachuntersuchung betrug in dieser Studie einen Monat. Genauigkeit war definiert als Unterscheidung der Gesamtnoten zwischen den im Video dargestellten Kompetenzstufen, als H&#228;ufigkeit der &#220;bereinstimmung der Note mit dem intendierten Ergebnis, und (wegen unterschiedlicher Meinungen &#252;ber die tats&#228;chlich dargestellten Kompetenzstufen) als zufallskorrigierte &#220;bereinstimmung mittels Intraklassen-Korrelationskoeffizienten. Die Pr&#252;ferschulung hatte auf keinen dieser Parameter einen Einfluss. Interessanterweise war die Interrater-Reliabilit&#228;t f&#252;r Bewertungen in der Unterkategorie &#34;k&#246;rperliche Untersuchung&#34; auff&#228;llig niedrig. Dies k&#246;nnte darauf hindeuten, dass es besonders schwierig war, in dieser Disziplin Einigkeit zu erzielen. </Pgraph><Pgraph>Unsere Studie unterschied sich von den vorigen Studien zur Pr&#252;ferschulung in einem entscheidenden Punkt: W&#228;hrend andere Studien f&#252;r die Bewertungen vorbereitete Videos verwendeten, untersuchten wir tats&#228;chliche Pr&#252;fungssituationen, die wir mitschnitten und sp&#228;ter nachevaluierten. Diese Nachuntersuchung k&#246;nnte einen Einfluss auf die Bewertungen haben, der bereits wissenschaftlich untersucht wurde: In einer Studie &#252;ber ein OSCE zu Gelenkuntersuchungen fanden die Autoren eine moderate Interrater-Reliabilit&#228;t zwischen der Bewertung in der Pr&#252;fung und der Bewertung der Aufzeichnung der Pr&#252;fung <TextLink reference="22"></TextLink>. Die Autoren betonen aber, dass der Unterschied &#228;hnlich gro&#223; war wie die zuvor publizierte Interrater-Reliabilit&#228;t zwischen zwei Pr&#252;fern derselben Pr&#252;fung <TextLink reference="23"></TextLink>. Eine zweite Studie mit Pharmaziestudenten untersuchte die Intrarater-Reliabilit&#228;t nach einem Monat <TextLink reference="24"></TextLink>. Die Reliabilit&#228;t war hoch, allerdings w&#228;ren aufgrund einer gr&#246;&#223;eren Strenge bei der Bewertung der Videoaufzeichnung nach einem Monat mehr Kandidaten durchgefallen. Eine gr&#246;&#223;ere Strenge bei der Bewertung von Videoaufzeichnungen war bereits in der vorgenannten Studie &#252;ber die Gelenkuntersuchungen beobachtet worden und auch wir beobachten in unserer Studie eine solche Tendenz. Dieser Effekt d&#252;rfte dadurch bedingt sein, dass ein tats&#228;chlicher Pr&#252;fer sein Urteil dem Kandidaten ins Gesicht sagen muss, w&#228;hrend der Bewerter eines Videos f&#252;r seine Bewertung keine unmittelbare Verantwortung &#252;bernehmen muss. Das Mitteilen des eigenen Urteils macht Bewertungen in der Tat gro&#223;z&#252;giger <TextLink reference="25"></TextLink>. Da dieser Effekt in unserer Studie aber beide Gruppen gleicherma&#223;en betraf, d&#252;rfte er nicht entscheidend f&#252;r die Interpretation unserer Ergebnisse sein.</Pgraph><Pgraph>Um dem Problem der niedrigen Interrater-Reliabilit&#228;t bei der Bewertung medizinischer Interaktionen <TextLink reference="26"></TextLink> zu begegnen, haben wir alle Pr&#252;fungen von drei Nachpr&#252;fern noch einmal bewerten lassen. Zwei der Nachpr&#252;fer waren &#228;ltere Studenten, der dritte Dozent. Untersuchungen haben ergeben, das trainierte Studenten praktische Fertigkeiten ihrer j&#252;ngeren Kommilitonen &#228;hnlich verl&#228;sslich bewerten wie Dozenten <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>. Diese Studien zeigen auch, dass Dozenten dabei strenger bewerten. Dies war auch in unserer Studie der Fall. Indem wir den Median der drei Nachpr&#252;fer als Ma&#223; f&#252;r Genauigkeit gew&#228;hlt haben, dominierten die studentischen Bewertungen unter den Nachpr&#252;fern. Dies k&#246;nnte ein Problem bei der Interpretation der Ergebnisse darstellen. Dar&#252;ber hinaus verzerrte der Randomisierungsprozess die Allokation der Pr&#252;fer zu den beiden Gruppen: Die Pr&#252;fer der Schulungsgruppe waren &#228;lter, eher m&#228;nnlich, h&#246;hergestellt und h&#228;ufiger erfahrene Pr&#252;fer. Diese Faktoren hatten in anderen Studien allerdings keinen <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink> oder allenfalls marginalen <TextLink reference="31"></TextLink> Einfluss auf die Qualit&#228;t von Pr&#252;ferurteilen. Passend dazu konnten wir in unserer Studie ebenfalls keinen Einfluss des Faktors &#34;Pr&#252;fungserfahrung&#34; auf die Pr&#252;fergenauigkeit feststellen.</Pgraph><Pgraph>Andere Probleme k&#246;nnten in der Stichprobengr&#246;&#223;e und in der Art der Intervention gesehen werden. Um den Beobachterfehler zu minimieren haben wir versucht, auf mindestens zehn Pr&#252;flinge pro Pr&#252;fer zu kommen. Angesichts der Jahrgangsgr&#246;&#223;e war die Stichprobe also auf etwas &#252;ber 20 Pr&#252;fer limitiert. Das war gleichzeitig die Menge an &#196;rzten, die wir f&#252;r die Testate aus dem laufenden Klinikbetrieb rekrutieren konnten. Die Dauer der Schulung richtete sich nach dem Zeitaufwand f&#252;r die Testate (90 Minuten an beiden Tagen). Eine gr&#246;&#223;ere Anzahl an Pr&#252;fern und eine l&#228;ngere Schulung h&#228;tten wir nicht bew&#228;ltigen k&#246;nnen. Zudem sind wir der Meinung, dass der Aufwand einer noch intensiveren Schulung (mit m&#246;glicherweise messbarem Effekt auf die Genauigkeit) dem potentiellen Nutzen nicht mehr entsprochen h&#228;tte.</Pgraph><Pgraph>Einige andere Aspekte erscheinen uns noch erw&#228;hnenswert: Zun&#228;chst einmal war die Zeitspanne zwischen Schulung und Testaten recht kurz, so dass der Trainingseffekt w&#228;hrend der Testate vermutlich noch pr&#228;sent war. Zweitens war die Aufgabe, die die Pr&#252;flinge erf&#252;llen sollten, sehr klar definiert und einheitlich. Kontextuelle Faktoren als Fehlerquellen <TextLink reference="14"></TextLink>, <TextLink reference="32"></TextLink> waren also bereits durch den Versuchsaufbau weitgehend ausgeschlossen. Und drittens k&#246;nnte man auch argumentieren, dass die Schulung doch einen gewissen Effekt auf die Pr&#252;fergenauigkeit hatte: Die Strenge der Gesamtnote der geschulten Pr&#252;fer war deutlich n&#228;her an derjenigen der Nachpr&#252;fer. Demnach war die Notengebung trotz der individuellen Ungenauigkeit im Ganzen zutreffender. Die geschulten Pr&#252;fer waren also eher &#34;weniger nachgiebig&#34; als &#34;strenger&#34;. Diesen Effekt hatten bereits Holmboe und Mitarbeiter beobachtet <TextLink reference="20"></TextLink>. Das w&#252;rde bedeuten, dass die Schulung doch den Bezugsrahmen der Pr&#252;fer vereinheitlicht hat, indem es sie in die Lage versetzt hat, eine angemessenere Notenskala zu verwenden. Die Individualit&#228;t der Informationsverarbeitung durch die Pr&#252;fer und der Konversion ihrer Beobachtung und Beurteilung in eine Schulnote <TextLink reference="33"></TextLink> blieb davon jedoch unber&#252;hrt.</Pgraph><Pgraph>Die ungeschulten Pr&#252;fer glaubten weniger an die M&#246;glichkeit eines Halo-Effektes als die geschulten. Dies k&#246;nnte durchaus ein Schulungseffekt sein und impliziert, dass eine Pr&#252;ferschulung f&#252;r kognitive Verzerrungen sensibilisieren kann. Dar&#252;ber hinaus f&#252;hlten sich Pr&#252;flinge von geschulten Pr&#252;fern eher ungerecht behandelt, da sie h&#228;ufiger angaben, ihre Benotung sei nicht ad&#228;quat gewesen. Dies kann leicht durch die strengere Benotung erkl&#228;rt werden. Dennoch war die Konkordanz zwischen Selbsteinsch&#228;tzung und gegebener Note in beiden Gruppen gleich gro&#223;. Die Pr&#252;flinge mussten sich allerdings selbst einsch&#228;tzen, kurz nachdem sie ihre Note erhalten hatten. Demnach k&#246;nnte trotz aller Unzufriedenheit die selbst gegebene Note noch stark von der Note des Pr&#252;fers beeinflusst worden sein.</Pgraph><Pgraph>Zusammenfassend bezog sich unsere Studie auf ein curricul&#228;res Testat mit einer &#228;u&#223;erst spezifischen Aufgabe, einer kurzen und stark standardisierten k&#246;rperlichen Untersuchung. Die Pr&#252;ferschulung hatte keinen Einfluss auf die individuelle Genauigkeit der Benotung. Allerdings lag die Strenge der Bewertungen durch die geschulten Pr&#252;fer n&#228;her an den Bewertungen der Nachbeobachter als das bei den ungeschulten Pr&#252;fern der Fall war. Zudem waren die geschulten Pr&#252;fer sich des Halo-Effekts eher bewusst und ihre Pr&#252;flinge waren mit ihrer eigenen Benotung h&#228;ufiger unzufrieden. Die Ergebnisse weisen darauf hin, dass die geschilderte Pr&#252;ferschulung zwar einen gewissen Effekt hatte, dass aber die au&#223;erordentliche Individualit&#228;t der Urteilsbildung bei der Bewertung komplexer medizinischer Fertigkeiten zu stark ist, um von einer einzigen Schulung beeinflusst zu werden. Der Aufwand einer regul&#228;ren Pr&#252;ferschulung zur Verbesserung der Fairness von Testaten d&#252;rfte sich daher kaum lohnen. Vielmehr sollten die Beurteilungen von medizinischen Fertigkeiten mit Vorsicht bewertet werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>The authors are deeply indebted to Prof. Jana J&#252;nger and Dr. Andreas M&#246;ltner from the Center of Excellence for Assessment in Medicine Baden-W&#252;rttemberg (Heidelberg, Germany) for sharing their expertise during the planning phase and in the statistical evaluation, and for providing video equipment. We would also like to thank Sebastian Sosnowki and Christopher Beck for their excellent assistance in videotaping the exams and evaluating the recordings. We also sincerely acknowledge the commitment of Jennifer Miles Davis in proof reading the manuscript.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>Die Autoren sind insbesondere Prof. Dr. Jana J&#252;nger und Dr. Andreas M&#246;ltner vom Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin, Baden-W&#252;rttemberg, zu Dank verpflichtet f&#252;r ihre Beratung in der Planungsphase und bei der statistischen Auswertung sowie f&#252;r die Zurverf&#252;gungstellung der Videokameras. Au&#223;erdem m&#246;chten wir Sebastian Sosnowki und Christopher Beck f&#252;r die Assistenz bei den Filmaufnahmen und die Auswertung der Filme herzlich danken. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Horwitz RI</RefAuthor>
        <RefAuthor>Kassirer JP</RefAuthor>
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefAuthor>Humphrey HJ</RefAuthor>
        <RefAuthor>Verghese A</RefAuthor>
        <RefAuthor>Croft C</RefAuthor>
        <RefAuthor>Kwok M</RefAuthor>
        <RefAuthor>Loscalzo J</RefAuthor>
        <RefTitle>Internal medicine residency redesign: proposal of the Internal Medicine Working Group</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Am J Med</RefJournal>
        <RefPage>806-812</RefPage>
        <RefTotal>Horwitz RI, Kassirer JP, Holmboe ES, Humphrey HJ, Verghese A, Croft C, Kwok M, Loscalzo J. Internal medicine residency redesign: proposal of the Internal Medicine Working Group. Am J Med. 2011;124(9):806-812. DOI: 10.1016&#47;j.amjmed.2011.03.007</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.amjmed.2011.03.007</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Clark D</RefAuthor>
        <RefAuthor>III</RefAuthor>
        <RefAuthor>Ahmed MI</RefAuthor>
        <RefAuthor>Dell&#39;italia LJ</RefAuthor>
        <RefAuthor>Fan P</RefAuthor>
        <RefAuthor>McGiffin DC</RefAuthor>
        <RefTitle>An argument for reviving the disappearing skill of cardiac auscultation</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Cleve Clin J Med</RefJournal>
        <RefPage>536-537, 544</RefPage>
        <RefTotal>Clark D, III, Ahmed MI, Dell&#39;italia LJ, Fan P, McGiffin DC. An argument for reviving the disappearing skill of cardiac auscultation. Cleve Clin J Med. 2012;79(8):536-537, 544. DOI: 10.3949&#47;ccjm.79a.12001</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3949&#47;ccjm.79a.12001</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Smith MA</RefAuthor>
        <RefAuthor>Burton WB</RefAuthor>
        <RefAuthor>Mackay M</RefAuthor>
        <RefTitle>Development, impact, and measurement of enhanced physical diagnosis skills</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>547-556</RefPage>
        <RefTotal>Smith MA, Burton WB, Mackay M. Development, impact, and measurement of enhanced physical diagnosis skills. Adv Health Sci Educ Theory Pract. 2009;14(4):547-556. DOI: 10.1007&#47;s10459-008-9137-z</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s10459-008-9137-z</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Ramani S</RefAuthor>
        <RefAuthor>Ring BN</RefAuthor>
        <RefAuthor>Lowe R</RefAuthor>
        <RefAuthor>Hunter D</RefAuthor>
        <RefTitle>A pilot study assessing knowledge of clinical signs and physical examination skills in incoming medicine residents</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>J Grad Med Educ</RefJournal>
        <RefPage>232-235</RefPage>
        <RefTotal>Ramani S, Ring BN, Lowe R, Hunter D. A pilot study assessing knowledge of clinical signs and physical examination skills in incoming medicine residents. J Grad Med Educ. 2010;2(2):232-235. DOI: 10.4300&#47;JGME-D-09-00107.1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.4300&#47;JGME-D-09-00107.1</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Alexander EK</RefAuthor>
        <RefTitle>Perspective: moving students beyond an organ-based approach when teaching medical interviewing and physical examination skills</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>906-909</RefPage>
        <RefTotal>Alexander EK. Perspective: moving students beyond an organ-based approach when teaching medical interviewing and physical examination skills. Acad Med. 2008;83(10):906-909. DOI: 10.1097&#47;ACM.0b013e318184f2e5</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e318184f2e5</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Ainsworth MA</RefAuthor>
        <RefAuthor>Rogers LP</RefAuthor>
        <RefAuthor>Markus JF</RefAuthor>
        <RefAuthor>Dorsey NK</RefAuthor>
        <RefAuthor>Blackwell TA</RefAuthor>
        <RefAuthor>Petrusa ER</RefAuthor>
        <RefTitle>Standardized patient encounters. A method for teaching and evaluation</RefTitle>
        <RefYear>1991</RefYear>
        <RefJournal>JAMA</RefJournal>
        <RefPage>1390-1396</RefPage>
        <RefTotal>Ainsworth MA, Rogers LP, Markus JF, Dorsey NK, Blackwell TA, Petrusa ER. Standardized patient encounters. A method for teaching and evaluation. JAMA. 1991;266(10):1390-1396. DOI: 10.1001&#47;jama.1991.03470100082037</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1001&#47;jama.1991.03470100082037</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Barley GE</RefAuthor>
        <RefAuthor>Fisher J</RefAuthor>
        <RefAuthor>Dwinnell B</RefAuthor>
        <RefAuthor>White K</RefAuthor>
        <RefTitle>Teaching foundational physical examination skills: study results comparing lay teaching associates and physician instructors</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S95-S97</RefPage>
        <RefTotal>Barley GE, Fisher J, Dwinnell B, White K. Teaching foundational physical examination skills: study results comparing lay teaching associates and physician instructors. Acad Med. 2006;81(10 Suppl):S95-S97. DOI: 10.1097&#47;00001888-200610001-00024</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-200610001-00024</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Norcini JJ</RefAuthor>
        <RefAuthor>Blank LL</RefAuthor>
        <RefAuthor>Duffy FD</RefAuthor>
        <RefAuthor>Fortna GS</RefAuthor>
        <RefTitle>The mini-CEX: a method for assessing clinical skills</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Ann Intern Med</RefJournal>
        <RefPage>476-481</RefPage>
        <RefTotal>Norcini JJ, Blank LL, Duffy FD, Fortna GS. The mini-CEX: a method for assessing clinical skills. Ann Intern Med. 2003;138(6):476-481. DOI: 10.7326&#47;0003-4819-138-6-200303180-00012</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.7326&#47;0003-4819-138-6-200303180-00012</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Newble D</RefAuthor>
        <RefTitle>Techniques for measuring clinical competence: objective structured clinical examinations</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>199-203</RefPage>
        <RefTotal>Newble D. Techniques for measuring clinical competence: objective structured clinical examinations. Med Educ. 2004;38(2):199-203. DOI: 10.1111&#47;j.1365-2923.2004.01755.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2004.01755.x</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Pelgrim EA</RefAuthor>
        <RefAuthor>Kramer AW</RefAuthor>
        <RefAuthor>Mokkink HG</RefAuthor>
        <RefAuthor>van den EL</RefAuthor>
        <RefAuthor>Grol RP</RefAuthor>
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefTitle>In-training assessment using direct observation of single-patient encounters: a literature review</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>131-142</RefPage>
        <RefTotal>Pelgrim EA, Kramer AW, Mokkink HG, van den EL, Grol RP, van der Vleuten CP. In-training assessment using direct observation of single-patient encounters: a literature review. Adv Health Sci Educ Theory Pract. 2011;16(1):131-142. DOI: 10.1007&#47;s10459-010-9235-6</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s10459-010-9235-6</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Chen W</RefAuthor>
        <RefAuthor>Liao SC</RefAuthor>
        <RefAuthor>Tsai CH</RefAuthor>
        <RefAuthor>Huang CC</RefAuthor>
        <RefAuthor>Lin CC</RefAuthor>
        <RefAuthor>Tsai CH</RefAuthor>
        <RefTitle>Clinical skills in final-year medical students: the relationship between self-reported confidence and direct observation by faculty or residents</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Ann Acad Med Singapore</RefJournal>
        <RefPage>3-8</RefPage>
        <RefTotal>Chen W, Liao SC, Tsai CH, Huang CC, Lin CC, Tsai CH. Clinical skills in final-year medical students: the relationship between self-reported confidence and direct observation by faculty or residents. Ann Acad Med Singapore. 2008;37(1):3-8.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefAuthor>Hawkins RE</RefAuthor>
        <RefTitle>Methods for evaluating the clinical competence of residents in internal medicine: a review</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>Ann Intern Med</RefJournal>
        <RefPage>42-48</RefPage>
        <RefTotal>Holmboe ES, Hawkins RE. Methods for evaluating the clinical competence of residents in internal medicine: a review. Ann Intern Med. 1998;129(1):42-48. DOI: 10.7326&#47;0003-4819-129-1-199807010-00011</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.7326&#47;0003-4819-129-1-199807010-00011</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Noel GL</RefAuthor>
        <RefAuthor>Herbers JE Jr</RefAuthor>
        <RefAuthor>Caplow MP</RefAuthor>
        <RefAuthor>Cooper GS</RefAuthor>
        <RefAuthor>Pangaro LN</RefAuthor>
        <RefAuthor>Harvey J</RefAuthor>
        <RefTitle>How well do internal medicine faculty members evaluate the clinical skills of residents&#63;</RefTitle>
        <RefYear>1992</RefYear>
        <RefJournal>Ann Intern Med</RefJournal>
        <RefPage>757-765</RefPage>
        <RefTotal>Noel GL, Herbers JE Jr, Caplow MP, Cooper GS, Pangaro LN, Harvey J. How well do internal medicine faculty members evaluate the clinical skills of residents&#63; Ann Intern Med. 1992;117(9):757-765. DOI: 10.7326&#47;0003-4819-117-9-757</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.7326&#47;0003-4819-117-9-757</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Kogan JR</RefAuthor>
        <RefAuthor>Conforti L</RefAuthor>
        <RefAuthor>Bernabeo E</RefAuthor>
        <RefAuthor>Iobst W</RefAuthor>
        <RefAuthor>Holmboe E</RefAuthor>
        <RefTitle>Opening the black box of clinical skills assessment via observation: a conceptual model</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1048-1060</RefPage>
        <RefTotal>Kogan JR, Conforti L, Bernabeo E, Iobst W, Holmboe E. Opening the black box of clinical skills assessment via observation: a conceptual model. Med Educ. 2011;45(10):1048-1060. DOI: 10.1111&#47;j.1365-2923.2011.04025.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2011.04025.x</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Yeates P</RefAuthor>
        <RefAuthor>O&#39;Neill P</RefAuthor>
        <RefAuthor>Mann K</RefAuthor>
        <RefAuthor>Eva K</RefAuthor>
        <RefTitle>Seeing the same thing differently : Mechanisms that contribute to assessor differences in directly-observed performance assessments</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>325-341</RefPage>
        <RefTotal>Yeates P, O&#39;Neill P, Mann K, Eva K. Seeing the same thing differently : Mechanisms that contribute to assessor differences in directly-observed performance assessments. Adv Health Sci Educ Theory Pract. 2013;18(3):325-341. DOI: 10.1007&#47;s10459-012-9372-1</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s10459-012-9372-1</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Woehr DJ</RefAuthor>
        <RefTitle>Rater training for performance appraisal: a quantitative review</RefTitle>
        <RefYear>1994</RefYear>
        <RefJournal>J Occup Organ Psychol</RefJournal>
        <RefPage>189-205</RefPage>
        <RefTotal>Woehr DJ. Rater training for performance appraisal: a quantitative review. J Occup Organ Psychol. 1994;67:189-205. DOI: 10.1111&#47;j.2044-8325.1994.tb00562.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.2044-8325.1994.tb00562.x</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Lievens F</RefAuthor>
        <RefTitle>Assessor training strategies and their effects on accuracy, interrater reliability, and discriminant validity</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>J Appl Psychol</RefJournal>
        <RefPage>255-264</RefPage>
        <RefTotal>Lievens F. Assessor training strategies and their effects on accuracy, interrater reliability, and discriminant validity. J Appl Psychol. 2001;86(2):255-264. DOI: 10.1037&#47;0021-9010.86.2.255</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0021-9010.86.2.255</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Gorman CA</RefAuthor>
        <RefAuthor>Rentsch JR</RefAuthor>
        <RefTitle>Evaluating frame-of-reference rater training effectiveness using performance schema accuracy</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>J Appl Psychol</RefJournal>
        <RefPage>1336-1344</RefPage>
        <RefTotal>Gorman CA, Rentsch JR. Evaluating frame-of-reference rater training effectiveness using performance schema accuracy. J Appl Psychol. 2009;94(5):1336-1344. DOI: 10.1037&#47;a0016476</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;a0016476</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Newble DI</RefAuthor>
        <RefAuthor>Hoare J</RefAuthor>
        <RefAuthor>Sheldrake PF</RefAuthor>
        <RefTitle>The selection and training of examiners for clinical examinations</RefTitle>
        <RefYear>1980</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>345-349</RefPage>
        <RefTotal>Newble DI, Hoare J, Sheldrake PF. The selection and training of examiners for clinical examinations. Med Educ. 1980;14(5):345-349. DOI: 10.1111&#47;j.1365-2923.1980.tb02379.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.1980.tb02379.x</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefAuthor>Hawkins RE</RefAuthor>
        <RefAuthor>Huot SJ</RefAuthor>
        <RefTitle>Effects of training in direct observation of medical residents&#39; clinical competence: a randomized trial</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Ann Intern Med</RefJournal>
        <RefPage>874-881</RefPage>
        <RefTotal>Holmboe ES, Hawkins RE, Huot SJ. Effects of training in direct observation of medical residents&#39; clinical competence: a randomized trial. Ann Intern Med. 2004;140(11):874-881. DOI: 10.7326&#47;0003-4819-140-11-200406010-00008</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.7326&#47;0003-4819-140-11-200406010-00008</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Cook DA</RefAuthor>
        <RefAuthor>Dupras DM</RefAuthor>
        <RefAuthor>Beckman TJ</RefAuthor>
        <RefAuthor>Thomas KG</RefAuthor>
        <RefAuthor>Pankratz VS</RefAuthor>
        <RefTitle>Effect of rater training on reliability and accuracy of mini-CEX scores: a randomized, controlled trial</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>J Gen Intern Med</RefJournal>
        <RefPage>74-79</RefPage>
        <RefTotal>Cook DA, Dupras DM, Beckman TJ, Thomas KG, Pankratz VS. Effect of rater training on reliability and accuracy of mini-CEX scores: a randomized, controlled trial. J Gen Intern Med. 2009;24(1):74-79. DOI: 10.1007&#47;s11606-008-0842-3</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s11606-008-0842-3</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Vivekananda-Schmidt P</RefAuthor>
        <RefAuthor>Lewis M</RefAuthor>
        <RefAuthor>Coady D</RefAuthor>
        <RefAuthor>Morley C</RefAuthor>
        <RefAuthor>Kay L</RefAuthor>
        <RefAuthor>Walker D</RefAuthor>
        <RefAuthor>Hassell AB</RefAuthor>
        <RefTitle>Exploring the use of videotaped objective structured clinical examination in the assessment of joint examination skills of medical students</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Arthritis Rheum</RefJournal>
        <RefPage>869-876</RefPage>
        <RefTotal>Vivekananda-Schmidt P, Lewis M, Coady D, Morley C, Kay L, Walker D, Hassell AB. Exploring the use of videotaped objective structured clinical examination in the assessment of joint examination skills of medical students. Arthritis Rheum. 2007;57(5):869-876. DOI: 10.1002&#47;art.22763</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;art.22763</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Newble DI</RefAuthor>
        <RefAuthor>Hoare J</RefAuthor>
        <RefAuthor>Elmslie RG</RefAuthor>
        <RefTitle>The validity and reliability of a new examination of the clinical competence of medical students</RefTitle>
        <RefYear>1981</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>46-52</RefPage>
        <RefTotal>Newble DI, Hoare J, Elmslie RG. The validity and reliability of a new examination of the clinical competence of medical students. Med Educ. 1981;15(1):46-52. DOI: 10.1111&#47;j.1365-2923.1981.tb02315.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.1981.tb02315.x</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Sturpe DA</RefAuthor>
        <RefAuthor>Huynh D</RefAuthor>
        <RefAuthor>Haines ST</RefAuthor>
        <RefTitle>Scoring objective structured clinical examinations using video monitors or video recordings</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Am J Pharm Educ</RefJournal>
        <RefPage>44</RefPage>
        <RefTotal>Sturpe DA, Huynh D, Haines ST. Scoring objective structured clinical examinations using video monitors or video recordings. Am J Pharm Educ. 2010;74(3):44. DOI: 10.5688&#47;aj740344</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.5688&#47;aj740344</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Klimoski R</RefAuthor>
        <RefAuthor>Inks L</RefAuthor>
        <RefTitle>Accountability forces in performance appraisal</RefTitle>
        <RefYear>1990</RefYear>
        <RefJournal>Organ Behav Hum Decis Proc</RefJournal>
        <RefPage>194-208</RefPage>
        <RefTotal>Klimoski R, Inks L. Accountability forces in performance appraisal. Organ Behav Hum Decis Proc. 1990;45:194-208. DOI: 10.1016&#47;0749-5978(90)90011-W</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;0749-5978(90)90011-W</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Martin JA</RefAuthor>
        <RefAuthor>Reznick RK</RefAuthor>
        <RefAuthor>Rothman A</RefAuthor>
        <RefAuthor>Tamblyn RM</RefAuthor>
        <RefAuthor>Regehr G</RefAuthor>
        <RefTitle>Who should rate candidates in an objective structured clinical examination&#63;</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>170-175</RefPage>
        <RefTotal>Martin JA, Reznick RK, Rothman A, Tamblyn RM, Regehr G. Who should rate candidates in an objective structured clinical examination&#63; Acad Med. 1996;71(2):170-175. DOI: 10.1097&#47;00001888-199602000-00025</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199602000-00025</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Ogden GR</RefAuthor>
        <RefAuthor>Green M</RefAuthor>
        <RefAuthor>Ker JS</RefAuthor>
        <RefTitle>The use of interprofessional peer examiners in an objective structured clinical examination: can dental students act as examiners&#63;</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Br Dent J</RefJournal>
        <RefPage>160-164</RefPage>
        <RefTotal>Ogden GR, Green M, Ker JS. The use of interprofessional peer examiners in an objective structured clinical examination: can dental students act as examiners&#63; Br Dent J. 2000;189(3):160-164.</RefTotal>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Chenot JF</RefAuthor>
        <RefAuthor>Simmenroth-Nayda A</RefAuthor>
        <RefAuthor>Koch A</RefAuthor>
        <RefAuthor>Fischer T</RefAuthor>
        <RefAuthor>Scherer M</RefAuthor>
        <RefAuthor>Emmert B</RefAuthor>
        <RefAuthor>Stanske B</RefAuthor>
        <RefAuthor>Kochen MM</RefAuthor>
        <RefAuthor>Himmel W</RefAuthor>
        <RefTitle>Can student tutors act as examiners in an objective structured clinical examination&#63;</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1032-1038</RefPage>
        <RefTotal>Chenot JF, Simmenroth-Nayda A, Koch A, Fischer T, Scherer M, Emmert B, Stanske B, Kochen MM, Himmel W. Can student tutors act as examiners in an objective structured clinical examination&#63; Med Educ. 2007;41(11):1032-1038. DOI: 10.1111&#47;j.1365-2923.2007.02895.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2007.02895.x</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Carline JD</RefAuthor>
        <RefAuthor>Paauw DS</RefAuthor>
        <RefAuthor>Thiede KW</RefAuthor>
        <RefAuthor>Ramsey PG</RefAuthor>
        <RefTitle>Factors affecting the reliability of ratings of students&#39; clinical skills in a medicine clerkship</RefTitle>
        <RefYear>1992</RefYear>
        <RefJournal>J Gen Intern Med</RefJournal>
        <RefPage>506-510</RefPage>
        <RefTotal>Carline JD, Paauw DS, Thiede KW, Ramsey PG. Factors affecting the reliability of ratings of students&#39; clinical skills in a medicine clerkship. J Gen Intern Med. 1992;7(5):506-510. DOI: 10.1007&#47;BF02599454</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;BF02599454</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Kogan JR</RefAuthor>
        <RefAuthor>Hess BJ</RefAuthor>
        <RefAuthor>Conforti LN</RefAuthor>
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefTitle>What drives faculty ratings of residents&#39; clinical skills&#63; The impact of faculty&#39;s own clinical skills</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S25-S28</RefPage>
        <RefTotal>Kogan JR, Hess BJ, Conforti LN, Holmboe ES. What drives faculty ratings of residents&#39; clinical skills&#63; The impact of faculty&#39;s own clinical skills. Acad Med. 2010;85(10 Suppl):S25-S28. DOI: 10.1097&#47;ACM.0b013e3181ed1aa3</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e3181ed1aa3</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>McManus IC</RefAuthor>
        <RefAuthor>Thompson M</RefAuthor>
        <RefAuthor>Mollon J</RefAuthor>
        <RefTitle>Assessment of examiner leniency and stringency (&#39;hawk-dove effect&#39;) in the MRCP(UK) clinical examination (PACES) using multi-facet Rasch modelling</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>42</RefPage>
        <RefTotal>McManus IC, Thompson M, Mollon J. Assessment of examiner leniency and stringency (&#39;hawk-dove effect&#39;) in the MRCP(UK) clinical examination (PACES) using multi-facet Rasch modelling. BMC Med Educ. 2006;6:42. DOI: 10.1186&#47;1472-6920-6-42</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-6-42</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Williams RG</RefAuthor>
        <RefAuthor>Klamen DA</RefAuthor>
        <RefAuthor>McGaghie WC</RefAuthor>
        <RefTitle>Cognitive, social and environmental sources of bias in clinical performance ratings</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Teach Learn Med</RefJournal>
        <RefPage>270-292</RefPage>
        <RefTotal>Williams RG, Klamen DA, McGaghie WC. Cognitive, social and environmental sources of bias in clinical performance ratings. Teach Learn Med. 2003;15(4):270-292. DOI: 10.1207&#47;S15328015TLM1504&#95;11</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1207&#47;S15328015TLM1504&#95;11</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Gingerich A</RefAuthor>
        <RefAuthor>Regehr G</RefAuthor>
        <RefAuthor>Eva KW</RefAuthor>
        <RefTitle>Rater-based assessments as social judgments: rethinking the etiology of rater errors</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S1-S7</RefPage>
        <RefTotal>Gingerich A, Regehr G, Eva KW. Rater-based assessments as social judgments: rethinking the etiology of rater errors. Acad Med. 2011;86(10 Suppl):S1-S7. DOI: 10.1097&#47;ACM.0b013e31822a6cf8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e31822a6cf8</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: German grading code (the raters were permitted to alter the grades 1 to 4 by &#43;&#47;-)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Deutsche Schulnoten. Die Pr&#252;fer durften die Noten 1 bis 4 mit &#43; bzw. - auf- bzw. abwerten.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Dimensions introduced in the rater training serving to discuss the frame of reference.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Dimensionen f&#252;r die Pr&#252;ferschulung zur Diskussion des Bezugsrahmens.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Characteristics of the raters</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Charakteristika der Pr&#252;fer</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="319" width="556">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Raters&#39; views on the idea of rater training and on their own performance in a five-point scale. The data are given as means&#177;SD.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Meinungen der Pr&#252;fer zur Pr&#252;ferschulung und zu den eigenen Leistungen im Testat als F&#252;nf-Punkte-Skala (Mittelwerte&#177;Standardabweichung).</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="434" width="433">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Means&#177;SEM of all ratings per rater and the corresponding means of ratings by the observers (only the respective median of the three observers was taken into account). The distance from the diagonal indicates the degree of inconsistency between raters and observers, hence, the lack of accuracy. Thus, the trained raters were not more accurate but less lenient than the untrained raters. For the grading code see table 1; 1&#61;excellent, 2&#61;good; 3&#61;satisfactory.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Mittelwerte&#177;SEM aller Benotungen (Schulnoten, Tabelle 1) durch jeweils einen Pr&#252;fer mit korrespondierenden Mittelwerten der medianen Benotungen der Nachpr&#252;fer. Der Abstand von der Diagonalen deutet auf die Inkonsistenz zwischen Pr&#252;fern und Nachpr&#252;fern, also auf die Ungenauigkeit der Benotung. Demnach waren die geschulten Pr&#252;fer nicht genauer, aber weniger gro&#223;z&#252;gig als die ungeschulten.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>2</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>