<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001060</Identifier>
    <IdentifierDoi>10.3205/zma001060</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0010608</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Study on the Interrater Reliability of an OSPE (Objective Structured Practical Examination) &#8211; Subject to the Evaluation Mode in the Phantom Course of Operative Dentistry</Title>
      <TitleTranslated language="de">Studie zur Interrater-Reliabilit&#228;t einer OSPE (Objective Structured Practical Examination) in Abh&#228;ngigkeit vom Bewertungsmodus im Phantomkurs der Zahnerhaltungskunde</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Schmitt</Lastname>
          <LastnameHeading>Schmitt</LastnameHeading>
          <Firstname>Laura</Firstname>
          <Initials>L</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Orthodontics, Frankfurt&#47;Main, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Goethe-Universit&#228;t Frankfurt am Main, Carolinum Zahn&#228;rztliches Universit&#228;ts-Institut gGmbH, Poliklinik f&#252;r Kieferorthop&#228;die, Frankfurt&#47;Main, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>M&#246;ltner</Lastname>
          <LastnameHeading>M&#246;ltner</LastnameHeading>
          <Firstname>Andreas</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Heidelberg, Medical Faculty, Competence Centre for Examinations in Medicine&#47;Baden-W&#252;rttemberg, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Medizinische Fakult&#228;t, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin&#47;Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>R&#252;ttermann</Lastname>
          <LastnameHeading>R&#252;ttermann</LastnameHeading>
          <Firstname>Stefan</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, Frankfurt&#47;Main, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Goethe-Universit&#228;t Frankfurt am Main, Carolinum Zahn&#228;rztliches Universit&#228;ts-Institut gGmbH, Poliklinik f&#252;r Zahnerhaltungskunde, Frankfurt&#47;Main, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Gerhardt-Sz&#233;p</Lastname>
          <LastnameHeading>Gerhardt-Sz&#233;p</LastnameHeading>
          <Firstname>Susanne</Firstname>
          <Initials>S</Initials>
          <AcademicTitle>PD Dr. med. dent.</AcademicTitle>
          <AcademicTitleSuffix>MME</AcademicTitleSuffix>
        </PersonNames>
        <Address language="en">Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, D-60596 Frankfurt&#47;Main, Germany, Phone: &#43;49 (0)69&#47;6301-7505, Fax: &#43;49 (0)69&#47;6301-3841<Affiliation>Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, Frankfurt&#47;Main, Germany</Affiliation></Address>
        <Address language="de">Goethe-Universit&#228;t Frankfurt am Main, Carolinum Zahn&#228;rztliches Universit&#228;ts-Institut gGmbH, Poliklinik f&#252;r Zahnerhaltungskunde, 60596 Frankfurt&#47;Main, Deutschland, Tel.: &#43;49 (0)69&#47;6301-7505, Fax: &#43;49 (0)69&#47;6301-3841<Affiliation>Goethe-Universit&#228;t Frankfurt am Main, Carolinum Zahn&#228;rztliches Universit&#228;ts-Institut gGmbH, Poliklinik f&#252;r Zahnerhaltungskunde, Frankfurt&#47;Main, Deutschland</Affiliation></Address>
        <Email>s.szep&#64;em.uni-freiburg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">OSCE</Keyword>
      <Keyword language="en">OSPE</Keyword>
      <Keyword language="en">checklist</Keyword>
      <Keyword language="en">evaluator</Keyword>
      <Keyword language="en">instructor&#39;s manual</Keyword>
      <Keyword language="en">feedback</Keyword>
      <Keyword language="en">dentistry</Keyword>
      <Keyword language="de">OSCE</Keyword>
      <Keyword language="de">OSPE</Keyword>
      <Keyword language="de">Checkliste</Keyword>
      <Keyword language="de">Bewerter</Keyword>
      <Keyword language="de">Dozentenmanual</Keyword>
      <Keyword language="de">Feedback</Keyword>
      <Keyword language="de">Zahnmedizin</Keyword>
      <SectionHeading language="en">Clinical skills</SectionHeading>
      <SectionHeading language="de">Praktische Fertigkeiten</SectionHeading>
    </SubjectGroup>
    <DateReceived>20151023</DateReceived>
    <DateRevised>20160401</DateRevised>
    <DateAccepted>20160603</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20160815</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>33</Volume>
        <Issue>4</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
        <IssueTitle>Clinical skills</IssueTitle>
      </Journal>
    </SourceGroup>
    <ArticleNo>61</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Einleitung: </Mark1>Ziel der vorliegenden Studie war es, die Reliabilit&#228;t einer OSPE-Semesterabschlusspr&#252;fung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Ber&#252;cksichtigung unterschiedlicher Bewertungsmodi (Pr&#252;fer-Checkliste versus Dozentenmanual) und Pr&#252;ferInnenanzahl (drei versus vier) zu evaluieren. </Pgraph><Pgraph><Mark1>Methoden:</Mark1> Im Rahmen einer historischen monozentrischen Vergleichsstudie wurden zwei verschiedene Bewertungsmodi (Gruppe I: Verwendung ausschlie&#223;lich einer Pr&#252;fer-Checkliste versus Gruppe II: Verwendung einer Pr&#252;fer-Checkliste inklusive eines Dozentenmanuals) im Rahmen einer realen Semesterabschlusspr&#252;fung, die in OSPE-Form abgehalten wurde, evaluiert. Zur Analyse der Interrater-Reliabilit&#228;t wurde die Generalisierbarkeitstheorie verwendet, die eine Verallgemeinerung des Konzepts der internen Konsistenz (Cronbachs alpha) beinhaltet. </Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Ergebnisse zeigen, dass die alleinige Verwendung der Pr&#252;fer-Checkliste zu h&#246;heren Interrater-Reliabilit&#228;tswerten f&#252;hrte als das zus&#228;tzlich zu der Liste verwendete ausf&#252;hrliche Dozentenmanual. </Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Zusammenfassend kann festgehalten werden, dass die in der vorliegenden Studie verwendete Pr&#252;fer-Checkliste ohne Dozentenmanual im Rahmen der durchgef&#252;hrten OSPE die h&#246;chste Interrater-Reliabilit&#228;t ergab in Kombination mit der Anzahl von drei BewerterInnen.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Introduction: </Mark1>The aim of the study presented here was to evaluate the reliability of an OSPE end-of-semester exam in the phantom course for operative dentistry in Frankfurt am Main taking into consideration different modes of evaluation (examiner&#8217;s checklist versus instructor&#8217;s manual) and number of examiners (three versus four).</Pgraph><Pgraph><Mark1>Methods: </Mark1>In an historic, monocentric, comparative study, two different methods of evaluation were examined in a real end-of-semester setting held in OSPE form (Group I: exclusive use of an examiner&#8217;s checklist versus Group II: use of an examiner&#8217;s checklist including an instructor&#8217;s manual). For the analysis of interrater reliability, the generalisability theory was applied that contains a generalisation of the concept of internal consistency (Cronbach&#8217;s alpha). </Pgraph><Pgraph><Mark1>Results: </Mark1>The results show that the exclusive use of the examiner&#8217;s checklist led to higher interrater reliability values than the in-depth instructor&#8217;s manual used in addition to the list.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> In summary it can be said that the examiner&#8217;s checklists used in the present study, without the instructor&#8217;s manual, resulted in the highest interrater reliability in combination with three evaluators within the context of the completed OSPE.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction and Problem Definition">
      <MainHeadline>Introduction and Problem Definition</MainHeadline><Pgraph>Performance checks constitute a central element of teaching; their evaluation is characterised primarily by the quality criteria of objectivity, reliability and validity <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. A GMA (Society for Medical Education) guideline <TextLink reference="1"></TextLink> existing for this purpose and the basic standards of the WFME (World Federation for Medical Examination) <TextLink reference="3"></TextLink> indicate the following criteria:</Pgraph><Pgraph><UnorderedList><ListItem level="1">the examinations must be justiciable</ListItem><ListItem level="1">the examination procedure is based upon learning goals and the learning effect on students</ListItem><ListItem level="1">the examination procedures applied and the guidelines for passing the exams must be made known.</ListItem></UnorderedList></Pgraph><Pgraph>In 2008, the Science Council recommended the creation of a functioning evaluation system on an international level for performance checks in universities. The task of the assessment tools applied was to analyse teaching performance clearly and dependably &#91;<Hyperlink href="http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;8639-08.pdf">http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;8639-08.pdf</Hyperlink>, cited at 23.10.2015&#93;. On the other hand, the current regulations on the licensing of dentists from 1955 contain no guidelines on the examinations held in the course of studies &#91;<Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;z&#95;pro&#47;BJNR000370955.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;z&#95;pro&#47;BJNR000370955.html</Hyperlink>, cited at 23.10.2015&#93;.</Pgraph><Pgraph>Because in the study of dentistry practical skills are reinforced, and thus also examined, we frequently deal with the implementation of competence-orientated methods of examination that can be characterised on the Miller pyramid by &#8220;shows how&#8221; or &#8220;acts&#8221; <TextLink reference="4"></TextLink>. From this context, OSCE (Objective Structured Clinical Examination) and OSPE (Objective Structured Practical Examination) methods of examination are especially possible <TextLink reference="4"></TextLink>.</Pgraph><Pgraph>The OSCE method of examination was introduced in 1975 by Harden <TextLink reference="5"></TextLink>. Initially conceived for examinations in medicine, today the OSCE is also used for examinations in dentistry. In a 1998 study, Mangour and Brown <TextLink reference="6"></TextLink> presented the development and implementation of OSCEs in dentistry for the first time. The terms OSCE and OSPE are usually applied as equivalents and thus with no differentiation. Both Natkin and Guild <TextLink reference="7"></TextLink>, as well as the AMEE (Association for Medical Education in Europe) Guide No. 81 Part I <TextLink reference="8"></TextLink> describe OSPE (as a variation of OSCE) as a method of examination used to test practical skills and knowledge in a non-clinical environment. The authors Wani and Dalvi <TextLink reference="9"></TextLink> also noted that the OSPE is an exam form where both the strengths and weaknesses of students&#8217; practical skill can be presented and reviewed. Students and examiners evaluate this exam form as positive and useful <TextLink reference="1"></TextLink>, <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>. In further studies, such as those of Smith et al. <TextLink reference="15"></TextLink>, Nayak et al. <TextLink reference="16"></TextLink> and Abraham et al. <TextLink reference="12"></TextLink>, students described both OSCEs and OSPEs in comparison to written and oral examinations as fairer and less stressful exam forms, and preferred the OSPE to more &#8220;traditional&#8221; exam forms. A study by Schoonheim-Klein et al. <TextLink reference="17"></TextLink> was also able to show that OSCEs, in a dental context in particular, promoted skills in the area of clinical competence and learning, as well as a more realistic self-assessment on the part of the students. In addition, the study by Nayak et al. <TextLink reference="16"></TextLink> was able to show that through the OSPE, as well as the individual competencies of each student, the practical demonstration of facts and applied knowledge and learning behaviour could be positively influenced.</Pgraph><Pgraph>Reliability values between 0.11 and 0.97 were given for the OSCEs <TextLink reference="18"></TextLink>. The strongly varying results can be explained primarily by the fact that the parameters under which an OSCE is held (number of stations, number of examiners, length of the exam, type of evaluation mode) could be seen to vary considerably.</Pgraph><Pgraph>Independently of the exam form, a differentiation is normally made in evaluation between the methods of &#8220;glance and grade&#8221; and evaluation based upon defined criteria. These methods were evaluated within the context of dental examination settings <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>. The majority of the studies referred to above were not able to determine any significant differences between glance and grade and criteria-based methods. Furthermore, they did not take place in a real, but rather an artificial exam environment.</Pgraph><Pgraph>There are hardly any studies on OSPEs which, as already mentioned, represent in the strict sense a variation of the OSCE on the assessment of parameters referred to above. It has not been investigated, for instance, to what extent the number of examiners and the type of evaluation methods influence the result of an OSPE.</Pgraph><Pgraph>Against this background, the aims of this study were to evaluate the reliability of a real OSPE end-of-semester exam in the phantom course of operative dentistry in Frankfurt am Main, taking various evaluation modes and number of examiners into consideration.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung und Problemstellung">
      <MainHeadline>Einleitung und Problemstellung</MainHeadline><Pgraph>Leistungskontrollen bilden einen zentralen Bestandteil der Lehre; deren Evaluation wird in erster Linie durch die G&#252;tekriterien Objektivit&#228;t, Reliabilit&#228;t und Validit&#228;t charakterisiert <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Eine hierzu existierende Leitlinie der GMA (Gesellschaft f&#252;r Medizinische Ausbildung) <TextLink reference="1"></TextLink> und die Basisstandards der WFME (World Federation for Medical Examination) <TextLink reference="3"></TextLink> weisen zudem auf folgende Kriterien hin:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Die Pr&#252;fungen m&#252;ssen justiziabel sein. </ListItem><ListItem level="1">Das Pr&#252;fungsverfahren orientiert sich an Lernzielen und an der lernsteuernden Wirkung auf die Studierenden. </ListItem><ListItem level="1">Die verwendeten Pr&#252;fungsverfahren und die Grunds&#228;tze zum Bestehen der  Pr&#252;fungen m&#252;ssen bekannt gemacht werden.</ListItem></UnorderedList></Pgraph><Pgraph>Der Aufbau eines funktionierenden Evaluationssystems auf internationalem Niveau f&#252;r Leistungskontrollen in den Universit&#228;ten wurde 2008 vom Wissenschaftsrat empfohlen. Die verwendeten Bewertungsinstrumente sollten die Lehrleistung verl&#228;sslich und transparent analysieren &#91;<Hyperlink href="http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;8639-08.pdf">http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;8639-08.pdf</Hyperlink>, zuletzt abgerufen am 23.10.2015&#93;. Dem steht gegen&#252;ber, dass die aktuell geltende Approbationsordnung f&#252;r Zahn&#228;rzte aus dem Jahre 1955 keine Vorgaben zu den abzuhaltenden, studiumsbegleitenden Pr&#252;fungen beinhaltet &#91;<Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;z&#95;pro&#47;BJNR000370955.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;z&#95;pro&#47;BJNR000370955.html</Hyperlink>, zuletzt abgerufen am 23.10.2015&#93;. </Pgraph><Pgraph>Da im Zahnmedizinstudium verst&#228;rkt praktische Fertigkeiten vermittelt und somit auch gepr&#252;ft werden, handelt es sich meistens um den Einsatz kompetenzorientierter Pr&#252;fungsformen, die auf der Miller-Pyramide mit &#8222;zeigt wie&#8220; beziehungsweise &#8222;handelt&#8220; charakterisiert werden k&#246;nnen <TextLink reference="4"></TextLink>. Aus diesem Kontext kommen vor allem die Pr&#252;fungsformen des OSCE (Objective Structured Clinical Examination) und OSPE (Objective Structured Practical Examination) in Frage <TextLink reference="4"></TextLink>. </Pgraph><Pgraph>Die Pr&#252;fungsform OSCE wurde im Jahr 1975 durch Harden eingef&#252;hrt <TextLink reference="5"></TextLink>. Zun&#228;chst f&#252;r Pr&#252;fungen im Fach Medizin konzipiert, wird OSCE heute ebenfalls im Rahmen zahnmedizinischer Pr&#252;fungen angewandt. In einer Studie aus dem Jahr 1998 stellten Manogue und Brown <TextLink reference="6"></TextLink> erstmals die Entwicklung und Ausf&#252;hrung von OSCE in der Zahnmedizin vor. Die Begriffe OSCE und OSPE werden in der Literatur meist &#228;quivalent und somit nicht differenziert verwendet. Sowohl Natkin und Guild <TextLink reference="7"></TextLink> als auch der AMEE (Association for Medical Education in Europe) Guide No. 81 Part I. <TextLink reference="8"></TextLink> beschreiben OSPE - als eine Variation der OSCE - als Pr&#252;fungsmethode, um praktische Fertigkeiten und Wissen in einer nicht-klinischen Umgebung zu pr&#252;fen. Die Autoren Wani und Dalvi <TextLink reference="9"></TextLink> stellten erg&#228;nzend fest, dass OSPE eine Pr&#252;fungsform sei, mit der sich die St&#228;rken und Schw&#228;chen der studentischen, praktischen Fertigkeiten darstellen und  &#252;berpr&#252;fen lassen. Sowohl Studierende als auch Pr&#252;ferInnen bewerteten diese Pr&#252;fungsform als positiv und sinnvoll <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="1"></TextLink>, <TextLink reference="12"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>. In weiteren Studien, wie der Untersuchung von Smith et al. <TextLink reference="15"></TextLink>, Nayak et al. <TextLink reference="16"></TextLink> und Abraham et al <TextLink reference="12"></TextLink>, bezeichneten die Studierenden sowohl OSCEs als auch OSPEs im Vergleich zu schriftlichen und m&#252;ndlichen Pr&#252;fungen als gerechtere und weniger stressige Pr&#252;fungsformen und zogen die OSPE der &#8222;traditionellen&#8220; Pr&#252;fungsform vor. Eine Untersuchung von Schoonheim-Klein et al. <TextLink reference="17"></TextLink> konnte au&#223;erdem zeigen, dass speziell OSCEs im dentalen Kontext die F&#228;higkeiten im Bereich der klinischen Kompetenz, das Lernen selbst, sowie eine realistischere Selbsteinsch&#228;tzung der Studierenden f&#246;rderten. Zudem konnte die Studie von Nayak et al. <TextLink reference="16"></TextLink> darstellen, dass durch OSPE neben den individuellen Kompetenzen eines jeden Studierenden, auch die praktische Demonstration von Fakten- und Handlungswissen, sowie das Lernverhalten positiv beeinflusst werden. </Pgraph><Pgraph>F&#252;r die OSCEs wurden Reliabilit&#228;tswerte zwischen 0.11 und 0.97 angegeben <TextLink reference="18"></TextLink>. Die stark differierenden Ergebnisse erkl&#228;ren sich vor allem dadurch, dass die Parameter unter denen eine OSCE abgehalten wird (Stationsanzahl, Pr&#252;ferInnenanzahl, Dauer der Pr&#252;fung, Art der Bewertungsmodi), starke Variationen aufweisen k&#246;nnen. </Pgraph><Pgraph>Unabh&#228;ngig von der Pr&#252;fungsart wird standardm&#228;&#223;ig bei der Bewertung zwischen den Methoden der &#8222;glance and grade&#8220; (&#61; per Augenschein) und der Bewertung aufgrund definierter Kriterien unterschieden. Diese Methoden wurden auch im Kontext von zahn&#228;rztlichen Pr&#252;fungssettings evaluiert <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>. Die meisten der oben genannten Studien konnten keine signifikanten Unterschiede zwischen der Augenschein- und der kriterienbasierten Methodik feststellen. Zudem fanden sie nicht in einer realen, sondern in einer artifiziellen Pr&#252;fungsumgebung statt.</Pgraph><Pgraph>Zu OSPE-Pr&#252;fungen, die wie bereits beschrieben im eigentlichen Sinne eine Variation der OSCE darstellen gibt es kaum Studien zur Einsch&#228;tzung der weiter oben genannten Parameter. So ist es beispielsweise nicht erforscht, inwieweit die Pr&#252;ferInnenanzahl und die Art der Bewertungsmethode das Ergebnis einer OSPE beeinflussen.</Pgraph><Pgraph>Vor diesem Hintergrund war es das Ziel der vorliegenden Studie, die Reliabilit&#228;t einer realen OSPE-Semesterabschlusspr&#252;fung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Ber&#252;cksichtigung unterschiedlicher Bewertungsmodi und Pr&#252;ferInnenanzahl zu evaluieren.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Material and Methods">
      <MainHeadline>Material and Methods</MainHeadline><Pgraph>The phantom course of operative dentistry ran for a period of one semester (16 weeks). During this time, students had to complete practical work on a variety of simulation models (on extracted human and industrially manufactured artificial teeth). By means of previously defined treatment protocols, various treatment alternatives (for example fillings, laboratory restorations such as inlays, endodontic treatments, etc.) were practised step by step with the help of instructors. As soon as the predefined criteria were fulfilled, each step was ratified by the supervising instructor in a so-called certification booklet. The learning process was accompanied by formative feedback. At the end of the course, both an oral test of knowledge and a summative OSPE took place. The latter was carried out in the simulation unit of so-called &#8220;phantom patients&#8221;. Two plastic models (upper and lower jaw) were mounted in a &#8220;phantom head&#8221; consisting of 14 plastic upper jaw teeth and 14 plastic lower jaw teeth. The OSPE consisted of two examination parts, the &#8220;filling&#8221; (A) and the &#8220;inlay&#8221; (B), carried out on two different plastic teeth of each respective model. These divided into six &#8220;sub-units&#8221; (1. &#8220;primary preparation&#8221;; 2. &#8220;under filling and secondary preparation&#8221;; 3. &#8220;filling&#8221;; 4. &#8220;inlay&#8221;; 5. &#8220;filling overall&#8221; and 6. &#8220;overall grade&#8221;) which were each evaluated by the examiners (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). These subunits accorded to the criteria based on which the attendance certificates for the course were issued by the instructors. The examiner&#8217;s checklist, which contained the list of partial aspects (subunits) mentioned above, was tested out over four consecutive semesters (summer semester 2008 to winter semester 2009) in a regular examination scenario. During the test, the evaluation took place via inspection of the prescribed partial aspects, judged purely on the basis of the view of the examiners&#8217; general quality criteria. School grades were awarded from 1 to 5 (1&#61;very good to 5&#61;insufficient).</Pgraph><Pgraph>Each examiner evaluated each student in a real examination scenario (duration: 3 hrs.). This meant that the examiners assessed the students&#8217; work directly at the workplace (on a phantom patient) in a predetermined order during the examination. The students signalled to the examiners that they were ready to submit a subunit for evaluation. During the OSPE, the examiners exchanged no information on the grades they had awarded. After the examiners had independently completed their individual examiner&#8217;s checklists, the evaluations were discussed in a joint meeting and it was determined which students should repeat the exam. This took place according to the Delphi principle &#91;<Hyperlink href="http:&#47;&#47;www.horx.com&#47;zukunftsforschung&#47;Docs&#47;02-M-09-Delphi-Methode.pdf">http:&#47;&#47;www.horx.com&#47;zukunftsforschung&#47;Docs&#47;02-M-09-Delphi-Methode.pdf</Hyperlink>, cited at 23.10.2015&#93;.</Pgraph><SubHeadline2>Examination scenario of the study</SubHeadline2><Pgraph>The present study relates to a period of two semesters (summer semester 2010 &#61; Group I, summer semester 2012 &#61; Group II). The composition of the study population is given in Table 1 <ImgLink imgNo="1" imgType="table"/>. The inclusion criteria were: </Pgraph><Pgraph><UnorderedList><ListItem level="1">students from the 6th semester</ListItem><ListItem level="1">participation in the phantom course for restorative dentistry</ListItem><ListItem level="1">examination skills present.</ListItem></UnorderedList></Pgraph><Pgraph>The exclusion criteria were defined as follows: </Pgraph><Pgraph><UnorderedList><ListItem level="1">students from other semesters</ListItem><ListItem level="1">course dropouts and course repeaters</ListItem><ListItem level="1">examination skills not met.</ListItem></UnorderedList></Pgraph><Pgraph>The difference in the respective group sizes (I versus II) resulted from the actual size of the semester which was subject to large variations and which was dependent upon the results of the preceding examination. A numerical adjustment of both groups was not feasible as all course participants, according to the study regulations, had to take the exam. The determination of the number of examiners was carried out prior to this study on application for ethical approval. The assignment of identical examiners for both groups was not practical for staffing reasons in the department.</Pgraph><Pgraph>In group I, an examiner&#8217;s checklist was applied exclusively, as seen in Figure 1 <ImgLink imgNo="1" imgType="figure"/>. In group II, the examiners used the identical examiner&#8217;s checklist, but in combination with a detailed instructor&#8217;s manual (see Figure 2 <ImgLink imgNo="2" imgType="figure"/>). This contained clearly defined criteria for the evaluation the individual school grades.</Pgraph><Pgraph>In all, five examiners took part in the study (A-E), four women and one man. The examiners were all dentists in the Department for Operative Dentistry, had experience in teaching and in the evaluation of students&#8217; work in the phantom course. Table 2 <ImgLink imgNo="2" imgType="table"/> shows their distribution according to number and sex. Examiner A had passed the final examination in dentistry in 1990, examiners B, C, D, and E in 2007, 2008, 2010 and 2011 respectively. They all had experience in conducting the phantom course of operative dentistry. In addition to the others, only A had experience in conducting courses in patient treatment.</Pgraph><Pgraph>The examiner&#8217;s checklist originated from subject areas that were presented as standard in the current course, and in textbooks for restorative dentistry. These were also similar to the units (filling, inlay) and subunits defined as relevant for examination in operative dentistry raised in Baumann&#8217;s study <TextLink reference="32"></TextLink> on an interdisciplinary basis between four centres (the universities of Frankfurt, Freiburg, Leipzig and Munich). From the manual attached to group II, examiners were able to learn which evaluation criteria had to be fulfilled in order for a particular grade to be awarded.</Pgraph><SubHeadline2>Train-the-Teacher</SubHeadline2><Pgraph>In each semester, a 45 minute &#8220;train-the-teacher course&#8221; was held. In this course, examiners were prepared through practical exercises and theoretical instructions on situations in the OSPE and the use of the examiner&#8217;s checklist and the instructor&#8217;s manual. Thus in advance a relatively high measure of standardisation between the examiners could be achieved.</Pgraph><SubHeadline2>Statistics and Application for Ethical Approval</SubHeadline2><Pgraph>The results were evaluated according to the generalisability theory (G theory) with the statistic programmes SAS 9.2 (SAS Institute Inc., Cary, USA, PROC MIXED) and R (Version 2.15, Package lme4). The variance of the grades obtained is attributed to the influencing factors (in the terminology of the G theory &#8220;facets&#8221;) &#8220;students&#8221; and &#8220;examiners&#8221;, as well as to a measurement error component (see Figure 3 <ImgLink imgNo="3" imgType="figure"/>). From the variance proportions of the facet &#8220;examiner&#8221; and error variance relative to the facet &#8220;student&#8221;, the measurement reliability of the evaluations can be estimated. The generalisability coefficient represents an analogue to internal consistency (Cronbach&#8217;s alpha). In contrast to its usual application to various tasks, it is used here for several examiners. The G theory allows assessment of measurement reliability with the adoption of a different number of examiners to that in the actual investigation. In this way, both studies in which a varying number of examiners were involved can be made compatible (in analogy to the Spearman-Brown formula with which a standardisation of reliability for a certain number of tasks is possible).</Pgraph><Pgraph>Similarly, the individual examiners (A-E) were evaluated amongst themselves with regard to the parameter &#8220;overall grade OSPE&#8221;. A sub-group analysis taking in all parameters of examiners A and B completed the statistical analysis.</Pgraph><Pgraph>An application for ethical approval for the monocentric comparative study was given the approval number 135&#47;35 by the Ethic Commission of the Department of Medicine of the Goethe University</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Material und Methoden">
      <MainHeadline>Material und Methoden</MainHeadline><Pgraph>Der Phantomkurs der Zahnerhaltungskunde lief jeweils &#252;ber einen Zeitraum von einem Semester (16 Wochen). In dieser Zeit mussten die Studierenden praktische Arbeiten an verschiedenen Simulationsmodellen (an extrahierten humanen bzw. industriell hergestellten Kunststoffz&#228;hnen) absolvieren. Anhand von vorher definierten Behandlungsprotokollen wurden Schritt f&#252;r Schritt verschiedene Therapiealternativen (beispielsweise F&#252;llungen, Laborrestaurationen wie Inlays, endodontische Ma&#223;nahmen etc.) mit Unterst&#252;tzung der Lehrenden einge&#252;bt. Jeder Schritt wurde in einem sogenannten Testatheft von den betreuenden Lehrenden unterzeichnet, sobald die im Vorfeld definierten Kriterien erf&#252;llt wurden. Der Lernprozess wurde mit formativem Feedback begleitet. Zum Abschluss des Kurses fand neben einer m&#252;ndlichen Wissens&#252;berpr&#252;fung auch eine summative OSPE statt. Letztgenannte wurde an der Simulationseinheit an sogenannten &#8222;Phantompatienten&#8220; durchgef&#252;hrt. Zwei Kunststoffmodelle (Ober- und Unterkiefer) wurden in einem &#8222;Phantomkopf&#8220; bestehend aus jeweils 14 Kunststoffoberkiefer- und 14 Kunststoffunterkieferz&#228;hnen befestigt. Die OSPE bestand aus zwei Pr&#252;fungsteilen, der &#8222;F&#252;llung&#8220; (A) und dem &#8222;Inlay&#8220; (B), durchgef&#252;hrt an zwei verschiedenen Kunststoffz&#228;hnen der jeweiligen Modelle. Diese gliederten sich in insgesamt sechs &#8222;Untereinheiten&#8220; (1. &#8222;Prim&#228;rpr&#228;paration&#8220;; 2. &#8222;Unterf&#252;llung und Sekund&#228;rpr&#228;paration&#8220;; 3. &#8222;F&#252;llung&#8220;; 4. &#8222;Inlay&#8220;; 5. &#8222;F&#252;llung gesamt&#8220; und 6. &#8222;Gesamtnote&#8220;), die jeweils von den Pr&#252;ferInnen benotet wurden (siehe Abbildung 1). Diese Untereinheiten entsprachen den Kriterien, auf deren Basis die Testate im Kursablauf von den Lehrenden erteilt wurden. Die Pr&#252;fer-Checkliste, die die oben genannte Aufz&#228;hlung von Teilaspekten (Untereinheiten) beinhaltete, wurde im Vorfeld in vier aufeinanderfolgenden Semestern (SS 2008 bis WS 2009) im regul&#228;ren Pr&#252;fungsszenario erprobt. W&#228;hrend der Erprobung erfolgte die Bewertung durch Inaugenscheinnahme der vorgegebenen Teilaspekte, alleine anhand von aus Sicht der Pr&#252;ferInnen allgemeing&#252;ltigen Qualit&#228;tskriterien. Vergeben wurden Schulnoten von 1 bis 5 (1&#61;sehr gut bis 5&#61;mangelhaft). </Pgraph><Pgraph>Jeder Pr&#252;fer, jede Pr&#252;ferin bewertete im realen Pr&#252;fungsszenario (Dauer: 3 h) jeden Studierenden. Das bedeutete, dass die Pr&#252;ferInnen in einer festgelegten Reihenfolge die Arbeiten der Studierenden direkt am Arbeitsplatz (am Phantompatienten) w&#228;hrend der laufenden Pr&#252;fung beurteilten. Die Studierenden meldeten den Pr&#252;ferInnen durch Handzeichen, dass sie bereit waren, eine Untereinheit zur Bewertung vorzuzeigen. Die Pr&#252;ferInnen tauschten w&#228;hrend der laufenden OSPE untereinander keine Informationen &#252;ber die jeweils vergebenen Noten aus. Nachdem die Pr&#252;ferInnen unabh&#228;ngig voneinander ihre jeweiligen Pr&#252;fer-Checklisten vervollst&#228;ndigt hatten, wurden in einer gemeinsamen Besprechungsrunde die Bewertungen diskutiert und festgelegt, welche Studierenden die Pr&#252;fung wiederholen sollten. Dies geschah nach dem Delphi-Prinzip &#91;<Hyperlink href="http:&#47;&#47;www.horx.com&#47;zukunftsforschung&#47;Docs&#47;02-M-09-Delphi-Methode.pdf">http:&#47;&#47;www.horx.com&#47;zukunftsforschung&#47;Docs&#47;02-M-09-Delphi-Methode.pdf</Hyperlink>, zuletzt abgerufen am 23.10.2015&#93;. </Pgraph><SubHeadline2>Pr&#252;fungszenario der Studie</SubHeadline2><Pgraph>Die vorliegende Studie bezieht sich auf einen Zeitraum von zwei Semestern (SS 2010 &#61; Gruppe I, SS 2012 &#61; Gruppe II). Die Zusammensetzung der Studienpopulation ist in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> dargestellt. Die Einschlusskriterien lauteten: </Pgraph><Pgraph><UnorderedList><ListItem level="1">Studierende des 6. Semesters</ListItem><ListItem level="1">Teilnahme am Phantomkurs f&#252;r Zahnerhaltungskunde</ListItem><ListItem level="1">Pr&#252;fungsf&#228;higkeit vorhanden</ListItem></UnorderedList></Pgraph><Pgraph>Die Ausschlusskriterien waren wie folgt definiert: </Pgraph><Pgraph><UnorderedList><ListItem level="1">Studierende anderer Semester</ListItem><ListItem level="1">KursabbrecherInnen bzw. KurswiederholerInnen</ListItem><ListItem level="1">Pr&#252;fungsf&#228;higkeit nicht gegeben</ListItem></UnorderedList></Pgraph><Pgraph>Der Unterschied in der jeweiligen Gruppengr&#246;&#223;e (I versus II) ergab sich aus der tats&#228;chlichen Semestergr&#246;&#223;e, die gro&#223;en Schwankungen unterlag und von den Ergebnissen des vorangestellten Physikums abhing. Eine zahlenm&#228;&#223;ige Anpassung beider Gruppen war nicht durchf&#252;hrbar, da alle TeilnehmerInnen des Kurses laut Studienordnung an der Pr&#252;fung teilnehmen mussten. Die Festlegung der Pr&#252;ferInnenanzahl erfolgte im Vorfeld dieser Studie beim Einreichen des Ethikantrages. Der Einsatz identischer Pr&#252;ferInnen bei beiden Gruppen war aus Personalbesetzungsgr&#252;nden in der Poliklinik nicht realisierbar.</Pgraph><Pgraph>In Gruppe I wurde ausschlie&#223;lich eine Pr&#252;fer-Checkliste, wie in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> ersichtlich, angewendet. In Gruppe II verwendeten die Pr&#252;ferInnen die identische Pr&#252;fer-Checkliste wie in Gruppe I, jedoch in Kombination mit einem detaillierten Dozentenmanual (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>).  Dieser enthielt klar definierte Bewertungskriterien f&#252;r die einzelnen Schulnoten. </Pgraph><Pgraph>Insgesamt nahmen f&#252;nf Pr&#252;ferInnen (A-E), vier Frauen und ein Mann an der Studie teil. Die Pr&#252;ferInnen waren Zahn&#228;rztInnen der Poliklinik f&#252;r Zahnerhaltungskunde, hatten Erfahrung in der Lehre und der Bewertung von studentischen Arbeiten im Phantomkurs. Tabelle 2 <ImgLink imgNo="2" imgType="table"/> zeigt deren Verteilung nach Anzahl und Geschlecht. Pr&#252;ferIn A hatte im Jahr 1990, B 2007, C 2008, D 2010 und E 2011 das zahn&#228;rztliche Examen absolviert. Sie alle hatten Erfahrung in der Betreuung des Phantomkurses der Zahnerhaltungskunde. Lediglich A wies zus&#228;tzlich zu den anderen auch Erfahrung in der Betreuung von Patientenbehandlungskursen auf.  </Pgraph><Pgraph>Die Pr&#252;fer-Checkliste entstand in Anlehnung an Themengebiete, die im laufenden Kurs und in den Lehrb&#252;chern f&#252;r Zahnerhaltungskunde standardm&#228;&#223;ig inhaltlich abgebildet waren. Diese entsprachen zudem den in der Studie von Baumann <TextLink reference="32"></TextLink> interdisziplin&#228;r zwischen vier Zentren (Universit&#228;t Frankfurt, Freiburg, Leipzig und M&#252;nchen) erhobenen Einheiten (F&#252;llung, Inlay) und Untereinheiten, die im Fach Zahnerhaltungskunde als pr&#252;fungsrelevant definiert wurden. Dem f&#252;r die Gruppe II beigef&#252;gten Manual konnten die Pr&#252;fer zus&#228;tzlich entnehmen, welche Bewertungskriterien erf&#252;llt sein sollten, damit eine bestimmte Note vergeben werden konnte. </Pgraph><SubHeadline2>Train-the-Teacher</SubHeadline2><Pgraph>In jedem Semester fand eine 45-min&#252;tige &#8222;Train-the-Teacher-Veranstaltung&#8220; statt. In diesem Seminar wurden die Pr&#252;ferInnen durch praktische &#220;bungen und theoretische Unterweisungen auf die Situationen in der OSPE und die Anwendung der Pr&#252;fer-Checkliste bzw. des Dozentenmanuals vorbereitet. So konnte im Vorfeld ein relativ hohes Ma&#223; an Standardisierung zwischen den Pr&#252;ferInnen gew&#228;hrleistet werden.</Pgraph><SubHeadline2>Statistik und Ethikantrag</SubHeadline2><Pgraph>Die Auswertung der Ergebnisse erfolgte nach der Generalisierbarkeitstheorie (G-Theorie) mit den Statistikprogrammen SAS 9.2 (SAS Institute Inc., Cary, USA, PROC MIXED) und R (Version 2.15, Package lme4). Die Varianz der erzielten Noten wird dabei auf die Einflussfaktoren (in der Terminologie der G-Theorie &#8222;Facetten&#8220;) &#8222;Studierender&#8220; und &#8222;Untersucher&#8220; sowie einer Messfehlerkomponente zur&#252;ckgef&#252;hrt (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). Aus den Varianzanteilen der Facette Untersucher und der Fehlervarianz relativ zu dem der Facette &#8222;Studierender&#8220; l&#228;sst sich die Messzuverl&#228;ssigkeit der Bewertungen absch&#228;tzen. Der Generalisierbarkeitskoeffizient stellt dabei ein Analogon zur internen Konsistenz (Cronbachs alpha) dar. Im Unterschied zur &#252;blichen Anwendung auf verschiedene Aufgaben wird er hier f&#252;r verschiedene Pr&#252;fer verwendet. Die G-Theorie erlaubt eine Absch&#228;tzung der Messzuverl&#228;ssigkeit bei Annahme einer anderen Zahl von Pr&#252;fern als in der tats&#228;chlichen Untersuchung. Damit lassen sich die beiden Studien, bei denen eine unterschiedliche Zahl von Pr&#252;ferInnen beteiligt waren, vergleichbar machen (analog zur Spearman-Brown-Formel, mit der eine Normierung der Reliabilit&#228;t auf eine bestimmte Anzahl von Aufgaben m&#246;glich ist).</Pgraph><Pgraph>Analog hierzu wurden auch die einzelnen Pr&#252;ferInnen (A-E) untereinander hinsichtlich des Parameters &#8222;Gesamtnote OSPE&#8220; evaluiert. Eine alle Parameter erfassende Subgruppenanalyse betreffend Pr&#252;ferInnen A und B vervollst&#228;ndigte die statistische Analyse.</Pgraph><Pgraph>Ein Ethikantrag der monozentrischen Vergleichsstudie erhielt bei der Ethikkommission des Fachbereiches f&#252;r Medizin der Goethe-Universit&#228;t die Genehmigungsnummer 135&#47;13.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><Pgraph>Table 3 <ImgLink imgNo="3" imgType="table"/> shows the results of the determination of reliability from group I using the examiner&#8217;s checklist without the instructor&#8217;s manual. In this group, only in the case of three examiners were Cronbach&#8217;s alpha values under 0.6 determined for the two criteria &#8220;interior wall of the cavity&#8221; and &#8220;breadth&#47;depth&#8221;.</Pgraph><Pgraph>In all other subunits, the required value of 0.6 or larger than 0.6 for sufficient reliability could be attained. The subunit &#8220;adjacent tooth&#8221; achieved the value 1.0; this can be regarded as an ideal reliability value. Furthermore, table 3 <ImgLink imgNo="3" imgType="table"/> shows the results of the determination of reliability from group II (using the examiner&#8217;s checklist and the instructor&#8217;s manual). In order to enable a comparison of the generalisability coefficients in both studies, these were each converted for numbers of both three and four examiners. Thus with the aid of the Spearman-Brown formula, for study I the reliability values for four examiners were determined from those for three examiners, and vice versa for group II.</Pgraph><Pgraph>In group II the results for 4 examiners showed a high variance in the calculated Cronbach&#8217;s alpha values. For the first subunit &#8220;primary preparation&#8221; and the accompanying criteria (&#8220;proximal contact point&#8221; to &#8220;breadth&#47;depth), Cronbach&#8217;s alpha values under 0.6 were calculated. The same was the case for the subunit &#8220;filling&#8221; and the accompanying criteria &#8220;contact points&#8221;, &#8220;occlusal design&#8221; and &#8220;smoothness&#8221;, for &#8220;inlay total&#8221; and accompanying criteria such as &#8220;cavity outer edge&#8221;, &#8220;cavity inner walls&#8221;, &#8220;breadth&#47;depth&#8221;, &#8220;smoothness&#8221; and &#8220;adjacent tooth&#8221;. The remaining subunits and criteria were able to achieve the required value for sufficient reliability of 0.6.</Pgraph><Pgraph>When comparing individual examiners regarding the parameter &#8220;overall grade OSPE&#8221;, for the summer semester 2010, correlation coefficients of 0.58 (A versus C), 0.64 (A versus B) and 0.68 (C versus B) were calculated. In the summer semester 2012, the corresponding values were lower (A versus B: 0.33; A versus E: 0.35; A versus D: 0.34; E versus D: 0.52; B versus D: 0.37 and E versus B: 0.35). The results of the subgroup analysis (A versus B, used in both study groups) can be seen in table 3 <ImgLink imgNo="3" imgType="table"/>.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><Pgraph>Tabelle 3 <ImgLink imgNo="3" imgType="table"/> zeigt die Ergebnisse der Reliabilit&#228;tsbestimmung aus Gruppe I bei Verwendung der Pr&#252;fer-Checkliste ohne Dozentenmanual. In dieser Gruppe wurden bei drei Pr&#252;ferInnen nur f&#252;r die zwei Kriterien &#8222;Kavit&#228;teninnenw&#228;nde&#8220; und &#8222;Breite&#47;Tiefe&#8220; Cronbachs Alpha Werte unter 0,6 ermittelt. </Pgraph><Pgraph>Alle &#252;brigen Untereinheiten konnten den f&#252;r eine ausreichende Reliabilit&#228;t geforderten Wert von 0,6 bzw. gr&#246;&#223;er als 0,6 erreichen. Die Untereinheit &#8222;Nachbarzahn&#8220; erzielte den Wert 1,0; was als idealer Reliabilit&#228;tswert anzusehen ist. Des Weiteren zeigt Tabelle 3 <ImgLink imgNo="3" imgType="table"/> die Ergebnisse der Reliabilit&#228;tsbestimmung aus Gruppe II (Verwendung der Pr&#252;fer-Checkliste inklusive Dozentenmanual). Um eine Vergleichbarkeit der Generalisierbarkeitskoeffizienten in beiden Studien zu erm&#246;glichen, wurden diese jeweils sowohl f&#252;r eine Zahl von drei wie auch f&#252;r vier Pr&#252;ferInnen umgerechnet. So wurden f&#252;r  Studie I die Reliabilit&#228;tswerte f&#252;r vier Pr&#252;ferInnen mit Hilfe der Spearman-Brown-Formel aus denen f&#252;r drei Pr&#252;ferInnen bestimmt bzw. f&#252;r Studie II umgekehrt.</Pgraph><Pgraph>In Gruppe II zeigten die Ergebnisse f&#252;r vier Pr&#252;ferInnen hohe Varianzen in den ermittelten Cronbachs-Alpha-Werten. F&#252;r die 1. Untereinheit &#8222;Prim&#228;rpr&#228;paration&#8220; und die dazugeh&#246;rigen Kriterien (&#8222;Kontaktpunkt approximal&#8220; bis &#8222;Breite&#47;Tiefe&#8220;) wurden Cronbachs-Alpha-Werte unter 0,6 ermittelt. Ebenso verhielt es sich f&#252;r die Untereinheit &#8222;F&#252;llung&#8220; und die dazugeh&#246;rigen Kriterien &#8222;Kontaktpunkte&#8220;, &#8222;okklusale Gestaltung&#8220; und &#8222;Gl&#228;tte&#8220;, f&#252;r &#8222;Inlay gesamt&#8220; und die dazugeh&#246;rigen Kriterien wie &#8222;Kavit&#228;tenau&#223;enr&#228;nder&#8220;, &#8222;Kavit&#228;teninnenw&#228;nde&#8220;, &#8222;Breite&#47;Tiefe&#8220;, &#8222;Gl&#228;tte&#8220; und &#8222;Nachbarzahn&#8220;. Die verbliebenen Untereinheiten und Kriterien konnten den f&#252;r eine ausreichende Reliabilit&#228;t geforderten Wert von 0,6 erreichen.</Pgraph><Pgraph>Beim Vergleich der einzelnen Pr&#252;ferInnen untereinander hinsichtlich des Parameters &#8222;Gesamtnote OSPE&#8220; konnten im Sommersemester 2010 Korrelationskoeffizienten von 0,58 (A versus C), 0,64 (A versus B) und 0,68 (C versus B) ermittelt werden. Im Sommersemester 2012 fielen die korrespondierenden Werte niedriger aus (A versus B: 0,33; A versus E: 0,35; A versus D: 0,34; E versus D: 0,52; B versus D: 0,37 und E versus B: 0,35). Die Ergebnisse der Subgruppenanalyse (A versus B, die in beiden Studiengruppen eingesetzt wurden) sind Tabelle 3 <ImgLink imgNo="3" imgType="table"/> zu entnehmen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><SubHeadline2>Limitations</SubHeadline2><Pgraph>One limitation of the present study lies in the type of trial design selected (historical comparison group), as the study was carried out not within one particular semester with a particular student population, but rather in two successive semesters with different participants. Because of two different modes of assessment, a division of the summative examination within the semester was declared inadmissible by the faculty&#8217;s ethics commission. The authors see one further limitation in the fact that the examiners from both investigated groups were not equal either in number or team composition. Only two examiners (A and B) evaluated similarly in both study groups. Furthermore, despite the preceding train-the-teacher events, a difference in teaching experience must be assumed. This variation could, however, not be homogenised for staff reasons (expiry of contracts). The elaborate statistical analysis takes account of this limitation and standardises the unequal number of examiners. </Pgraph><SubHeadline2>Modes of evaluation</SubHeadline2><Pgraph>Based on current scientific information, no clear conclusion can be drawn on the benefit of an examiner&#8217;s checklist regarding the reliability of an examination. According to the latest research, there are only two studies which have dealt with the different modes of evaluation <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="33"></TextLink>. In the present study, the best results could be determined regarding a high level of reliability by using the examiner&#8217;s checklist without the additional use of an instructor&#8217;s manual. A comparable result was achieved in a study by Bazan and Seale <TextLink reference="34"></TextLink>, where a similarly conceived examiner&#8217;s checklist for exam evaluation led to a similar reliability value for the exam. An explanation for this might be that the degree of differentiation in the evaluation guidelines was possibly too detailed to be applied by the examiner during the practical examination, and that the train-the-teacher event was apparently not able to set comparable evaluation standards for the examiners. This problem became particularly apparent in the partial step &#8220;inlay adjacent tooth&#8221; in which the extensive manual with the defined sub-criteria led to a massive deterioration in the Cronbach&#8217;s alpha values. This is also accords with the study by the authors Houpt and Cress <TextLink reference="31"></TextLink>, which found that the narrower the definition of the predetermined evaluation framework for a criterion was, the sooner discrepancies in measurement accuracy and examiner assessment occurred. A direct comparison of examiners A and B, who examined in both semesters, found that the use of the manual lowered the average correlation (0.68) recorded in summer semester 2010 to a value of 0.33. Despite this clarification, it is still necessary to establish why this partial step in particular caused such extreme deviations. Possibly the wording of the tooth structure definitions (enamel and dentine) resulted in confusion on the side of the examiners as the exam tasks were not carried out on natural teeth consisting of enamel and dentine, but rather on exam teeth made of plastic. Future studies should discuss the exact wording of the manual parameters in terms of content.</Pgraph><SubHeadline2>Examination setting</SubHeadline2><Pgraph>In contrast to the two studies already referred to, the examiners&#8217; evaluation in the present study took place in a real exam situation. As a potential future alternative regarding study design, it would be feasible to give the examiners more time for evaluation. This, however, would require a fundamental revision of the end-of-semester exam at the University of Frankfurt am Main under study here. Considering that three hours were allowed for the whole examination, and that the individual steps were checked simultaneously ad hoc by the examiners with an average of &#61; 22 students, more time spent on the evaluation could only be realised with difficulty. The question arises of why, during the real OSPE examination scenario, so much effort is expended and why the individual steps cannot be evaluated jointly by all the examiners after the exam. The reason for this is that many individual steps during the exam are no longer assessable owing to the succeeding phase, as they are then no longer visible. For example, the &#8220;primary preparation&#8221; step succeeding &#8220;under filling lining&#47;secondary preparation&#8221; is no longer assessable as the former is partially concealed after putting in an under filling. This is the same for all partial steps so that at the end of the examination stage &#8220;filling&#8221;, only the final resulting step remains assessable.</Pgraph><Pgraph>This procedure stands in stark contrast to all previously published OSPE examinations where in general the individual steps were both visible and assessable, even after the examination. Compared to the studies made by Goepferd and Kerber <TextLink reference="26"></TextLink>, Vann et al. <TextLink reference="28"></TextLink> and Scheutzel <TextLink reference="33"></TextLink> there is a clear difference, as in the examinations investigated there, the similarly complex revaluation form was able to be used under more favourable time conditions. This might explain the different results between the investigation carried out here and the studies previously referred to.</Pgraph><SubHeadline2>Train-the-Teacher</SubHeadline2><Pgraph>OSCE-based examinations show some disadvantages by way of analogy to the advantages already referred to above. According to Miller <TextLink reference="4"></TextLink>, <TextLink reference="35"></TextLink>, experience has shown that the OSCE is particularly training intensive and time consuming, and according to Nayak et al. <TextLink reference="16"></TextLink>, it requires intensive planning and team work. As a rule, the appointed examiners require intensive and systematic training in order to be able to fulfil the requirements of reliability and validity for an OSCE exam <TextLink reference="35"></TextLink>. As a result, the OSCE is time consuming and cost intensive in comparison to other exam types such as multiple choice or oral exams <TextLink reference="8"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>. In the context of the present study, a time-consuming preparation of the examiners in a train-the-teacher event was also carried out. As a result, resources of personnel and space, as well as financial resources in the clinical and organisational workflow within the department for restorative dentistry, would have to be found. The duration of a lecture unit (45 mins.) was realistic for this purpose and could be observed by all the examiners. However, the question arises as to how long preparation should effectively be in order to be able to homogenise different experiences in mixed teams in advance. In the summer semester of 2010, the three examiners amongst themselves showed an average correlation of between 0.58 and 0.68. In the summer semester of 2012, in the case of four examiners the identically long train-the-teacher events resulted in correlation values of 0.33 and 0.52. It can be assumed here that in the case of the application of the manual, the train-the-teacher event was not effectively utilised.</Pgraph><SubHeadline2>Examiners </SubHeadline2><Pgraph>On the basis of current data, examiners play an important role in the assessment of reliability. Until now, however, there have been no scientific studies known to us that have made any assessment of how high the minimum number of examiners for a OSPE should be. In this study, it was possible to attain sufficient reliability with three examiners in combination with checklists. According to the results of this investigation, the reliability value can be increased by a higher number of examiners. This increase in reliability values, however, is low in comparison to the number of examiners. In addition, a further increase in the number of examiners would result in greater complexity and expense with regard to organisation and financial costs.</Pgraph><Pgraph>In this context, it has to be mentioned critically that no general recommendation can be made for other sites based upon the data available with regard to the number of examiners, as the possibility of having three to four examiners with long experience available for an OSPE examination is neither representative of normal circumstances nor feasible. The author groups Nikendei and J&#252;nger <TextLink reference="37"></TextLink> and Norcini et al. <TextLink reference="38"></TextLink> came to a similar result. In their study, Natkin and Guild <TextLink reference="39"></TextLink> were able to show a significant increase in reliability through a systematic preparation of the evaluators. Similar results were presented by Dhuru <TextLink reference="25"></TextLink>, in whose study examiners with many years of professional experience and using evaluation sheets achieved the most reliable examination results. In the present study, this can be confirmed only with the use of the checklist, as when the manual was used, the two examiners with the most years&#8217; experience demonstrated only weak correlations. As shown in this investigation, the checklist appears to be capable of further increasing reliability, or of compensating for a lack of examining experience on the part of the evaluators. In Houpt and Kress&#8217;s <TextLink reference="31"></TextLink> investigation, by contrast, reliability could not be increased for all evaluation criteria. Thus the authors believe that the train-the-teacher events on their own are not able to increase interrater reliability significantly. Training events of this type had the greatest effect with &#8220;non-expert&#8221; examiners, but relatively little influence with experienced evaluators <TextLink reference="31"></TextLink>. Our study was able to confirm this. </Pgraph><SubHeadline2>Exam tasks</SubHeadline2><Pgraph>The number of examination tasks defined in this study, frequently equated with the term &#8220;stations&#8221; in the literature, should be looked at critically. In the present case only two separate tasks were involved (A. filling and B. inlay), but a total of 22 evaluations were obtained by the evaluators per student in and during the exam. Ultimately we are dealing with the definition of the term &#8220;station&#8221; in connection with the OSPE which based upon the evidence cannot be deduced from the literature. It must be noted critically that a value of 0.6 for Cronbach&#8217;s alpha only has a &#8220;sufficient&#8221; character. It must therefore also be asked just how valid an examination can then be, and whether it is suitable as a summative examination. According current scientific knowledge, it is our opinion that against this background, variant II cannot be recommend for high stakes examinations.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><SubHeadline2>Limitationen</SubHeadline2><Pgraph>Eine Limitation der vorliegenden Studie liegt in der Art des gew&#228;hlten Versuchsdesigns (historische Vergleichsgruppe), denn die Untersuchung wurde nicht innerhalb eines Semesters an einer Studienpopulation, sondern an zwei aufeinanderfolgenden Semestern an unterschiedlichen TeilnehmerInnen durchgef&#252;hrt. Eine semesterinterne Teilung der summativen Pr&#252;fung aufgrund  zweier verschiedener Bewertungsmodi wurde von der Ethikkommission der Fakult&#228;t f&#252;r unzul&#228;ssig erkl&#228;rt. Eine weitere Limitation sehen die Autoren darin, dass die Pr&#252;ferInnen der beiden untersuchten Gruppen sowohl in der Anzahl als auch in der Team-Zusammensetzung ungleich waren. Lediglich zwei Pr&#252;ferInnen (A und B) bewerteten vergleichend in beiden Studiengruppen. Zudem ist trotz der vor geschalteten Train-the-Teacher-Veranstaltungen von einem bestehenden Unterschied in der Lehrerfahrung auszugehen. Diese Variation lie&#223; sich jedoch aus Personalgr&#252;nden (Vertragsablaufszeiten) nicht homogenisieren. Die aufwendige statistische Analyse tr&#228;gt dieser Limitation Rechnung und standardisiert die ungleiche Pr&#252;ferzahl. </Pgraph><SubHeadline2>Bewertungsmodi</SubHeadline2><Pgraph>&#220;ber den Nutzen einer Pr&#252;fer-Checkliste in Bezug auf die Reliabilit&#228;t einer Pr&#252;fung kann aus der derzeitigen wissenschaftlichen Datenlage kein eindeutiger Schluss gezogen werden. Nach aktuellem Forschungsstand gibt es nur wenige Studien, die sich mit verschiedenen Bewertungsmodi auseinander gesetzt haben <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="33"></TextLink>. In der vorliegenden Studie konnten die besten Ergebnisse in Bezug auf eine hohe Reliabilit&#228;t bei der Verwendung der Pr&#252;fer-Checkliste eruiert werden, bei der kein zus&#228;tzliches Dozentenmanual verwendet wurde. Zu einem vergleichbaren Ergebnis kam auch die Studie von Bazan und Seale <TextLink reference="34"></TextLink>, bei der eine &#228;hnlich konzipierte Pr&#252;fer-Checkliste f&#252;r eine Pr&#252;fungsbewertung zu einem vergleichbaren Reliabilit&#228;tswert f&#252;r die Pr&#252;fung f&#252;hrte. Eine Erkl&#228;rung hierf&#252;r k&#246;nnte sein, dass der Differenzierungsgrad der Bewertungsvorgaben im Dozentenmanual m&#246;glicherweise zu detailliert war, um von den Pr&#252;ferInnen w&#228;hrend der praktischen Pr&#252;fung angewendet werden zu k&#246;nnen und die Train-the-Teacher-Veranstaltung scheinbar nicht in der Lage war, einen vergleichbaren Bewertungsstandard bei den Pr&#252;ferInnen zu setzen. Besonders deutlich wurde diese Problematik bei dem Teilschritt &#8222;Inlay: Nachbarzahn&#8220;, bei dem das sehr ausf&#252;hrliche Manual mit den definierten Unterpunkten zu einer massiven Verschlechterung der Cronbachs alpha-Werten f&#252;hrte. Dies steht auch im Einklang mit der Studie um die Autorengruppe Houpt und Kress <TextLink reference="31"></TextLink>, die ergab, dass, je enger der vorgegebene Bewertungsrahmen f&#252;r ein Kriterium definiert war, umso eher Abweichungen in der Messgenauigkeit und Einsch&#228;tzung der Pr&#252;ferInnen auftraten. Beim direkten Vergleich der Pr&#252;ferInnen A und B, die in beiden Semestern pr&#252;ften, zeigte sich, dass die Verwendung des Manuals die im SS 2010 ermittelte mittlere Korrelation (0.68) auf einen Wert von 0.33 senkte. Trotzdem bleibt Kl&#228;rungsbedarf, warum ausgerechnet dieser Teilschritt solch extreme Abweichungen bedingte. M&#246;glicherweise bewirkte die Wortwahl der Zahnhartsubstanzdefinitionen (Schmelz und Dentin) eine Verwirrung seitens der Pr&#252;ferInnen, denn die Pr&#252;fungsaufgabe wurde nicht an nat&#252;rlichen Z&#228;hnen bestehend aus Schmelz und Dentin durchgef&#252;hrt, sondern an Pr&#252;fungsz&#228;hnen bestehend aus Kunststoff. Zuk&#252;nftige Studien sollten die  genaue Wortwahl der Manualparameter inhaltlich thematisieren.</Pgraph><SubHeadline2>Pr&#252;fungssetting</SubHeadline2><Pgraph>Im Unterschied zu bereits erw&#228;hnten Studien fand die Beurteilung durch die Pr&#252;ferInnen in der vorliegenden Studie in einer realen Pr&#252;fungssituation statt.  Als m&#246;gliche zuk&#252;nftige Alternative bez&#252;glich des Studiendesigns w&#228;re hierf&#252;r denkbar, den Pr&#252;ferInnen mehr Zeit f&#252;r die Bewertung zu geben, was allerdings an der hier untersuchten Pr&#252;fung an der Universit&#228;t Frankfurt am Main eine grundlegende Neukonzeption der Semesterabschlusspr&#252;fung erfordern w&#252;rde. Bedenkt man, dass f&#252;r die gesamte Pr&#252;fung drei Stunden angesetzt wurden, und dass die einzelnen Schritte gleichzeitig bei durchschnittlich n&#61;22 Studierenden adhoc durch die Pr&#252;ferIn beurteilt wurden, so w&#228;re ein l&#228;ngeres Verweilen bei der Beurteilung nur schwierig zu realisieren.  Es stellt sich die Frage, warum w&#228;hrend des realen OSPE-Pr&#252;fungszenarios ein solcher Aufwand betrieben wird und warum die einzelnen Schritte nicht nach der Pr&#252;fung gemeinsam mit allen Pr&#252;ferInnen beurteilt werden k&#246;nnen. Dies liegt daran, dass viele Einzelschritte w&#228;hrend der Pr&#252;fung durch den darauffolgenden Schritt nicht mehr beurteilbar, da nicht mehr sichtbar sind. Beispielsweise ist der Schritt der &#8222;Prim&#228;rpr&#228;paration&#8220; nach der &#8222;Unterf&#252;llung&#47; Sekund&#228;rpr&#228;paration&#8220; nicht mehr beurteilbar, weil Ersterer nach dem Legen einer Unterf&#252;llung teilweise verdeckt ist. So verh&#228;lt es sich mit allen Teilschritten, so dass am Ende des Pr&#252;fungsabschnittes &#8222;F&#252;llung&#8220; nur noch der endg&#252;ltig resultierende Schritt beurteilbar bliebe. </Pgraph><Pgraph>Dieses Vorgehen steht im gro&#223;en Gegensatz zu allen bisher publizierten OSPE-Pr&#252;fungen, bei denen in der Regel die Einzelschritte auch nach der Pr&#252;fung noch sichtbar und beurteilbar waren.  Verglichen mit den Studien von Goepferd und Kerber <TextLink reference="26"></TextLink>, Vann et al. <TextLink reference="28"></TextLink> und Scheutzel <TextLink reference="33"></TextLink> ergibt sich ein deutlicher Unterschied, da f&#252;r die dort untersuchten Pr&#252;fungen der &#228;hnlich komplexe Bewertungsbogen unter g&#252;nstigeren Zeitvoraussetzungen angewendet werden konnte. Dies k&#246;nnte die unterschiedlichen Ergebnisse zwischen der hier durchgef&#252;hrten Untersuchung und den zuvor erw&#228;hnten Studien erkl&#228;ren.</Pgraph><SubHeadline2>Train-the-Teacher</SubHeadline2><Pgraph>OSCE-basierte Pr&#252;fungen weisen in Analogie zu den bereits weiter oben erw&#228;hnten Vorteilen auch einige Nachteile auf. Nach Miller <TextLink reference="4"></TextLink>, <TextLink reference="35"></TextLink> haben Erfahrungen gezeigt, dass OSCE besonders trainings- und zeitaufwendig ist und nach Nayak et al. <TextLink reference="16"></TextLink> einer intensiven Planung und Teamarbeit bedarf. In der Regel ben&#246;tigen die eingesetzten Pr&#252;ferInnen ein intensives, systematisches Training, um die Anforderungen an Reliabilit&#228;t und Validit&#228;t einer OSCE-Pr&#252;fung zu erf&#252;llen <TextLink reference="35"></TextLink>. OSCE ist folglich, im Vergleich zu anderen Pr&#252;fungsarten wie Multiple-Choice-Fragen oder m&#252;ndliche Pr&#252;fungen, zeit- und vor allem kostenintensiv <TextLink reference="8"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>. Auch im Rahmen der hier vorliegenden Studie wurde eine zeitintensive Vorbereitung der Pr&#252;ferInnen in einer Train-the-Teacher-Veranstaltung durchgef&#252;hrt. Dadurch mussten im klinischen und organisatorischen Arbeitsablauf in der Abteilung f&#252;r Zahnerhaltungskunde personelle und r&#228;umliche Ressourcen und damit auch finanzielle Mittel gebunden werden. Die Dauer einer Vorlesungseinheit (45 min.) war hierf&#252;r realistisch gew&#228;hlt und konnte von allen Pr&#252;ferInnen wahrgenommen werden. Es stellt sich jedoch die Frage, wie lang eine Vorbereitung effektiv ausfallen muss um Erfahrungsunterschiede bei gemischten Teams im Vorfeld homogenisieren zu k&#246;nnen. Im SS 2010 zeigten die drei Pr&#252;ferInnen untereinander eine mittlere Korrelation zwischen 0.58 und 0.68. Im SS 2012 f&#252;hrte die identisch lang durchgef&#252;hrte Train-the-Teacher-Veranstaltung bei den vier Pr&#252;ferInnen zu Korrelationswerten zwischen 0.33 und 0.52. Hier kann vermutet werden, dass im Falle des angewendeten Manuals die Train-the-Teacher-Veranstaltung nicht effektiv eingesetzt wurde. </Pgraph><SubHeadline2>Pr&#252;ferInnen </SubHeadline2><Pgraph>Bei der Reliabilit&#228;tswertung spielen nach der heutigen Datenlage die Pr&#252;ferInnen eine wichtige Rolle. Bisher gibt es allerdings keine uns bekannten wissenschaftlichen Untersuchungen, die eine Aussage treffen, wie hoch die Mindestanzahl an Pr&#252;ferInnenn f&#252;r eine OSPE sein sollte. In der hier vorliegenden Studie konnte mit drei Pr&#252;ferInnen eine ausreichend hohe Reliabilit&#228;t in Kombination mit Check-Listen erzielt werden. Nach Ergebnissen dieser Untersuchung kann der Reliabilit&#228;tswert allerdings durch eine h&#246;here Pr&#252;ferzahl weiter gesteigert werden. Diese Steigerung der Reliabilit&#228;tswerte f&#228;llt im Verh&#228;ltnis zu der Pr&#252;ferInnenanzahl jedoch gering aus. Dar&#252;ber hinaus w&#252;rde eine weitere Erh&#246;hung der Pr&#252;ferInnenanzahl zu einem gesteigerten Aufwand hinsichtlich Organisation und finanziellen Kosten f&#252;hren. </Pgraph><Pgraph>In diesem Zusammenhang muss kritisch erw&#228;hnt werden, dass aus den vorliegenden Daten keine generelle Empfehlung f&#252;r andere Standorte bez&#252;glich der Pr&#252;ferInnenanzahl abgegeben werden kann, da die M&#246;glichkeit, drei bis vier lang erfahrene Pr&#252;ferInnen f&#252;r eine OSPE-Pr&#252;fung zur Verf&#252;gung zu haben, f&#252;r viele Standorte durchaus nicht die Regelsituation darstellt bzw. nicht realisierbar ist. Zu einem &#228;hnlichen Ergebnis in Bezug auf den gesteigerten Aufwand hinsichtlich Organisation bei OSCE-Pr&#252;fungen kamen auch die Autorengruppen um Nikendei und J&#252;nger <TextLink reference="37"></TextLink> bzw. Norcini et al. <TextLink reference="38"></TextLink>. Natkin und Guild <TextLink reference="39"></TextLink> konnten in ihrer Arbeit durch eine systematische Vorbereitung der Pr&#252;ferInnen eine deutliche Reliabilit&#228;tssteigerung nachweisen. &#196;hnliche Ergebnisse stellte auch Dhuru <TextLink reference="25"></TextLink> vor, in dessen Arbeit BewerterInnen mit langj&#228;hriger Berufserfahrung und bei Verwendung eines Bewertungsbogens die reliabelsten Pr&#252;fungsergebnisse erzielten. Dies kann in der vorliegenden Studie lediglich bei der Verwendung der Checkliste best&#228;tigt werden, denn die zwei Pr&#252;ferinnen mit der l&#228;ngsten Erfahrung wiesen im Falle des verwendeten Manuals lediglich schwache Korrelationen auf. Die Checkliste scheint, wie in dieser Untersuchung deutlich wird, in der Lage zu sein, die Reliabilit&#228;t weiter zu erh&#246;hen beziehungsweise mangelnde Pr&#252;fungserfahrung aufseiten der Bewertenden zu kompensieren. Dagegen konnte in der Untersuchung von Houpt und Kress <TextLink reference="31"></TextLink> die Reliabilit&#228;t nicht bei allen Bewertungskriterien gesteigert werden. Somit scheint es nach Meinung der Autoren, dass Train-the-Teacher-Veranstaltungen alleine nicht in der Lage sind, die Interrater-Reliabilit&#228;t signifikant zu erh&#246;hen. Derartige Trainingsveranstaltungen hatten den gr&#246;&#223;ten Effekt bei &#8222;Non-Expert&#8220;-Pr&#252;fern, dagegen relativ geringen Einfluss bei erfahrenen BewerterInnen <TextLink reference="31"></TextLink>. Dies kann auch von unserer Untersuchung best&#228;tigt werden. </Pgraph><SubHeadline2>Pr&#252;fungsaufgaben</SubHeadline2><Pgraph>Die Anzahl der in dieser Studie definierten Pr&#252;fungsaufgaben, die man h&#228;ufig in der Literatur mit dem Begriff der &#8222;Stationen&#8220; gleichsetzt, sollte kritisch hinterfragt werden. Im vorliegenden Fall waren es zwar nur zwei getrennte Aufgaben (A. F&#252;llung und B. Inlay), jedoch insgesamt 22 Bewertungen, die man als BewerterIn pro Studierenden in und w&#228;hrend der Pr&#252;fung abgab. Es geht letztlich um die Definition des Begriffes &#8222;Station&#8220; in Zusammenhang mit einer OSPE, was evidenzbasiert aus der Literatur nicht abzuleiten ist. Es bleibt zudem kritisch anzumerken, dass ein Wert von 0,6 f&#252;r Cronbachs alpha lediglich einen &#8222;ausreichenden&#8220; Charakter besitzt. Es ist ebenfalls zu hinterfragen, wie valide eine Pr&#252;fung dann &#252;berhaupt ist  und ob sie sich f&#252;r eine summative Pr&#252;fung eignet. Vor diesem Hintergrund l&#228;sst sich die Variante II aus unserer Sicht f&#252;r &#8222;high stakes&#8220; Examina nach der vorliegenden Datenlage nicht empfehlen.  </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusion">
      <MainHeadline>Conclusion</MainHeadline><Pgraph>The following conclusions may be drawn from this study regarding the question of how an OSPE in dental teaching in a phantom course for operative dentistry can best be reliably designed:</Pgraph><Pgraph><UnorderedList><ListItem level="1">an examiner&#8217;s checklist without an instructor&#8217;s manual resulted in higher interrater reliability in the context of the OSPEs carried out</ListItem><ListItem level="1">the evaluation of students&#8217; exam performance in the context of the OSPE should if possible be undertaken by at least three examiners.</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Schlussfolgerung">
      <MainHeadline>Schlussfolgerung</MainHeadline><Pgraph>Aus der vorliegenden Studie ergeben sich folgende Schlussfolgerungen hinsichtlich der Frage, wie eine OSPE in der zahnmedizinischen Lehre im Phantomkurs der Zahnerhaltungskunde m&#246;glichst reliabel gestaltet werden kann:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Eine Pr&#252;fer-Checkliste ohne Dozentenmanual ergab eine h&#246;here Interrater-Reliabilit&#228;t im Rahmen der durchgef&#252;hrten OSPE.</ListItem><ListItem level="1">Die Bewertung der studentischen Pr&#252;fungsleistungen im Rahmen der OSPE sollte nach M&#246;glichkeit durch mindestens drei Pr&#252;ferInnen  vorgenommen werden. </ListItem></UnorderedList></Pgraph><Pgraph> </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>The authors would like to thank the students of the 6th semester in the section for operative dentistry and the dental course assistants who also contributed to the evaluation of the OSPE.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>Die Autoren bedanken sich bei den Studierenden des 6. Semesters im Fach Zahnerhaltungskunde und bei den zahn&#228;rztlichen KursassistentInnen, die bei der Bewertung der OSPE ihren Beitrag geleistet haben.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Gesellschaft f&#252;r Medizinische Ausbildung</RefAuthor>
        <RefAuthor>Kompetenzzentrum Pr&#252;fungen Baden-W&#252;rttemberg</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>Leitlinie f&#252;r Fakult&#228;tsinterne Leistungsnachweise w&#228;hrend des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Pr&#252;fungen und des Kompetenzzentrums Pr&#252;fungen Baden-W&#252;rttemberg</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc74</RefPage>
        <RefTotal>Gesellschaft f&#252;r Medizinische Ausbildung, Kompetenzzentrum Pr&#252;fungen Baden-W&#252;rttemberg, Fischer MR. Leitlinie f&#252;r Fakult&#228;tsinterne Leistungsnachweise w&#228;hrend des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Pr&#252;fungen und des Kompetenzzentrums Pr&#252;fungen Baden-W&#252;rttemberg. GMS Z Med Ausbild. 2008;25(1):Doc74. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000558.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000558.shtml</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Taylor CL</RefAuthor>
        <RefAuthor>Grey NJ</RefAuthor>
        <RefAuthor>Satterthwaite JD</RefAuthor>
        <RefTitle>A comparison of grades awarded by peer assessment, faculty and a digital scanning device in a pre-clinical operative skills course</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Eur J Dent Educ</RefJournal>
        <RefPage>16-21</RefPage>
        <RefTotal>Taylor CL, Grey NJ, Satterthwaite JD. A comparison of grades awarded by peer assessment, faculty and a digital scanning device in a pre-clinical operative skills course. Eur J Dent Educ. 2013;17(1):16-21. DOI: 10.1111&#47;j.1600-0579.2012.00752.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1600-0579.2012.00752.x</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>World Federation for Medical Education</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2012</RefYear>
        <RefBookTitle>Basic Medical Education The 2012 Report</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>World Federation for Medical Education. Basic Medical Education The 2012 Report. Copenhagen: WFME Office; 2012.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Miller GE</RefAuthor>
        <RefTitle>The assessment of clinical skills&#47;competence&#47;performance</RefTitle>
        <RefYear>1990</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S63-67</RefPage>
        <RefTotal>Miller GE. The assessment of clinical skills&#47;competence&#47;performance. Acad Med.1990;65:S63-67. DOI: 10.1097&#47;00001888-199009000-00045</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199009000-00045</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor>Stevenson M</RefAuthor>
        <RefAuthor>Downie WW</RefAuthor>
        <RefAuthor>Wilson GM</RefAuthor>
        <RefTitle>Assessment of clinical competence using objective structured examination</RefTitle>
        <RefYear>1975</RefYear>
        <RefJournal>Br Med J</RefJournal>
        <RefPage>447-451</RefPage>
        <RefTotal>Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1:447-451. DOI: 10.1136&#47;bmj.1.5955.447</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.1.5955.447</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Manogue M</RefAuthor>
        <RefAuthor>Brown G</RefAuthor>
        <RefTitle>Developing and implementing an OSCE in dentistry</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>Eur J Dent Educ</RefJournal>
        <RefPage>51-57</RefPage>
        <RefTotal>Manogue M, Brown G. Developing and implementing an OSCE in dentistry. Eur J Dent Educ.1998;2(2):51-57. DOI: 10.1111&#47;j.1600-0579.1998.tb00039.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1600-0579.1998.tb00039.x</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Natkin E</RefAuthor>
        <RefAuthor>Guild RE</RefAuthor>
        <RefTitle>Evaluation of preclinical laboratory performance: a systematic study</RefTitle>
        <RefYear>1967</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>152-161</RefPage>
        <RefTotal>Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ.1967;31(2):152-161.</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Khan KZ</RefAuthor>
        <RefAuthor>Ramachandran S</RefAuthor>
        <RefAuthor>Gaunt K</RefAuthor>
        <RefAuthor>Pushkar P</RefAuthor>
        <RefTitle>The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: an historical and theoretical perspective</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>e1437-1446</RefPage>
        <RefTotal>Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: an historical and theoretical perspective. Med Teach. 2013;35(9):e1437-1446. DOI: 10.3109&#47;0142159X.2013.818634</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2013.818634</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Wani P</RefAuthor>
        <RefAuthor>Dalvi V</RefAuthor>
        <RefTitle>Objective Structured Practical Examination vs Traditional Clinical Examination in Human Physiology: Students perception</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Int J Med Sci Public Health</RefJournal>
        <RefPage>522&#8211;547</RefPage>
        <RefTotal>Wani P, Dalvi V. Objective Structured Practical Examination vs Traditional Clinical Examination in Human Physiology: Students perception. Int J Med Sci Public Health. 2013;2(3):522&#8211;547. DOI: 10.5455&#47;ijmsph.2013.080320133</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.5455&#47;ijmsph.2013.080320133</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Schoonheim-Klein M</RefAuthor>
        <RefAuthor>Muijtjens A</RefAuthor>
        <RefAuthor>Muijtens A</RefAuthor>
        <RefAuthor>Habets L</RefAuthor>
        <RefAuthor>Manogue M</RefAuthor>
        <RefAuthor>van der Vleuten C</RefAuthor>
        <RefAuthor>Hoogstraten J</RefAuthor>
        <RefAuthor>Van der Velden U</RefAuthor>
        <RefTitle>On the reliability of a dental OSCE, using SEM: effect of different days</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Eur J Dent Educ</RefJournal>
        <RefPage>131&#8211;137</RefPage>
        <RefTotal>Schoonheim-Klein M, Muijtjens A, Muijtens A, Habets L, Manogue M, van der Vleuten C, Hoogstraten J, Van der Velden U. On the reliability of a dental OSCE, using SEM: effect of different days. Eur J Dent Educ. 2008;12(3):131&#8211;137. DOI: 10.1111&#47;j.1600-0579.2008.00507.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1600-0579.2008.00507.x</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Hofer M</RefAuthor>
        <RefAuthor>Jansen M</RefAuthor>
        <RefAuthor>Soboll S</RefAuthor>
        <RefTitle>Potential improvements in medical education as retrospectively evaluated by candidates for specialist examinations</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Dtsch Med Wochenschr</RefJournal>
        <RefPage>373&#8211;378</RefPage>
        <RefTotal>Hofer M, Jansen M, Soboll S. Potential improvements in medical education as retrospectively evaluated by candidates for specialist examinations. Dtsch Med Wochenschr. 2006;131(8):373&#8211;378. DOI: 10.1055&#47;s-2006-932527</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1055&#47;s-2006-932527</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Abraham RR</RefAuthor>
        <RefAuthor>Raghavendra R</RefAuthor>
        <RefAuthor>Surekha K</RefAuthor>
        <RefAuthor>Asha K</RefAuthor>
        <RefTitle>A trial of the objective structured practical examination in physiology at Melaka Manipal Medical College. India</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Adv Physiol Educ</RefJournal>
        <RefPage>21&#8211;23</RefPage>
        <RefTotal>Abraham RR, Raghavendra R, Surekha K, Asha K. A trial of the objective structured practical examination in physiology at Melaka Manipal Medical College. India. Adv Physiol Educ. 2009;33(1):21&#8211;23. DOI: 10.1152&#47;advan.90108.2008</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1152&#47;advan.90108.2008</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Adome RO</RefAuthor>
        <RefAuthor>Kitutu F</RefAuthor>
        <RefTitle>Creating an OSCE&#47;OSPE in a resource-limited setting</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>525&#8211;526</RefPage>
        <RefTotal>Adome RO, Kitutu F. Creating an OSCE&#47;OSPE in a resource-limited setting. Med Educ. 2008;42(5):525&#8211;526. DOI: 10.1111&#47;j.1365-2923.2008.03045.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2008.03045.x</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Davenport ES</RefAuthor>
        <RefAuthor>Davis JE</RefAuthor>
        <RefAuthor>Cushing AM</RefAuthor>
        <RefAuthor>Holsgrove GJ</RefAuthor>
        <RefTitle>An innovation in the assessment of future dentists</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>Br Dent J</RefJournal>
        <RefPage>192&#8211;195</RefPage>
        <RefTotal>Davenport ES, Davis JE, Cushing AM, Holsgrove GJ. An innovation in the assessment of future dentists. Br Dent J. 1998;184(4):192&#8211;195.</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Smith LJ</RefAuthor>
        <RefAuthor>Price DA</RefAuthor>
        <RefAuthor>Houston IB</RefAuthor>
        <RefTitle>Objective structured clinical examination compared with other forms of student assessment</RefTitle>
        <RefYear>1984</RefYear>
        <RefJournal>Arch Dis Child</RefJournal>
        <RefPage>1173-1176</RefPage>
        <RefTotal>Smith LJ, Price DA, Houston IB. Objective structured clinical examination compared with other forms of student assessment. Arch Dis Child. 1984;59:1173-1176. DOI: 10.1136&#47;adc.59.12.1173</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;adc.59.12.1173</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Nayak V</RefAuthor>
        <RefAuthor>Bairy KL</RefAuthor>
        <RefAuthor>Adiga S</RefAuthor>
        <RefAuthor>Shenoy S</RefAuthor>
        <RefAuthor>Magazine BC</RefAuthor>
        <RefAuthor>Amberkar M</RefAuthor>
        <RefAuthor>Kumari M</RefAuthor>
        <RefTitle>OSPE in Pharmacology: Comparison with the conventional Method and Students&#39; Perspective Towards</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Br Biomed Bull</RefJournal>
        <RefPage>218-222</RefPage>
        <RefTotal>Nayak V, Bairy KL, Adiga S, Shenoy S, Magazine BC, Amberkar M, Kumari M. OSPE in Pharmacology: Comparison with the conventional Method and Students&#39; Perspective Towards. Br Biomed Bull. 2014;2(1):218-222.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Schoonheim-Klein ME</RefAuthor>
        <RefAuthor>Habets LL</RefAuthor>
        <RefAuthor>Aartman IH</RefAuthor>
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefAuthor>Hoogstraten J</RefAuthor>
        <RefAuthor>van der Velden U</RefAuthor>
        <RefTitle>Implementing an Objective Structured Clinical Examination (OSCE) in dental education: effects on students&#39; learning strategies</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Eur J Dent Educ</RefJournal>
        <RefPage>226-235</RefPage>
        <RefTotal>Schoonheim-Klein ME, Habets LL, Aartman IH, van der Vleuten CP, Hoogstraten J, van der Velden U. Implementing an Objective Structured Clinical Examination (OSCE) in dental education: effects on students&#39; learning strategies. Eur J Dent Educ. 2006;10(4):226-235. DOI: 10.1111&#47;j.1600-0579.2006.00421.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1600-0579.2006.00421.x</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Chenot JF</RefAuthor>
        <RefAuthor>Ehrhardt M</RefAuthor>
        <RefTitle>Objective structured clinical examination (OSCE) in der medizinischen Ausbildung: Eine Alternative zur Klausur</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Z Allg Med</RefJournal>
        <RefPage>437-442</RefPage>
        <RefTotal>Chenot JF, Ehrhardt M. Objective structured clinical examination (OSCE) in der medizinischen Ausbildung: Eine Alternative zur Klausur. Z Allg Med. 2003;79(2):437-442.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Sharaf AA</RefAuthor>
        <RefAuthor>AbdelAziz AM</RefAuthor>
        <RefAuthor>El Meligy OA</RefAuthor>
        <RefTitle>Intra- and inter-examiner variability in evaluating preclinical pediatric dentistry operative procedures</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>540-544</RefPage>
        <RefTotal>Sharaf AA, AbdelAziz AM, El Meligy OA. Intra- and inter-examiner variability in evaluating preclinical pediatric dentistry operative procedures. J Dent Educ. 2007;71(4):540-544.</RefTotal>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Kellersmann CT</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>Zur Reliabilit&#228;t der Beurteilung vorklinischer Phantomarbeiten bei Einsatz eines strukturierten Bewertungsbogens</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Kellersmann CT. Zur Reliabilit&#228;t der Beurteilung vorklinischer Phantomarbeiten bei Einsatz eines strukturierten Bewertungsbogens. Inaugural-Dissertation. M&#252;nster: Westf&#228;lischer Wilhelms-Universit&#228;t M&#252;nster; 2007.</RefTotal>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Lilley JD</RefAuthor>
        <RefAuthor>ten Bruggen Cate HJ</RefAuthor>
        <RefAuthor>Holloway PJ</RefAuthor>
        <RefAuthor>Holt JK</RefAuthor>
        <RefAuthor>Start KB</RefAuthor>
        <RefTitle>Reliability of practical tests in operative dentistry</RefTitle>
        <RefYear>1968</RefYear>
        <RefJournal>Br Dent J</RefJournal>
        <RefPage>194-197</RefPage>
        <RefTotal>Lilley JD, ten Bruggen Cate HJ, Holloway PJ, Holt JK, Start KB. Reliability of practical tests in operative dentistry. Br Dent J. 1968;125(5):194-197.</RefTotal>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Fuller JL</RefAuthor>
        <RefTitle>The effects of training and criterion models on interjudge reliability</RefTitle>
        <RefYear>1972</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>19-22</RefPage>
        <RefTotal>Fuller JL. The effects of training and criterion models on interjudge reliability. J Dent Educ. 1972;36(4):19-22.</RefTotal>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Hinkelman KW</RefAuthor>
        <RefAuthor>Long NK</RefAuthor>
        <RefTitle>Method for decreasing subjective evaluation in preclinical restorative dentistry</RefTitle>
        <RefYear>1973</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>13-18</RefPage>
        <RefTotal>Hinkelman KW, Long NK. Method for decreasing subjective evaluation in preclinical restorative dentistry. J Dent Educ. 1973;37(9):13-18.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Gaines WG</RefAuthor>
        <RefAuthor>Bruggers H</RefAuthor>
        <RefAuthor>Rasmussen RH</RefAuthor>
        <RefTitle>Reliability of ratings in preclinical fixed prosthodontics: effect of objective scaling</RefTitle>
        <RefYear>1974</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>672-675</RefPage>
        <RefTotal>Gaines WG, Bruggers H, Rasmussen RH. Reliability of ratings in preclinical fixed prosthodontics: effect of objective scaling. J Dent Educ. 1974;38(12):672-675.</RefTotal>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Dhuru VB</RefAuthor>
        <RefAuthor>Rypel TS</RefAuthor>
        <RefAuthor>Johnston WM</RefAuthor>
        <RefTitle>Criterion-oriented grading system for preclinical operative dentistry laboratory course</RefTitle>
        <RefYear>1978</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>528-531</RefPage>
        <RefTotal>Dhuru VB, Rypel TS, Johnston WM. Criterion-oriented grading system for preclinical operative dentistry laboratory course. J Dent Educ.1978;42(9):528-531.</RefTotal>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Goepferd SJ</RefAuthor>
        <RefAuthor>Kerber PE</RefAuthor>
        <RefTitle>A comparison of two methods for evaluating primary class II cavity preparations</RefTitle>
        <RefYear>1980</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>537-542</RefPage>
        <RefTotal>Goepferd SJ, Kerber PE. A comparison of two methods for evaluating primary class II cavity preparations. J Dent Educ. 1980;44(9):537-542.</RefTotal>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Feil PH</RefAuthor>
        <RefTitle>An analysis of the reliability of a laboratory evaluation system</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>489-494</RefPage>
        <RefTotal>Feil PH. An analysis of the reliability of a laboratory evaluation system. J Dent Educ. 1982;46(8):489-494.</RefTotal>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Vann WF</RefAuthor>
        <RefAuthor>Machen JB</RefAuthor>
        <RefAuthor>Hounshell PB</RefAuthor>
        <RefTitle>Effects of criteria and checklists on reliability in preclinical evaluation</RefTitle>
        <RefYear>1983</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>671-675</RefPage>
        <RefTotal>Vann WF, Machen JB, Hounshell PB. Effects of criteria and checklists on reliability in preclinical evaluation. J Dent Educ. 1983;47(10):671-675.</RefTotal>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Bedi R</RefAuthor>
        <RefAuthor>Lo E</RefAuthor>
        <RefAuthor>King NM</RefAuthor>
        <RefAuthor>Chan T</RefAuthor>
        <RefTitle>The effect of pictorial criteria upon the reliability of assessments of cavity preparations</RefTitle>
        <RefYear>1987</RefYear>
        <RefJournal>J Dent</RefJournal>
        <RefPage>222-224</RefPage>
        <RefTotal>Bedi R, Lo E, King NM, Chan T. The effect of pictorial criteria upon the reliability of assessments of cavity preparations. J Dent. 1987;15(5):222-224. DOI: 10.1016&#47;0300-5712(87)90116-3</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;0300-5712(87)90116-3</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Jenkins SM</RefAuthor>
        <RefAuthor>Dummer PM</RefAuthor>
        <RefAuthor>Gilmour AS</RefAuthor>
        <RefAuthor>Edmunds DH</RefAuthor>
        <RefAuthor>Hicks R</RefAuthor>
        <RefAuthor>Ash P</RefAuthor>
        <RefTitle>Evaluating undergraduate preclinical operative skill; use of a glance and grade marking system</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>J Dent</RefJournal>
        <RefPage>679-684</RefPage>
        <RefTotal>Jenkins SM, Dummer PM, Gilmour AS, Edmunds DH, Hicks R, Ash P. Evaluating undergraduate preclinical operative skill; use of a glance and grade marking system. J Dent. 1998;26(6):679-684. DOI: 10.1016&#47;S0300-5712(97)00033-X</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;S0300-5712(97)00033-X</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Houpt MI</RefAuthor>
        <RefAuthor>Kress G</RefAuthor>
        <RefTitle>Accuracy of measurement of clinical performance in dentistry</RefTitle>
        <RefYear>1973</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>34-46</RefPage>
        <RefTotal>Houpt MI, Kress G. Accuracy of measurement of clinical performance in dentistry. J Dent Educ. 1973;37(7):34-46.</RefTotal>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Baumann MP</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Evaluation von Bewertungskriterien f&#252;r praktische Studentenarbeiten im Vergleich zur Bewertung per Augenschein</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Baumann MP. Evaluation von Bewertungskriterien f&#252;r praktische Studentenarbeiten im Vergleich zur Bewertung per Augenschein. Inaugural-Dissertation. M&#252;nchen: Medizinischen Fakult&#228;t der Ludwig-Maximilians-Universit&#228;t M&#252;nchen; 2015.</RefTotal>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Scheutzel P</RefAuthor>
        <RefTitle>Einfluss des Bewertungssystems auf Objektivit&#228;t und Reliabilit&#228;t der Benotung zahnmedizinischer Studentenarbeiten am Phantompatienten</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc67</RefPage>
        <RefTotal>Scheutzel P. Einfluss des Bewertungssystems auf Objektivit&#228;t und Reliabilit&#228;t der Benotung zahnmedizinischer Studentenarbeiten am Phantompatienten. GMS Z Med Ausbild. 2007;24(1):Doc67. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2007-24&#47;zma000361.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2007-24&#47;zma000361.shtml</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Bazan MT</RefAuthor>
        <RefAuthor>Seale NS</RefAuthor>
        <RefTitle>A technique for immediate evaluation of preclinical exercises</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>726-728</RefPage>
        <RefTotal>Bazan MT, Seale NS. A technique for immediate evaluation of preclinical exercises. J Dent Educ. 1982;46(12):726-728.</RefTotal>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Barman A</RefAuthor>
        <RefTitle>Critiques on the Objective Structured Clinical Examination</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Ann Acad Med Singapore</RefJournal>
        <RefPage>478-482</RefPage>
        <RefTotal>Barman A. Critiques on the Objective Structured Clinical Examination. Ann Acad Med Singapore. 2005;34(8):478-482.</RefTotal>
      </Reference>
      <Reference refNo="36">
        <RefAuthor>Boursicot K</RefAuthor>
        <RefAuthor>Ware J</RefAuthor>
        <RefAuthor>Hazlett C</RefAuthor>
        <RefTitle>Objective Structured Clinical Examination Objective Structured Practical Examination</RefTitle>
        <RefYear>1979</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>41-54</RefPage>
        <RefTotal>Boursicot K, Ware J, Hazlett C. Objective Structured Clinical Examination Objective Structured Practical Examination. Med Educ. 1979;31:41-54.</RefTotal>
      </Reference>
      <Reference refNo="37">
        <RefAuthor>Nikendei C</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Pr&#252;fung</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc47</RefPage>
        <RefTotal>Nikendei C, J&#252;nger J. OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Pr&#252;fung. GMS Z Med Ausbild. 2006;23(3):Doc47. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000266.shtml</RefLink>
      </Reference>
      <Reference refNo="38">
        <RefAuthor>Norcini JJ</RefAuthor>
        <RefAuthor>Maihoff NA</RefAuthor>
        <RefAuthor>Day SC</RefAuthor>
        <RefAuthor>Benson JA</RefAuthor>
        <RefTitle>Trends in medical knowledge as assessed by the certifying examination in internal medicine</RefTitle>
        <RefYear>1989</RefYear>
        <RefJournal>JAMA</RefJournal>
        <RefPage>2402&#8211;2404</RefPage>
        <RefTotal>Norcini JJ, Maihoff NA, Day SC, Benson JA. Trends in medical knowledge as assessed by the certifying examination in internal medicine. JAMA. 1989;262(17):2402&#8211;2404. DOI: 10.1001&#47;jama.1989.03430170064029</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1001&#47;jama.1989.03430170064029</RefLink>
      </Reference>
      <Reference refNo="39">
        <RefAuthor>Natkin E</RefAuthor>
        <RefAuthor>Guild RE</RefAuthor>
        <RefTitle>Evaluation of preclinical laboratory performance: a systematic study</RefTitle>
        <RefYear>1967</RefYear>
        <RefJournal>J Dent Educ</RefJournal>
        <RefPage>152-161</RefPage>
        <RefTotal>Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ. 1967;31(2):152-161.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Composition of the study population.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Zusammensetzung der Studienpopulation.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Data for the examiners A to E, who evaluated group 1 in SS 2010 (A, B, C) and group 2 in SS 2012 (A, B, D, E) (f &#61; female, m &#61; male).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Daten der Pr&#252;ferInnen A bis E, die die Gruppe 1 im SS 2010 (A, B, C) und die Gruppe 2 im SS 2012 (A, B, D, E) evaluiert haben (w &#61; weiblich, m &#61; m&#228;nnlich).</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Results of group I and group II. The corresponding reliability values (Cronbach&#8217;s alpha) are given for three and four examiners. In the column &#8220;A vs. B&#8221;, the results of the subgroup analysis are presented. Identification with &#42; means that differing from the real examination scenario, a conversion into another number of examiners (abbreviations: CL &#61; cavity lining, vs. &#61; versus). </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Ergebnisse der Gruppe I und der Gruppe II. Es werden die korrespondierenden Reliabilit&#228;tswerte (&#61; Cronbachs alpha) bei drei und vier Pr&#252;ferInnen angegeben. In der Spalte &#8222;A vs B&#8220; werden die Ergebnisse der Subgruppenanalyse dargestellt. Die Kennzeichnung mit &#42; bedeutet, dass abweichend vom Realpr&#252;fszenario eine Umrechnung auf eine andere Pr&#252;ferInnenanzahl erfolgte (Abk&#252;rzung: UF &#61; Unterf&#252;llung, vs &#61; versus). </Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>3</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="489" width="485">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Examiner&#8217;s checklist group I and group II with both tasks A (filling) and B (inlay). The abbreviation UF stands for under filling.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Pr&#252;fer-Checkliste Gruppe I und Gruppe II mit den beiden Aufgabenstellungen A (F&#252;llung) und B (Inlay). Die Abk&#252;rzung UF steht f&#252;r Unterf&#252;llung.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="736" width="1069">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Instructor&#8217;s manual for group II with the evaluation criteria of both tasks A and B. The abbreviation p.a. signifies pulpal axial wall. The abbreviation UF stands for under filling, prox. &#61; proximal.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Dozentenmanual der Gruppe II mit Bewertungskriterien beider Aufgaben A und B. Die Abk&#252;rzung p.a. bedeutet Pulpaaxiale Wand, UF steht f&#252;r Unterf&#252;llung, min &#61; mindestens, approx &#61; approximal.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="103" width="776">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: The facets of the variance analysis conducted in the study.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Die Facetten der in der Studie durchgef&#252;hrten Varianzanalyse.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>3</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>