Study on the Interrater Reliability of an OSPE (Objective Structured Practical Examination) – Subject to the Evaluation Mode in the Phantom Course of Operative Dentistry

zma001060 10.3205/zma001060 urn:nbn:de:0183-zma0010608 article Artikel Study on the Interrater Reliability of an OSPE (Objective Structured Practical Examination) – Subject to the Evaluation Mode in the Phantom Course of Operative Dentistry Studie zur Interrater-Reliabilität einer OSPE (Objective Structured Practical Examination) in Abhängigkeit vom Bewertungsmodus im Phantomkurs der Zahnerhaltungskunde Schmitt Schmitt Laura L

Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Orthodontics, Frankfurt/Main, Germany

Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Kieferorthopädie, Frankfurt/Main, Deutschland

author Möltner Möltner Andreas A

University Heidelberg, Medical Faculty, Competence Centre for Examinations in Medicine/Baden-Württemberg, Heidelberg, Germany

Universität Heidelberg, Medizinische Fakultät, Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg, Heidelberg, Deutschland

author Rüttermann Rüttermann Stefan S

Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, Frankfurt/Main, Germany

Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Zahnerhaltungskunde, Frankfurt/Main, Deutschland

author Gerhardt-Szép Gerhardt-Szép Susanne S PD Dr. med. dent. MME

Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, D-60596 Frankfurt/Main, Germany, Phone: +49 (0)69/6301-7505, Fax: +49 (0)69/6301-3841Goethe-University Frankfurt am Main, Carolinum Dental University Institute GmbH, Department of Operative Dentistry, Frankfurt/Main, Germany

Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Zahnerhaltungskunde, 60596 Frankfurt/Main, Deutschland, Tel.: +49 (0)69/6301-7505, Fax: +49 (0)69/6301-3841Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Zahnerhaltungskunde, Frankfurt/Main, Deutschland

s.szep@em.uni-freiburg.de author German Medical Science GMS Publishing House

Düsseldorf

610 OSCE OSPE checklist evaluator instructor's manual feedback dentistry OSCE OSPE Checkliste Bewerter Dozentenmanual Feedback Zahnmedizin Clinical skills Praktische Fertigkeiten 20151023 20160401 20160603 20160815 engl germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 2366-5017 33 4 GMS Journal for Medical Education GMS J Med Educ Clinical skills 61 Einleitung: Ziel der vorliegenden Studie war es, die Reliabilität einer OSPE-Semesterabschlussprüfung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Berücksichtigung unterschiedlicher Bewertungsmodi (Prüfer-Checkliste versus Dozentenmanual) und PrüferInnenanzahl (drei versus vier) zu evaluieren. Methoden: Im Rahmen einer historischen monozentrischen Vergleichsstudie wurden zwei verschiedene Bewertungsmodi (Gruppe I: Verwendung ausschließlich einer Prüfer-Checkliste versus Gruppe II: Verwendung einer Prüfer-Checkliste inklusive eines Dozentenmanuals) im Rahmen einer realen Semesterabschlussprüfung, die in OSPE-Form abgehalten wurde, evaluiert. Zur Analyse der Interrater-Reliabilität wurde die Generalisierbarkeitstheorie verwendet, die eine Verallgemeinerung des Konzepts der internen Konsistenz (Cronbachs alpha) beinhaltet. Ergebnisse: Die Ergebnisse zeigen, dass die alleinige Verwendung der Prüfer-Checkliste zu höheren Interrater-Reliabilitätswerten führte als das zusätzlich zu der Liste verwendete ausführliche Dozentenmanual. Schlussfolgerung: Zusammenfassend kann festgehalten werden, dass die in der vorliegenden Studie verwendete Prüfer-Checkliste ohne Dozentenmanual im Rahmen der durchgeführten OSPE die höchste Interrater-Reliabilität ergab in Kombination mit der Anzahl von drei BewerterInnen. Introduction: The aim of the study presented here was to evaluate the reliability of an OSPE end-of-semester exam in the phantom course for operative dentistry in Frankfurt am Main taking into consideration different modes of evaluation (examiner’s checklist versus instructor’s manual) and number of examiners (three versus four).Methods: In an historic, monocentric, comparative study, two different methods of evaluation were examined in a real end-of-semester setting held in OSPE form (Group I: exclusive use of an examiner’s checklist versus Group II: use of an examiner’s checklist including an instructor’s manual). For the analysis of interrater reliability, the generalisability theory was applied that contains a generalisation of the concept of internal consistency (Cronbach’s alpha). Results: The results show that the exclusive use of the examiner’s checklist led to higher interrater reliability values than the in-depth instructor’s manual used in addition to the list.Conclusion: In summary it can be said that the examiner’s checklists used in the present study, without the instructor’s manual, resulted in the highest interrater reliability in combination with three evaluators within the context of the completed OSPE. Introduction and Problem DefinitionPerformance checks constitute a central element of teaching; their evaluation is characterised primarily by the quality criteria of objectivity, reliability and validity , . A GMA (Society for Medical Education) guideline existing for this purpose and the basic standards of the WFME (World Federation for Medical Examination) indicate the following criteria:the examinations must be justiciablethe examination procedure is based upon learning goals and the learning effect on studentsthe examination procedures applied and the guidelines for passing the exams must be made known.In 2008, the Science Council recommended the creation of a functioning evaluation system on an international level for performance checks in universities. The task of the assessment tools applied was to analyse teaching performance clearly and dependably [http://www.wissenschaftsrat.de/download/archiv/8639-08.pdf, cited at 23.10.2015]. On the other hand, the current regulations on the licensing of dentists from 1955 contain no guidelines on the examinations held in the course of studies [http://www.gesetze-im-internet.de/z_pro/BJNR000370955.html, cited at 23.10.2015].Because in the study of dentistry practical skills are reinforced, and thus also examined, we frequently deal with the implementation of competence-orientated methods of examination that can be characterised on the Miller pyramid by “shows how” or “acts” . From this context, OSCE (Objective Structured Clinical Examination) and OSPE (Objective Structured Practical Examination) methods of examination are especially possible .The OSCE method of examination was introduced in 1975 by Harden . Initially conceived for examinations in medicine, today the OSCE is also used for examinations in dentistry. In a 1998 study, Mangour and Brown presented the development and implementation of OSCEs in dentistry for the first time. The terms OSCE and OSPE are usually applied as equivalents and thus with no differentiation. Both Natkin and Guild , as well as the AMEE (Association for Medical Education in Europe) Guide No. 81 Part I describe OSPE (as a variation of OSCE) as a method of examination used to test practical skills and knowledge in a non-clinical environment. The authors Wani and Dalvi also noted that the OSPE is an exam form where both the strengths and weaknesses of students’ practical skill can be presented and reviewed. Students and examiners evaluate this exam form as positive and useful , , , , , . In further studies, such as those of Smith et al. , Nayak et al. and Abraham et al. , students described both OSCEs and OSPEs in comparison to written and oral examinations as fairer and less stressful exam forms, and preferred the OSPE to more “traditional” exam forms. A study by Schoonheim-Klein et al. was also able to show that OSCEs, in a dental context in particular, promoted skills in the area of clinical competence and learning, as well as a more realistic self-assessment on the part of the students. In addition, the study by Nayak et al. was able to show that through the OSPE, as well as the individual competencies of each student, the practical demonstration of facts and applied knowledge and learning behaviour could be positively influenced.Reliability values between 0.11 and 0.97 were given for the OSCEs . The strongly varying results can be explained primarily by the fact that the parameters under which an OSCE is held (number of stations, number of examiners, length of the exam, type of evaluation mode) could be seen to vary considerably.Independently of the exam form, a differentiation is normally made in evaluation between the methods of “glance and grade” and evaluation based upon defined criteria. These methods were evaluated within the context of dental examination settings , , , , , , , , , , , , . The majority of the studies referred to above were not able to determine any significant differences between glance and grade and criteria-based methods. Furthermore, they did not take place in a real, but rather an artificial exam environment.There are hardly any studies on OSPEs which, as already mentioned, represent in the strict sense a variation of the OSCE on the assessment of parameters referred to above. It has not been investigated, for instance, to what extent the number of examiners and the type of evaluation methods influence the result of an OSPE.Against this background, the aims of this study were to evaluate the reliability of a real OSPE end-of-semester exam in the phantom course of operative dentistry in Frankfurt am Main, taking various evaluation modes and number of examiners into consideration. Einleitung und ProblemstellungLeistungskontrollen bilden einen zentralen Bestandteil der Lehre; deren Evaluation wird in erster Linie durch die Gütekriterien Objektivität, Reliabilität und Validität charakterisiert , . Eine hierzu existierende Leitlinie der GMA (Gesellschaft für Medizinische Ausbildung) und die Basisstandards der WFME (World Federation for Medical Examination) weisen zudem auf folgende Kriterien hin:Die Prüfungen müssen justiziabel sein. Das Prüfungsverfahren orientiert sich an Lernzielen und an der lernsteuernden Wirkung auf die Studierenden. Die verwendeten Prüfungsverfahren und die Grundsätze zum Bestehen der Prüfungen müssen bekannt gemacht werden.Der Aufbau eines funktionierenden Evaluationssystems auf internationalem Niveau für Leistungskontrollen in den Universitäten wurde 2008 vom Wissenschaftsrat empfohlen. Die verwendeten Bewertungsinstrumente sollten die Lehrleistung verlässlich und transparent analysieren [http://www.wissenschaftsrat.de/download/archiv/8639-08.pdf, zuletzt abgerufen am 23.10.2015]. Dem steht gegenüber, dass die aktuell geltende Approbationsordnung für Zahnärzte aus dem Jahre 1955 keine Vorgaben zu den abzuhaltenden, studiumsbegleitenden Prüfungen beinhaltet [http://www.gesetze-im-internet.de/z_pro/BJNR000370955.html, zuletzt abgerufen am 23.10.2015]. Da im Zahnmedizinstudium verstärkt praktische Fertigkeiten vermittelt und somit auch geprüft werden, handelt es sich meistens um den Einsatz kompetenzorientierter Prüfungsformen, die auf der Miller-Pyramide mit „zeigt wie“ beziehungsweise „handelt“ charakterisiert werden können . Aus diesem Kontext kommen vor allem die Prüfungsformen des OSCE (Objective Structured Clinical Examination) und OSPE (Objective Structured Practical Examination) in Frage . Die Prüfungsform OSCE wurde im Jahr 1975 durch Harden eingeführt . Zunächst für Prüfungen im Fach Medizin konzipiert, wird OSCE heute ebenfalls im Rahmen zahnmedizinischer Prüfungen angewandt. In einer Studie aus dem Jahr 1998 stellten Manogue und Brown erstmals die Entwicklung und Ausführung von OSCE in der Zahnmedizin vor. Die Begriffe OSCE und OSPE werden in der Literatur meist äquivalent und somit nicht differenziert verwendet. Sowohl Natkin und Guild als auch der AMEE (Association for Medical Education in Europe) Guide No. 81 Part I. beschreiben OSPE - als eine Variation der OSCE - als Prüfungsmethode, um praktische Fertigkeiten und Wissen in einer nicht-klinischen Umgebung zu prüfen. Die Autoren Wani und Dalvi stellten ergänzend fest, dass OSPE eine Prüfungsform sei, mit der sich die Stärken und Schwächen der studentischen, praktischen Fertigkeiten darstellen und überprüfen lassen. Sowohl Studierende als auch PrüferInnen bewerteten diese Prüfungsform als positiv und sinnvoll , , , , , . In weiteren Studien, wie der Untersuchung von Smith et al. , Nayak et al. und Abraham et al , bezeichneten die Studierenden sowohl OSCEs als auch OSPEs im Vergleich zu schriftlichen und mündlichen Prüfungen als gerechtere und weniger stressige Prüfungsformen und zogen die OSPE der „traditionellen“ Prüfungsform vor. Eine Untersuchung von Schoonheim-Klein et al. konnte außerdem zeigen, dass speziell OSCEs im dentalen Kontext die Fähigkeiten im Bereich der klinischen Kompetenz, das Lernen selbst, sowie eine realistischere Selbsteinschätzung der Studierenden förderten. Zudem konnte die Studie von Nayak et al. darstellen, dass durch OSPE neben den individuellen Kompetenzen eines jeden Studierenden, auch die praktische Demonstration von Fakten- und Handlungswissen, sowie das Lernverhalten positiv beeinflusst werden. Für die OSCEs wurden Reliabilitätswerte zwischen 0.11 und 0.97 angegeben . Die stark differierenden Ergebnisse erklären sich vor allem dadurch, dass die Parameter unter denen eine OSCE abgehalten wird (Stationsanzahl, PrüferInnenanzahl, Dauer der Prüfung, Art der Bewertungsmodi), starke Variationen aufweisen können. Unabhängig von der Prüfungsart wird standardmäßig bei der Bewertung zwischen den Methoden der „glance and grade“ (= per Augenschein) und der Bewertung aufgrund definierter Kriterien unterschieden. Diese Methoden wurden auch im Kontext von zahnärztlichen Prüfungssettings evaluiert , , , , , , , , , , , , . Die meisten der oben genannten Studien konnten keine signifikanten Unterschiede zwischen der Augenschein- und der kriterienbasierten Methodik feststellen. Zudem fanden sie nicht in einer realen, sondern in einer artifiziellen Prüfungsumgebung statt.Zu OSPE-Prüfungen, die wie bereits beschrieben im eigentlichen Sinne eine Variation der OSCE darstellen gibt es kaum Studien zur Einschätzung der weiter oben genannten Parameter. So ist es beispielsweise nicht erforscht, inwieweit die PrüferInnenanzahl und die Art der Bewertungsmethode das Ergebnis einer OSPE beeinflussen.Vor diesem Hintergrund war es das Ziel der vorliegenden Studie, die Reliabilität einer realen OSPE-Semesterabschlussprüfung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Berücksichtigung unterschiedlicher Bewertungsmodi und PrüferInnenanzahl zu evaluieren. Material and MethodsThe phantom course of operative dentistry ran for a period of one semester (16 weeks). During this time, students had to complete practical work on a variety of simulation models (on extracted human and industrially manufactured artificial teeth). By means of previously defined treatment protocols, various treatment alternatives (for example fillings, laboratory restorations such as inlays, endodontic treatments, etc.) were practised step by step with the help of instructors. As soon as the predefined criteria were fulfilled, each step was ratified by the supervising instructor in a so-called certification booklet. The learning process was accompanied by formative feedback. At the end of the course, both an oral test of knowledge and a summative OSPE took place. The latter was carried out in the simulation unit of so-called “phantom patients”. Two plastic models (upper and lower jaw) were mounted in a “phantom head” consisting of 14 plastic upper jaw teeth and 14 plastic lower jaw teeth. The OSPE consisted of two examination parts, the “filling” (A) and the “inlay” (B), carried out on two different plastic teeth of each respective model. These divided into six “sub-units” (1. “primary preparation”; 2. “under filling and secondary preparation”; 3. “filling”; 4. “inlay”; 5. “filling overall” and 6. “overall grade”) which were each evaluated by the examiners (see Figure 1 ). These subunits accorded to the criteria based on which the attendance certificates for the course were issued by the instructors. The examiner’s checklist, which contained the list of partial aspects (subunits) mentioned above, was tested out over four consecutive semesters (summer semester 2008 to winter semester 2009) in a regular examination scenario. During the test, the evaluation took place via inspection of the prescribed partial aspects, judged purely on the basis of the view of the examiners’ general quality criteria. School grades were awarded from 1 to 5 (1=very good to 5=insufficient).Each examiner evaluated each student in a real examination scenario (duration: 3 hrs.). This meant that the examiners assessed the students’ work directly at the workplace (on a phantom patient) in a predetermined order during the examination. The students signalled to the examiners that they were ready to submit a subunit for evaluation. During the OSPE, the examiners exchanged no information on the grades they had awarded. After the examiners had independently completed their individual examiner’s checklists, the evaluations were discussed in a joint meeting and it was determined which students should repeat the exam. This took place according to the Delphi principle [http://www.horx.com/zukunftsforschung/Docs/02-M-09-Delphi-Methode.pdf, cited at 23.10.2015].Examination scenario of the studyThe present study relates to a period of two semesters (summer semester 2010 = Group I, summer semester 2012 = Group II). The composition of the study population is given in Table 1 . The inclusion criteria were: students from the 6th semesterparticipation in the phantom course for restorative dentistryexamination skills present.The exclusion criteria were defined as follows: students from other semesterscourse dropouts and course repeatersexamination skills not met.The difference in the respective group sizes (I versus II) resulted from the actual size of the semester which was subject to large variations and which was dependent upon the results of the preceding examination. A numerical adjustment of both groups was not feasible as all course participants, according to the study regulations, had to take the exam. The determination of the number of examiners was carried out prior to this study on application for ethical approval. The assignment of identical examiners for both groups was not practical for staffing reasons in the department.In group I, an examiner’s checklist was applied exclusively, as seen in Figure 1 . In group II, the examiners used the identical examiner’s checklist, but in combination with a detailed instructor’s manual (see Figure 2 ). This contained clearly defined criteria for the evaluation the individual school grades.In all, five examiners took part in the study (A-E), four women and one man. The examiners were all dentists in the Department for Operative Dentistry, had experience in teaching and in the evaluation of students’ work in the phantom course. Table 2 shows their distribution according to number and sex. Examiner A had passed the final examination in dentistry in 1990, examiners B, C, D, and E in 2007, 2008, 2010 and 2011 respectively. They all had experience in conducting the phantom course of operative dentistry. In addition to the others, only A had experience in conducting courses in patient treatment.The examiner’s checklist originated from subject areas that were presented as standard in the current course, and in textbooks for restorative dentistry. These were also similar to the units (filling, inlay) and subunits defined as relevant for examination in operative dentistry raised in Baumann’s study on an interdisciplinary basis between four centres (the universities of Frankfurt, Freiburg, Leipzig and Munich). From the manual attached to group II, examiners were able to learn which evaluation criteria had to be fulfilled in order for a particular grade to be awarded.Train-the-TeacherIn each semester, a 45 minute “train-the-teacher course” was held. In this course, examiners were prepared through practical exercises and theoretical instructions on situations in the OSPE and the use of the examiner’s checklist and the instructor’s manual. Thus in advance a relatively high measure of standardisation between the examiners could be achieved.Statistics and Application for Ethical ApprovalThe results were evaluated according to the generalisability theory (G theory) with the statistic programmes SAS 9.2 (SAS Institute Inc., Cary, USA, PROC MIXED) and R (Version 2.15, Package lme4). The variance of the grades obtained is attributed to the influencing factors (in the terminology of the G theory “facets”) “students” and “examiners”, as well as to a measurement error component (see Figure 3 ). From the variance proportions of the facet “examiner” and error variance relative to the facet “student”, the measurement reliability of the evaluations can be estimated. The generalisability coefficient represents an analogue to internal consistency (Cronbach’s alpha). In contrast to its usual application to various tasks, it is used here for several examiners. The G theory allows assessment of measurement reliability with the adoption of a different number of examiners to that in the actual investigation. In this way, both studies in which a varying number of examiners were involved can be made compatible (in analogy to the Spearman-Brown formula with which a standardisation of reliability for a certain number of tasks is possible).Similarly, the individual examiners (A-E) were evaluated amongst themselves with regard to the parameter “overall grade OSPE”. A sub-group analysis taking in all parameters of examiners A and B completed the statistical analysis.An application for ethical approval for the monocentric comparative study was given the approval number 135/35 by the Ethic Commission of the Department of Medicine of the Goethe University Material und MethodenDer Phantomkurs der Zahnerhaltungskunde lief jeweils über einen Zeitraum von einem Semester (16 Wochen). In dieser Zeit mussten die Studierenden praktische Arbeiten an verschiedenen Simulationsmodellen (an extrahierten humanen bzw. industriell hergestellten Kunststoffzähnen) absolvieren. Anhand von vorher definierten Behandlungsprotokollen wurden Schritt für Schritt verschiedene Therapiealternativen (beispielsweise Füllungen, Laborrestaurationen wie Inlays, endodontische Maßnahmen etc.) mit Unterstützung der Lehrenden eingeübt. Jeder Schritt wurde in einem sogenannten Testatheft von den betreuenden Lehrenden unterzeichnet, sobald die im Vorfeld definierten Kriterien erfüllt wurden. Der Lernprozess wurde mit formativem Feedback begleitet. Zum Abschluss des Kurses fand neben einer mündlichen Wissensüberprüfung auch eine summative OSPE statt. Letztgenannte wurde an der Simulationseinheit an sogenannten „Phantompatienten“ durchgeführt. Zwei Kunststoffmodelle (Ober- und Unterkiefer) wurden in einem „Phantomkopf“ bestehend aus jeweils 14 Kunststoffoberkiefer- und 14 Kunststoffunterkieferzähnen befestigt. Die OSPE bestand aus zwei Prüfungsteilen, der „Füllung“ (A) und dem „Inlay“ (B), durchgeführt an zwei verschiedenen Kunststoffzähnen der jeweiligen Modelle. Diese gliederten sich in insgesamt sechs „Untereinheiten“ (1. „Primärpräparation“; 2. „Unterfüllung und Sekundärpräparation“; 3. „Füllung“; 4. „Inlay“; 5. „Füllung gesamt“ und 6. „Gesamtnote“), die jeweils von den PrüferInnen benotet wurden (siehe Abbildung 1). Diese Untereinheiten entsprachen den Kriterien, auf deren Basis die Testate im Kursablauf von den Lehrenden erteilt wurden. Die Prüfer-Checkliste, die die oben genannte Aufzählung von Teilaspekten (Untereinheiten) beinhaltete, wurde im Vorfeld in vier aufeinanderfolgenden Semestern (SS 2008 bis WS 2009) im regulären Prüfungsszenario erprobt. Während der Erprobung erfolgte die Bewertung durch Inaugenscheinnahme der vorgegebenen Teilaspekte, alleine anhand von aus Sicht der PrüferInnen allgemeingültigen Qualitätskriterien. Vergeben wurden Schulnoten von 1 bis 5 (1=sehr gut bis 5=mangelhaft). Jeder Prüfer, jede Prüferin bewertete im realen Prüfungsszenario (Dauer: 3 h) jeden Studierenden. Das bedeutete, dass die PrüferInnen in einer festgelegten Reihenfolge die Arbeiten der Studierenden direkt am Arbeitsplatz (am Phantompatienten) während der laufenden Prüfung beurteilten. Die Studierenden meldeten den PrüferInnen durch Handzeichen, dass sie bereit waren, eine Untereinheit zur Bewertung vorzuzeigen. Die PrüferInnen tauschten während der laufenden OSPE untereinander keine Informationen über die jeweils vergebenen Noten aus. Nachdem die PrüferInnen unabhängig voneinander ihre jeweiligen Prüfer-Checklisten vervollständigt hatten, wurden in einer gemeinsamen Besprechungsrunde die Bewertungen diskutiert und festgelegt, welche Studierenden die Prüfung wiederholen sollten. Dies geschah nach dem Delphi-Prinzip [http://www.horx.com/zukunftsforschung/Docs/02-M-09-Delphi-Methode.pdf, zuletzt abgerufen am 23.10.2015]. Prüfungszenario der StudieDie vorliegende Studie bezieht sich auf einen Zeitraum von zwei Semestern (SS 2010 = Gruppe I, SS 2012 = Gruppe II). Die Zusammensetzung der Studienpopulation ist in Tabelle 1 dargestellt. Die Einschlusskriterien lauteten: Studierende des 6. SemestersTeilnahme am Phantomkurs für ZahnerhaltungskundePrüfungsfähigkeit vorhandenDie Ausschlusskriterien waren wie folgt definiert: Studierende anderer SemesterKursabbrecherInnen bzw. KurswiederholerInnenPrüfungsfähigkeit nicht gegebenDer Unterschied in der jeweiligen Gruppengröße (I versus II) ergab sich aus der tatsächlichen Semestergröße, die großen Schwankungen unterlag und von den Ergebnissen des vorangestellten Physikums abhing. Eine zahlenmäßige Anpassung beider Gruppen war nicht durchführbar, da alle TeilnehmerInnen des Kurses laut Studienordnung an der Prüfung teilnehmen mussten. Die Festlegung der PrüferInnenanzahl erfolgte im Vorfeld dieser Studie beim Einreichen des Ethikantrages. Der Einsatz identischer PrüferInnen bei beiden Gruppen war aus Personalbesetzungsgründen in der Poliklinik nicht realisierbar.In Gruppe I wurde ausschließlich eine Prüfer-Checkliste, wie in Abbildung 1 ersichtlich, angewendet. In Gruppe II verwendeten die PrüferInnen die identische Prüfer-Checkliste wie in Gruppe I, jedoch in Kombination mit einem detaillierten Dozentenmanual (siehe Abbildung 2 ). Dieser enthielt klar definierte Bewertungskriterien für die einzelnen Schulnoten. Insgesamt nahmen fünf PrüferInnen (A-E), vier Frauen und ein Mann an der Studie teil. Die PrüferInnen waren ZahnärztInnen der Poliklinik für Zahnerhaltungskunde, hatten Erfahrung in der Lehre und der Bewertung von studentischen Arbeiten im Phantomkurs. Tabelle 2 zeigt deren Verteilung nach Anzahl und Geschlecht. PrüferIn A hatte im Jahr 1990, B 2007, C 2008, D 2010 und E 2011 das zahnärztliche Examen absolviert. Sie alle hatten Erfahrung in der Betreuung des Phantomkurses der Zahnerhaltungskunde. Lediglich A wies zusätzlich zu den anderen auch Erfahrung in der Betreuung von Patientenbehandlungskursen auf. Die Prüfer-Checkliste entstand in Anlehnung an Themengebiete, die im laufenden Kurs und in den Lehrbüchern für Zahnerhaltungskunde standardmäßig inhaltlich abgebildet waren. Diese entsprachen zudem den in der Studie von Baumann interdisziplinär zwischen vier Zentren (Universität Frankfurt, Freiburg, Leipzig und München) erhobenen Einheiten (Füllung, Inlay) und Untereinheiten, die im Fach Zahnerhaltungskunde als prüfungsrelevant definiert wurden. Dem für die Gruppe II beigefügten Manual konnten die Prüfer zusätzlich entnehmen, welche Bewertungskriterien erfüllt sein sollten, damit eine bestimmte Note vergeben werden konnte. Train-the-TeacherIn jedem Semester fand eine 45-minütige „Train-the-Teacher-Veranstaltung“ statt. In diesem Seminar wurden die PrüferInnen durch praktische Übungen und theoretische Unterweisungen auf die Situationen in der OSPE und die Anwendung der Prüfer-Checkliste bzw. des Dozentenmanuals vorbereitet. So konnte im Vorfeld ein relativ hohes Maß an Standardisierung zwischen den PrüferInnen gewährleistet werden.Statistik und EthikantragDie Auswertung der Ergebnisse erfolgte nach der Generalisierbarkeitstheorie (G-Theorie) mit den Statistikprogrammen SAS 9.2 (SAS Institute Inc., Cary, USA, PROC MIXED) und R (Version 2.15, Package lme4). Die Varianz der erzielten Noten wird dabei auf die Einflussfaktoren (in der Terminologie der G-Theorie „Facetten“) „Studierender“ und „Untersucher“ sowie einer Messfehlerkomponente zurückgeführt (siehe Abbildung 3 ). Aus den Varianzanteilen der Facette Untersucher und der Fehlervarianz relativ zu dem der Facette „Studierender“ lässt sich die Messzuverlässigkeit der Bewertungen abschätzen. Der Generalisierbarkeitskoeffizient stellt dabei ein Analogon zur internen Konsistenz (Cronbachs alpha) dar. Im Unterschied zur üblichen Anwendung auf verschiedene Aufgaben wird er hier für verschiedene Prüfer verwendet. Die G-Theorie erlaubt eine Abschätzung der Messzuverlässigkeit bei Annahme einer anderen Zahl von Prüfern als in der tatsächlichen Untersuchung. Damit lassen sich die beiden Studien, bei denen eine unterschiedliche Zahl von PrüferInnen beteiligt waren, vergleichbar machen (analog zur Spearman-Brown-Formel, mit der eine Normierung der Reliabilität auf eine bestimmte Anzahl von Aufgaben möglich ist).Analog hierzu wurden auch die einzelnen PrüferInnen (A-E) untereinander hinsichtlich des Parameters „Gesamtnote OSPE“ evaluiert. Eine alle Parameter erfassende Subgruppenanalyse betreffend PrüferInnen A und B vervollständigte die statistische Analyse.Ein Ethikantrag der monozentrischen Vergleichsstudie erhielt bei der Ethikkommission des Fachbereiches für Medizin der Goethe-Universität die Genehmigungsnummer 135/13. ResultsTable 3 shows the results of the determination of reliability from group I using the examiner’s checklist without the instructor’s manual. In this group, only in the case of three examiners were Cronbach’s alpha values under 0.6 determined for the two criteria “interior wall of the cavity” and “breadth/depth”.In all other subunits, the required value of 0.6 or larger than 0.6 for sufficient reliability could be attained. The subunit “adjacent tooth” achieved the value 1.0; this can be regarded as an ideal reliability value. Furthermore, table 3 shows the results of the determination of reliability from group II (using the examiner’s checklist and the instructor’s manual). In order to enable a comparison of the generalisability coefficients in both studies, these were each converted for numbers of both three and four examiners. Thus with the aid of the Spearman-Brown formula, for study I the reliability values for four examiners were determined from those for three examiners, and vice versa for group II.In group II the results for 4 examiners showed a high variance in the calculated Cronbach’s alpha values. For the first subunit “primary preparation” and the accompanying criteria (“proximal contact point” to “breadth/depth), Cronbach’s alpha values under 0.6 were calculated. The same was the case for the subunit “filling” and the accompanying criteria “contact points”, “occlusal design” and “smoothness”, for “inlay total” and accompanying criteria such as “cavity outer edge”, “cavity inner walls”, “breadth/depth”, “smoothness” and “adjacent tooth”. The remaining subunits and criteria were able to achieve the required value for sufficient reliability of 0.6.When comparing individual examiners regarding the parameter “overall grade OSPE”, for the summer semester 2010, correlation coefficients of 0.58 (A versus C), 0.64 (A versus B) and 0.68 (C versus B) were calculated. In the summer semester 2012, the corresponding values were lower (A versus B: 0.33; A versus E: 0.35; A versus D: 0.34; E versus D: 0.52; B versus D: 0.37 and E versus B: 0.35). The results of the subgroup analysis (A versus B, used in both study groups) can be seen in table 3 . ErgebnisseTabelle 3 zeigt die Ergebnisse der Reliabilitätsbestimmung aus Gruppe I bei Verwendung der Prüfer-Checkliste ohne Dozentenmanual. In dieser Gruppe wurden bei drei PrüferInnen nur für die zwei Kriterien „Kavitäteninnenwände“ und „Breite/Tiefe“ Cronbachs Alpha Werte unter 0,6 ermittelt. Alle übrigen Untereinheiten konnten den für eine ausreichende Reliabilität geforderten Wert von 0,6 bzw. größer als 0,6 erreichen. Die Untereinheit „Nachbarzahn“ erzielte den Wert 1,0; was als idealer Reliabilitätswert anzusehen ist. Des Weiteren zeigt Tabelle 3 die Ergebnisse der Reliabilitätsbestimmung aus Gruppe II (Verwendung der Prüfer-Checkliste inklusive Dozentenmanual). Um eine Vergleichbarkeit der Generalisierbarkeitskoeffizienten in beiden Studien zu ermöglichen, wurden diese jeweils sowohl für eine Zahl von drei wie auch für vier PrüferInnen umgerechnet. So wurden für Studie I die Reliabilitätswerte für vier PrüferInnen mit Hilfe der Spearman-Brown-Formel aus denen für drei PrüferInnen bestimmt bzw. für Studie II umgekehrt.In Gruppe II zeigten die Ergebnisse für vier PrüferInnen hohe Varianzen in den ermittelten Cronbachs-Alpha-Werten. Für die 1. Untereinheit „Primärpräparation“ und die dazugehörigen Kriterien („Kontaktpunkt approximal“ bis „Breite/Tiefe“) wurden Cronbachs-Alpha-Werte unter 0,6 ermittelt. Ebenso verhielt es sich für die Untereinheit „Füllung“ und die dazugehörigen Kriterien „Kontaktpunkte“, „okklusale Gestaltung“ und „Glätte“, für „Inlay gesamt“ und die dazugehörigen Kriterien wie „Kavitätenaußenränder“, „Kavitäteninnenwände“, „Breite/Tiefe“, „Glätte“ und „Nachbarzahn“. Die verbliebenen Untereinheiten und Kriterien konnten den für eine ausreichende Reliabilität geforderten Wert von 0,6 erreichen.Beim Vergleich der einzelnen PrüferInnen untereinander hinsichtlich des Parameters „Gesamtnote OSPE“ konnten im Sommersemester 2010 Korrelationskoeffizienten von 0,58 (A versus C), 0,64 (A versus B) und 0,68 (C versus B) ermittelt werden. Im Sommersemester 2012 fielen die korrespondierenden Werte niedriger aus (A versus B: 0,33; A versus E: 0,35; A versus D: 0,34; E versus D: 0,52; B versus D: 0,37 und E versus B: 0,35). Die Ergebnisse der Subgruppenanalyse (A versus B, die in beiden Studiengruppen eingesetzt wurden) sind Tabelle 3 zu entnehmen. DiscussionLimitationsOne limitation of the present study lies in the type of trial design selected (historical comparison group), as the study was carried out not within one particular semester with a particular student population, but rather in two successive semesters with different participants. Because of two different modes of assessment, a division of the summative examination within the semester was declared inadmissible by the faculty’s ethics commission. The authors see one further limitation in the fact that the examiners from both investigated groups were not equal either in number or team composition. Only two examiners (A and B) evaluated similarly in both study groups. Furthermore, despite the preceding train-the-teacher events, a difference in teaching experience must be assumed. This variation could, however, not be homogenised for staff reasons (expiry of contracts). The elaborate statistical analysis takes account of this limitation and standardises the unequal number of examiners. Modes of evaluationBased on current scientific information, no clear conclusion can be drawn on the benefit of an examiner’s checklist regarding the reliability of an examination. According to the latest research, there are only two studies which have dealt with the different modes of evaluation , , , , , . In the present study, the best results could be determined regarding a high level of reliability by using the examiner’s checklist without the additional use of an instructor’s manual. A comparable result was achieved in a study by Bazan and Seale , where a similarly conceived examiner’s checklist for exam evaluation led to a similar reliability value for the exam. An explanation for this might be that the degree of differentiation in the evaluation guidelines was possibly too detailed to be applied by the examiner during the practical examination, and that the train-the-teacher event was apparently not able to set comparable evaluation standards for the examiners. This problem became particularly apparent in the partial step “inlay adjacent tooth” in which the extensive manual with the defined sub-criteria led to a massive deterioration in the Cronbach’s alpha values. This is also accords with the study by the authors Houpt and Cress , which found that the narrower the definition of the predetermined evaluation framework for a criterion was, the sooner discrepancies in measurement accuracy and examiner assessment occurred. A direct comparison of examiners A and B, who examined in both semesters, found that the use of the manual lowered the average correlation (0.68) recorded in summer semester 2010 to a value of 0.33. Despite this clarification, it is still necessary to establish why this partial step in particular caused such extreme deviations. Possibly the wording of the tooth structure definitions (enamel and dentine) resulted in confusion on the side of the examiners as the exam tasks were not carried out on natural teeth consisting of enamel and dentine, but rather on exam teeth made of plastic. Future studies should discuss the exact wording of the manual parameters in terms of content.Examination settingIn contrast to the two studies already referred to, the examiners’ evaluation in the present study took place in a real exam situation. As a potential future alternative regarding study design, it would be feasible to give the examiners more time for evaluation. This, however, would require a fundamental revision of the end-of-semester exam at the University of Frankfurt am Main under study here. Considering that three hours were allowed for the whole examination, and that the individual steps were checked simultaneously ad hoc by the examiners with an average of = 22 students, more time spent on the evaluation could only be realised with difficulty. The question arises of why, during the real OSPE examination scenario, so much effort is expended and why the individual steps cannot be evaluated jointly by all the examiners after the exam. The reason for this is that many individual steps during the exam are no longer assessable owing to the succeeding phase, as they are then no longer visible. For example, the “primary preparation” step succeeding “under filling lining/secondary preparation” is no longer assessable as the former is partially concealed after putting in an under filling. This is the same for all partial steps so that at the end of the examination stage “filling”, only the final resulting step remains assessable.This procedure stands in stark contrast to all previously published OSPE examinations where in general the individual steps were both visible and assessable, even after the examination. Compared to the studies made by Goepferd and Kerber , Vann et al. and Scheutzel there is a clear difference, as in the examinations investigated there, the similarly complex revaluation form was able to be used under more favourable time conditions. This might explain the different results between the investigation carried out here and the studies previously referred to.Train-the-TeacherOSCE-based examinations show some disadvantages by way of analogy to the advantages already referred to above. According to Miller , , experience has shown that the OSCE is particularly training intensive and time consuming, and according to Nayak et al. , it requires intensive planning and team work. As a rule, the appointed examiners require intensive and systematic training in order to be able to fulfil the requirements of reliability and validity for an OSCE exam . As a result, the OSCE is time consuming and cost intensive in comparison to other exam types such as multiple choice or oral exams , , . In the context of the present study, a time-consuming preparation of the examiners in a train-the-teacher event was also carried out. As a result, resources of personnel and space, as well as financial resources in the clinical and organisational workflow within the department for restorative dentistry, would have to be found. The duration of a lecture unit (45 mins.) was realistic for this purpose and could be observed by all the examiners. However, the question arises as to how long preparation should effectively be in order to be able to homogenise different experiences in mixed teams in advance. In the summer semester of 2010, the three examiners amongst themselves showed an average correlation of between 0.58 and 0.68. In the summer semester of 2012, in the case of four examiners the identically long train-the-teacher events resulted in correlation values of 0.33 and 0.52. It can be assumed here that in the case of the application of the manual, the train-the-teacher event was not effectively utilised.Examiners On the basis of current data, examiners play an important role in the assessment of reliability. Until now, however, there have been no scientific studies known to us that have made any assessment of how high the minimum number of examiners for a OSPE should be. In this study, it was possible to attain sufficient reliability with three examiners in combination with checklists. According to the results of this investigation, the reliability value can be increased by a higher number of examiners. This increase in reliability values, however, is low in comparison to the number of examiners. In addition, a further increase in the number of examiners would result in greater complexity and expense with regard to organisation and financial costs.In this context, it has to be mentioned critically that no general recommendation can be made for other sites based upon the data available with regard to the number of examiners, as the possibility of having three to four examiners with long experience available for an OSPE examination is neither representative of normal circumstances nor feasible. The author groups Nikendei and Jünger and Norcini et al. came to a similar result. In their study, Natkin and Guild were able to show a significant increase in reliability through a systematic preparation of the evaluators. Similar results were presented by Dhuru , in whose study examiners with many years of professional experience and using evaluation sheets achieved the most reliable examination results. In the present study, this can be confirmed only with the use of the checklist, as when the manual was used, the two examiners with the most years’ experience demonstrated only weak correlations. As shown in this investigation, the checklist appears to be capable of further increasing reliability, or of compensating for a lack of examining experience on the part of the evaluators. In Houpt and Kress’s investigation, by contrast, reliability could not be increased for all evaluation criteria. Thus the authors believe that the train-the-teacher events on their own are not able to increase interrater reliability significantly. Training events of this type had the greatest effect with “non-expert” examiners, but relatively little influence with experienced evaluators . Our study was able to confirm this. Exam tasksThe number of examination tasks defined in this study, frequently equated with the term “stations” in the literature, should be looked at critically. In the present case only two separate tasks were involved (A. filling and B. inlay), but a total of 22 evaluations were obtained by the evaluators per student in and during the exam. Ultimately we are dealing with the definition of the term “station” in connection with the OSPE which based upon the evidence cannot be deduced from the literature. It must be noted critically that a value of 0.6 for Cronbach’s alpha only has a “sufficient” character. It must therefore also be asked just how valid an examination can then be, and whether it is suitable as a summative examination. According current scientific knowledge, it is our opinion that against this background, variant II cannot be recommend for high stakes examinations. DiskussionLimitationenEine Limitation der vorliegenden Studie liegt in der Art des gewählten Versuchsdesigns (historische Vergleichsgruppe), denn die Untersuchung wurde nicht innerhalb eines Semesters an einer Studienpopulation, sondern an zwei aufeinanderfolgenden Semestern an unterschiedlichen TeilnehmerInnen durchgeführt. Eine semesterinterne Teilung der summativen Prüfung aufgrund zweier verschiedener Bewertungsmodi wurde von der Ethikkommission der Fakultät für unzulässig erklärt. Eine weitere Limitation sehen die Autoren darin, dass die PrüferInnen der beiden untersuchten Gruppen sowohl in der Anzahl als auch in der Team-Zusammensetzung ungleich waren. Lediglich zwei PrüferInnen (A und B) bewerteten vergleichend in beiden Studiengruppen. Zudem ist trotz der vor geschalteten Train-the-Teacher-Veranstaltungen von einem bestehenden Unterschied in der Lehrerfahrung auszugehen. Diese Variation ließ sich jedoch aus Personalgründen (Vertragsablaufszeiten) nicht homogenisieren. Die aufwendige statistische Analyse trägt dieser Limitation Rechnung und standardisiert die ungleiche Prüferzahl. BewertungsmodiÜber den Nutzen einer Prüfer-Checkliste in Bezug auf die Reliabilität einer Prüfung kann aus der derzeitigen wissenschaftlichen Datenlage kein eindeutiger Schluss gezogen werden. Nach aktuellem Forschungsstand gibt es nur wenige Studien, die sich mit verschiedenen Bewertungsmodi auseinander gesetzt haben , , , , , . In der vorliegenden Studie konnten die besten Ergebnisse in Bezug auf eine hohe Reliabilität bei der Verwendung der Prüfer-Checkliste eruiert werden, bei der kein zusätzliches Dozentenmanual verwendet wurde. Zu einem vergleichbaren Ergebnis kam auch die Studie von Bazan und Seale , bei der eine ähnlich konzipierte Prüfer-Checkliste für eine Prüfungsbewertung zu einem vergleichbaren Reliabilitätswert für die Prüfung führte. Eine Erklärung hierfür könnte sein, dass der Differenzierungsgrad der Bewertungsvorgaben im Dozentenmanual möglicherweise zu detailliert war, um von den PrüferInnen während der praktischen Prüfung angewendet werden zu können und die Train-the-Teacher-Veranstaltung scheinbar nicht in der Lage war, einen vergleichbaren Bewertungsstandard bei den PrüferInnen zu setzen. Besonders deutlich wurde diese Problematik bei dem Teilschritt „Inlay: Nachbarzahn“, bei dem das sehr ausführliche Manual mit den definierten Unterpunkten zu einer massiven Verschlechterung der Cronbachs alpha-Werten führte. Dies steht auch im Einklang mit der Studie um die Autorengruppe Houpt und Kress , die ergab, dass, je enger der vorgegebene Bewertungsrahmen für ein Kriterium definiert war, umso eher Abweichungen in der Messgenauigkeit und Einschätzung der PrüferInnen auftraten. Beim direkten Vergleich der PrüferInnen A und B, die in beiden Semestern prüften, zeigte sich, dass die Verwendung des Manuals die im SS 2010 ermittelte mittlere Korrelation (0.68) auf einen Wert von 0.33 senkte. Trotzdem bleibt Klärungsbedarf, warum ausgerechnet dieser Teilschritt solch extreme Abweichungen bedingte. Möglicherweise bewirkte die Wortwahl der Zahnhartsubstanzdefinitionen (Schmelz und Dentin) eine Verwirrung seitens der PrüferInnen, denn die Prüfungsaufgabe wurde nicht an natürlichen Zähnen bestehend aus Schmelz und Dentin durchgeführt, sondern an Prüfungszähnen bestehend aus Kunststoff. Zukünftige Studien sollten die genaue Wortwahl der Manualparameter inhaltlich thematisieren.PrüfungssettingIm Unterschied zu bereits erwähnten Studien fand die Beurteilung durch die PrüferInnen in der vorliegenden Studie in einer realen Prüfungssituation statt. Als mögliche zukünftige Alternative bezüglich des Studiendesigns wäre hierfür denkbar, den PrüferInnen mehr Zeit für die Bewertung zu geben, was allerdings an der hier untersuchten Prüfung an der Universität Frankfurt am Main eine grundlegende Neukonzeption der Semesterabschlussprüfung erfordern würde. Bedenkt man, dass für die gesamte Prüfung drei Stunden angesetzt wurden, und dass die einzelnen Schritte gleichzeitig bei durchschnittlich n=22 Studierenden adhoc durch die PrüferIn beurteilt wurden, so wäre ein längeres Verweilen bei der Beurteilung nur schwierig zu realisieren. Es stellt sich die Frage, warum während des realen OSPE-Prüfungszenarios ein solcher Aufwand betrieben wird und warum die einzelnen Schritte nicht nach der Prüfung gemeinsam mit allen PrüferInnen beurteilt werden können. Dies liegt daran, dass viele Einzelschritte während der Prüfung durch den darauffolgenden Schritt nicht mehr beurteilbar, da nicht mehr sichtbar sind. Beispielsweise ist der Schritt der „Primärpräparation“ nach der „Unterfüllung/ Sekundärpräparation“ nicht mehr beurteilbar, weil Ersterer nach dem Legen einer Unterfüllung teilweise verdeckt ist. So verhält es sich mit allen Teilschritten, so dass am Ende des Prüfungsabschnittes „Füllung“ nur noch der endgültig resultierende Schritt beurteilbar bliebe. Dieses Vorgehen steht im großen Gegensatz zu allen bisher publizierten OSPE-Prüfungen, bei denen in der Regel die Einzelschritte auch nach der Prüfung noch sichtbar und beurteilbar waren. Verglichen mit den Studien von Goepferd und Kerber , Vann et al. und Scheutzel ergibt sich ein deutlicher Unterschied, da für die dort untersuchten Prüfungen der ähnlich komplexe Bewertungsbogen unter günstigeren Zeitvoraussetzungen angewendet werden konnte. Dies könnte die unterschiedlichen Ergebnisse zwischen der hier durchgeführten Untersuchung und den zuvor erwähnten Studien erklären.Train-the-TeacherOSCE-basierte Prüfungen weisen in Analogie zu den bereits weiter oben erwähnten Vorteilen auch einige Nachteile auf. Nach Miller , haben Erfahrungen gezeigt, dass OSCE besonders trainings- und zeitaufwendig ist und nach Nayak et al. einer intensiven Planung und Teamarbeit bedarf. In der Regel benötigen die eingesetzten PrüferInnen ein intensives, systematisches Training, um die Anforderungen an Reliabilität und Validität einer OSCE-Prüfung zu erfüllen . OSCE ist folglich, im Vergleich zu anderen Prüfungsarten wie Multiple-Choice-Fragen oder mündliche Prüfungen, zeit- und vor allem kostenintensiv , , . Auch im Rahmen der hier vorliegenden Studie wurde eine zeitintensive Vorbereitung der PrüferInnen in einer Train-the-Teacher-Veranstaltung durchgeführt. Dadurch mussten im klinischen und organisatorischen Arbeitsablauf in der Abteilung für Zahnerhaltungskunde personelle und räumliche Ressourcen und damit auch finanzielle Mittel gebunden werden. Die Dauer einer Vorlesungseinheit (45 min.) war hierfür realistisch gewählt und konnte von allen PrüferInnen wahrgenommen werden. Es stellt sich jedoch die Frage, wie lang eine Vorbereitung effektiv ausfallen muss um Erfahrungsunterschiede bei gemischten Teams im Vorfeld homogenisieren zu können. Im SS 2010 zeigten die drei PrüferInnen untereinander eine mittlere Korrelation zwischen 0.58 und 0.68. Im SS 2012 führte die identisch lang durchgeführte Train-the-Teacher-Veranstaltung bei den vier PrüferInnen zu Korrelationswerten zwischen 0.33 und 0.52. Hier kann vermutet werden, dass im Falle des angewendeten Manuals die Train-the-Teacher-Veranstaltung nicht effektiv eingesetzt wurde. PrüferInnen Bei der Reliabilitätswertung spielen nach der heutigen Datenlage die PrüferInnen eine wichtige Rolle. Bisher gibt es allerdings keine uns bekannten wissenschaftlichen Untersuchungen, die eine Aussage treffen, wie hoch die Mindestanzahl an PrüferInnenn für eine OSPE sein sollte. In der hier vorliegenden Studie konnte mit drei PrüferInnen eine ausreichend hohe Reliabilität in Kombination mit Check-Listen erzielt werden. Nach Ergebnissen dieser Untersuchung kann der Reliabilitätswert allerdings durch eine höhere Prüferzahl weiter gesteigert werden. Diese Steigerung der Reliabilitätswerte fällt im Verhältnis zu der PrüferInnenanzahl jedoch gering aus. Darüber hinaus würde eine weitere Erhöhung der PrüferInnenanzahl zu einem gesteigerten Aufwand hinsichtlich Organisation und finanziellen Kosten führen. In diesem Zusammenhang muss kritisch erwähnt werden, dass aus den vorliegenden Daten keine generelle Empfehlung für andere Standorte bezüglich der PrüferInnenanzahl abgegeben werden kann, da die Möglichkeit, drei bis vier lang erfahrene PrüferInnen für eine OSPE-Prüfung zur Verfügung zu haben, für viele Standorte durchaus nicht die Regelsituation darstellt bzw. nicht realisierbar ist. Zu einem ähnlichen Ergebnis in Bezug auf den gesteigerten Aufwand hinsichtlich Organisation bei OSCE-Prüfungen kamen auch die Autorengruppen um Nikendei und Jünger bzw. Norcini et al. . Natkin und Guild konnten in ihrer Arbeit durch eine systematische Vorbereitung der PrüferInnen eine deutliche Reliabilitätssteigerung nachweisen. Ähnliche Ergebnisse stellte auch Dhuru vor, in dessen Arbeit BewerterInnen mit langjähriger Berufserfahrung und bei Verwendung eines Bewertungsbogens die reliabelsten Prüfungsergebnisse erzielten. Dies kann in der vorliegenden Studie lediglich bei der Verwendung der Checkliste bestätigt werden, denn die zwei Prüferinnen mit der längsten Erfahrung wiesen im Falle des verwendeten Manuals lediglich schwache Korrelationen auf. Die Checkliste scheint, wie in dieser Untersuchung deutlich wird, in der Lage zu sein, die Reliabilität weiter zu erhöhen beziehungsweise mangelnde Prüfungserfahrung aufseiten der Bewertenden zu kompensieren. Dagegen konnte in der Untersuchung von Houpt und Kress die Reliabilität nicht bei allen Bewertungskriterien gesteigert werden. Somit scheint es nach Meinung der Autoren, dass Train-the-Teacher-Veranstaltungen alleine nicht in der Lage sind, die Interrater-Reliabilität signifikant zu erhöhen. Derartige Trainingsveranstaltungen hatten den größten Effekt bei „Non-Expert“-Prüfern, dagegen relativ geringen Einfluss bei erfahrenen BewerterInnen . Dies kann auch von unserer Untersuchung bestätigt werden. PrüfungsaufgabenDie Anzahl der in dieser Studie definierten Prüfungsaufgaben, die man häufig in der Literatur mit dem Begriff der „Stationen“ gleichsetzt, sollte kritisch hinterfragt werden. Im vorliegenden Fall waren es zwar nur zwei getrennte Aufgaben (A. Füllung und B. Inlay), jedoch insgesamt 22 Bewertungen, die man als BewerterIn pro Studierenden in und während der Prüfung abgab. Es geht letztlich um die Definition des Begriffes „Station“ in Zusammenhang mit einer OSPE, was evidenzbasiert aus der Literatur nicht abzuleiten ist. Es bleibt zudem kritisch anzumerken, dass ein Wert von 0,6 für Cronbachs alpha lediglich einen „ausreichenden“ Charakter besitzt. Es ist ebenfalls zu hinterfragen, wie valide eine Prüfung dann überhaupt ist und ob sie sich für eine summative Prüfung eignet. Vor diesem Hintergrund lässt sich die Variante II aus unserer Sicht für „high stakes“ Examina nach der vorliegenden Datenlage nicht empfehlen. ConclusionThe following conclusions may be drawn from this study regarding the question of how an OSPE in dental teaching in a phantom course for operative dentistry can best be reliably designed:an examiner’s checklist without an instructor’s manual resulted in higher interrater reliability in the context of the OSPEs carried outthe evaluation of students’ exam performance in the context of the OSPE should if possible be undertaken by at least three examiners. SchlussfolgerungAus der vorliegenden Studie ergeben sich folgende Schlussfolgerungen hinsichtlich der Frage, wie eine OSPE in der zahnmedizinischen Lehre im Phantomkurs der Zahnerhaltungskunde möglichst reliabel gestaltet werden kann:Eine Prüfer-Checkliste ohne Dozentenmanual ergab eine höhere Interrater-Reliabilität im Rahmen der durchgeführten OSPE.Die Bewertung der studentischen Prüfungsleistungen im Rahmen der OSPE sollte nach Möglichkeit durch mindestens drei PrüferInnen vorgenommen werden. AcknowledgementsThe authors would like to thank the students of the 6th semester in the section for operative dentistry and the dental course assistants who also contributed to the evaluation of the OSPE. DanksagungDie Autoren bedanken sich bei den Studierenden des 6. Semesters im Fach Zahnerhaltungskunde und bei den zahnärztlichen KursassistentInnen, die bei der Bewertung der OSPE ihren Beitrag geleistet haben. Competing interestsThe authors declare that they have no competing interests. InteressenkonfliktDie Autoren erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben. Gesellschaft für Medizinische Ausbildung Kompetenzzentrum Prüfungen Baden-Württemberg Fischer MR Leitlinie für Fakultätsinterne Leistungsnachweise während des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Prüfungen und des Kompetenzzentrums Prüfungen Baden-Württemberg 2008 GMS Z Med Ausbild Doc74 Gesellschaft für Medizinische Ausbildung, Kompetenzzentrum Prüfungen Baden-Württemberg, Fischer MR. Leitlinie für Fakultätsinterne Leistungsnachweise während des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Prüfungen und des Kompetenzzentrums Prüfungen Baden-Württemberg. GMS Z Med Ausbild. 2008;25(1):Doc74. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2008-25/zma000558.shtml http://www.egms.de/static/de/journals/zma/2008-25/zma000558.shtml Taylor CL Grey NJ Satterthwaite JD A comparison of grades awarded by peer assessment, faculty and a digital scanning device in a pre-clinical operative skills course 2013 Eur J Dent Educ 16-21 Taylor CL, Grey NJ, Satterthwaite JD. A comparison of grades awarded by peer assessment, faculty and a digital scanning device in a pre-clinical operative skills course. Eur J Dent Educ. 2013;17(1):16-21. DOI: 10.1111/j.1600-0579.2012.00752.x http://dx.doi.org/10.1111/j.1600-0579.2012.00752.x World Federation for Medical Education 2012 Basic Medical Education The 2012 Report World Federation for Medical Education. Basic Medical Education The 2012 Report. Copenhagen: WFME Office; 2012. Miller GE The assessment of clinical skills/competence/performance 1990 Acad Med S63-67 Miller GE. The assessment of clinical skills/competence/performance. Acad Med.1990;65:S63-67. DOI: 10.1097/00001888-199009000-00045 http://dx.doi.org/10.1097/00001888-199009000-00045 Harden RM Stevenson M Downie WW Wilson GM Assessment of clinical competence using objective structured examination 1975 Br Med J 447-451 Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1:447-451. DOI: 10.1136/bmj.1.5955.447 http://dx.doi.org/10.1136/bmj.1.5955.447 Manogue M Brown G Developing and implementing an OSCE in dentistry 1998 Eur J Dent Educ 51-57 Manogue M, Brown G. Developing and implementing an OSCE in dentistry. Eur J Dent Educ.1998;2(2):51-57. DOI: 10.1111/j.1600-0579.1998.tb00039.x http://dx.doi.org/10.1111/j.1600-0579.1998.tb00039.x Natkin E Guild RE Evaluation of preclinical laboratory performance: a systematic study 1967 J Dent Educ 152-161 Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ.1967;31(2):152-161. Khan KZ Ramachandran S Gaunt K Pushkar P The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: an historical and theoretical perspective 2013 Med Teach e1437-1446 Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: an historical and theoretical perspective. Med Teach. 2013;35(9):e1437-1446. DOI: 10.3109/0142159X.2013.818634 http://dx.doi.org/10.3109/0142159X.2013.818634 Wani P Dalvi V Objective Structured Practical Examination vs Traditional Clinical Examination in Human Physiology: Students perception 2013 Int J Med Sci Public Health 522–547 Wani P, Dalvi V. Objective Structured Practical Examination vs Traditional Clinical Examination in Human Physiology: Students perception. Int J Med Sci Public Health. 2013;2(3):522–547. DOI: 10.5455/ijmsph.2013.080320133 http://dx.doi.org/10.5455/ijmsph.2013.080320133 Schoonheim-Klein M Muijtjens A Muijtens A Habets L Manogue M van der Vleuten C Hoogstraten J Van der Velden U On the reliability of a dental OSCE, using SEM: effect of different days 2008 Eur J Dent Educ 131–137 Schoonheim-Klein M, Muijtjens A, Muijtens A, Habets L, Manogue M, van der Vleuten C, Hoogstraten J, Van der Velden U. On the reliability of a dental OSCE, using SEM: effect of different days. Eur J Dent Educ. 2008;12(3):131–137. DOI: 10.1111/j.1600-0579.2008.00507.x http://dx.doi.org/10.1111/j.1600-0579.2008.00507.x Hofer M Jansen M Soboll S Potential improvements in medical education as retrospectively evaluated by candidates for specialist examinations 2006 Dtsch Med Wochenschr 373–378 Hofer M, Jansen M, Soboll S. Potential improvements in medical education as retrospectively evaluated by candidates for specialist examinations. Dtsch Med Wochenschr. 2006;131(8):373–378. DOI: 10.1055/s-2006-932527 http://dx.doi.org/10.1055/s-2006-932527 Abraham RR Raghavendra R Surekha K Asha K A trial of the objective structured practical examination in physiology at Melaka Manipal Medical College. India 2009 Adv Physiol Educ 21–23 Abraham RR, Raghavendra R, Surekha K, Asha K. A trial of the objective structured practical examination in physiology at Melaka Manipal Medical College. India. Adv Physiol Educ. 2009;33(1):21–23. DOI: 10.1152/advan.90108.2008 http://dx.doi.org/10.1152/advan.90108.2008 Adome RO Kitutu F Creating an OSCE/OSPE in a resource-limited setting 2008 Med Educ 525–526 Adome RO, Kitutu F. Creating an OSCE/OSPE in a resource-limited setting. Med Educ. 2008;42(5):525–526. DOI: 10.1111/j.1365-2923.2008.03045.x http://dx.doi.org/10.1111/j.1365-2923.2008.03045.x Davenport ES Davis JE Cushing AM Holsgrove GJ An innovation in the assessment of future dentists 1998 Br Dent J 192–195 Davenport ES, Davis JE, Cushing AM, Holsgrove GJ. An innovation in the assessment of future dentists. Br Dent J. 1998;184(4):192–195. Smith LJ Price DA Houston IB Objective structured clinical examination compared with other forms of student assessment 1984 Arch Dis Child 1173-1176 Smith LJ, Price DA, Houston IB. Objective structured clinical examination compared with other forms of student assessment. Arch Dis Child. 1984;59:1173-1176. DOI: 10.1136/adc.59.12.1173 http://dx.doi.org/10.1136/adc.59.12.1173 Nayak V Bairy KL Adiga S Shenoy S Magazine BC Amberkar M Kumari M OSPE in Pharmacology: Comparison with the conventional Method and Students' Perspective Towards 2014 Br Biomed Bull 218-222 Nayak V, Bairy KL, Adiga S, Shenoy S, Magazine BC, Amberkar M, Kumari M. OSPE in Pharmacology: Comparison with the conventional Method and Students' Perspective Towards. Br Biomed Bull. 2014;2(1):218-222. Schoonheim-Klein ME Habets LL Aartman IH van der Vleuten CP Hoogstraten J van der Velden U Implementing an Objective Structured Clinical Examination (OSCE) in dental education: effects on students' learning strategies 2006 Eur J Dent Educ 226-235 Schoonheim-Klein ME, Habets LL, Aartman IH, van der Vleuten CP, Hoogstraten J, van der Velden U. Implementing an Objective Structured Clinical Examination (OSCE) in dental education: effects on students' learning strategies. Eur J Dent Educ. 2006;10(4):226-235. DOI: 10.1111/j.1600-0579.2006.00421.x http://dx.doi.org/10.1111/j.1600-0579.2006.00421.x Chenot JF Ehrhardt M Objective structured clinical examination (OSCE) in der medizinischen Ausbildung: Eine Alternative zur Klausur 2003 Z Allg Med 437-442 Chenot JF, Ehrhardt M. Objective structured clinical examination (OSCE) in der medizinischen Ausbildung: Eine Alternative zur Klausur. Z Allg Med. 2003;79(2):437-442. Sharaf AA AbdelAziz AM El Meligy OA Intra- and inter-examiner variability in evaluating preclinical pediatric dentistry operative procedures 2007 J Dent Educ 540-544 Sharaf AA, AbdelAziz AM, El Meligy OA. Intra- and inter-examiner variability in evaluating preclinical pediatric dentistry operative procedures. J Dent Educ. 2007;71(4):540-544. Kellersmann CT 2007 Zur Reliabilität der Beurteilung vorklinischer Phantomarbeiten bei Einsatz eines strukturierten Bewertungsbogens Kellersmann CT. Zur Reliabilität der Beurteilung vorklinischer Phantomarbeiten bei Einsatz eines strukturierten Bewertungsbogens. Inaugural-Dissertation. Münster: Westfälischer Wilhelms-Universität Münster; 2007. Lilley JD ten Bruggen Cate HJ Holloway PJ Holt JK Start KB Reliability of practical tests in operative dentistry 1968 Br Dent J 194-197 Lilley JD, ten Bruggen Cate HJ, Holloway PJ, Holt JK, Start KB. Reliability of practical tests in operative dentistry. Br Dent J. 1968;125(5):194-197. Fuller JL The effects of training and criterion models on interjudge reliability 1972 J Dent Educ 19-22 Fuller JL. The effects of training and criterion models on interjudge reliability. J Dent Educ. 1972;36(4):19-22. Hinkelman KW Long NK Method for decreasing subjective evaluation in preclinical restorative dentistry 1973 J Dent Educ 13-18 Hinkelman KW, Long NK. Method for decreasing subjective evaluation in preclinical restorative dentistry. J Dent Educ. 1973;37(9):13-18. Gaines WG Bruggers H Rasmussen RH Reliability of ratings in preclinical fixed prosthodontics: effect of objective scaling 1974 J Dent Educ 672-675 Gaines WG, Bruggers H, Rasmussen RH. Reliability of ratings in preclinical fixed prosthodontics: effect of objective scaling. J Dent Educ. 1974;38(12):672-675. Dhuru VB Rypel TS Johnston WM Criterion-oriented grading system for preclinical operative dentistry laboratory course 1978 J Dent Educ 528-531 Dhuru VB, Rypel TS, Johnston WM. Criterion-oriented grading system for preclinical operative dentistry laboratory course. J Dent Educ.1978;42(9):528-531. Goepferd SJ Kerber PE A comparison of two methods for evaluating primary class II cavity preparations 1980 J Dent Educ 537-542 Goepferd SJ, Kerber PE. A comparison of two methods for evaluating primary class II cavity preparations. J Dent Educ. 1980;44(9):537-542. Feil PH An analysis of the reliability of a laboratory evaluation system 1982 J Dent Educ 489-494 Feil PH. An analysis of the reliability of a laboratory evaluation system. J Dent Educ. 1982;46(8):489-494. Vann WF Machen JB Hounshell PB Effects of criteria and checklists on reliability in preclinical evaluation 1983 J Dent Educ 671-675 Vann WF, Machen JB, Hounshell PB. Effects of criteria and checklists on reliability in preclinical evaluation. J Dent Educ. 1983;47(10):671-675. Bedi R Lo E King NM Chan T The effect of pictorial criteria upon the reliability of assessments of cavity preparations 1987 J Dent 222-224 Bedi R, Lo E, King NM, Chan T. The effect of pictorial criteria upon the reliability of assessments of cavity preparations. J Dent. 1987;15(5):222-224. DOI: 10.1016/0300-5712(87)90116-3 http://dx.doi.org/10.1016/0300-5712(87)90116-3 Jenkins SM Dummer PM Gilmour AS Edmunds DH Hicks R Ash P Evaluating undergraduate preclinical operative skill; use of a glance and grade marking system 1998 J Dent 679-684 Jenkins SM, Dummer PM, Gilmour AS, Edmunds DH, Hicks R, Ash P. Evaluating undergraduate preclinical operative skill; use of a glance and grade marking system. J Dent. 1998;26(6):679-684. DOI: 10.1016/S0300-5712(97)00033-X http://dx.doi.org/10.1016/S0300-5712(97)00033-X Houpt MI Kress G Accuracy of measurement of clinical performance in dentistry 1973 J Dent Educ 34-46 Houpt MI, Kress G. Accuracy of measurement of clinical performance in dentistry. J Dent Educ. 1973;37(7):34-46. Baumann MP 2015 Evaluation von Bewertungskriterien für praktische Studentenarbeiten im Vergleich zur Bewertung per Augenschein Baumann MP. Evaluation von Bewertungskriterien für praktische Studentenarbeiten im Vergleich zur Bewertung per Augenschein. Inaugural-Dissertation. München: Medizinischen Fakultät der Ludwig-Maximilians-Universität München; 2015. Scheutzel P Einfluss des Bewertungssystems auf Objektivität und Reliabilität der Benotung zahnmedizinischer Studentenarbeiten am Phantompatienten 2007 GMS Z Med Ausbild Doc67 Scheutzel P. Einfluss des Bewertungssystems auf Objektivität und Reliabilität der Benotung zahnmedizinischer Studentenarbeiten am Phantompatienten. GMS Z Med Ausbild. 2007;24(1):Doc67. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2007-24/zma000361.shtml http://www.egms.de/static/de/journals/zma/2007-24/zma000361.shtml Bazan MT Seale NS A technique for immediate evaluation of preclinical exercises 1982 J Dent Educ 726-728 Bazan MT, Seale NS. A technique for immediate evaluation of preclinical exercises. J Dent Educ. 1982;46(12):726-728. Barman A Critiques on the Objective Structured Clinical Examination 2005 Ann Acad Med Singapore 478-482 Barman A. Critiques on the Objective Structured Clinical Examination. Ann Acad Med Singapore. 2005;34(8):478-482. Boursicot K Ware J Hazlett C Objective Structured Clinical Examination Objective Structured Practical Examination 1979 Med Educ 41-54 Boursicot K, Ware J, Hazlett C. Objective Structured Clinical Examination Objective Structured Practical Examination. Med Educ. 1979;31:41-54. Nikendei C Jünger J OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Prüfung 2006 GMS Z Med Ausbild Doc47 Nikendei C, Jünger J. OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Prüfung. GMS Z Med Ausbild. 2006;23(3):Doc47. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000266.shtml http://www.egms.de/static/de/journals/zma/2006-23/zma000266.shtml Norcini JJ Maihoff NA Day SC Benson JA Trends in medical knowledge as assessed by the certifying examination in internal medicine 1989 JAMA 2402–2404 Norcini JJ, Maihoff NA, Day SC, Benson JA. Trends in medical knowledge as assessed by the certifying examination in internal medicine. JAMA. 1989;262(17):2402–2404. DOI: 10.1001/jama.1989.03430170064029 http://dx.doi.org/10.1001/jama.1989.03430170064029 Natkin E Guild RE Evaluation of preclinical laboratory performance: a systematic study 1967 J Dent Educ 152-161 Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ. 1967;31(2):152-161. 11en1de

22en2de

33en3de

1 1en 1de Figure 1: Examiner’s checklist group I and group II with both tasks A (filling) and B (inlay). The abbreviation UF stands for under filling. Abbildung 1: Prüfer-Checkliste Gruppe I und Gruppe II mit den beiden Aufgabenstellungen A (Füllung) und B (Inlay). Die Abkürzung UF steht für Unterfüllung.

2 2en 2de Figure 2: Instructor’s manual for group II with the evaluation criteria of both tasks A and B. The abbreviation p.a. signifies pulpal axial wall. The abbreviation UF stands for under filling, prox. = proximal. Abbildung 2: Dozentenmanual der Gruppe II mit Bewertungskriterien beider Aufgaben A und B. Die Abkürzung p.a. bedeutet Pulpaaxiale Wand, UF steht für Unterfüllung, min = mindestens, approx = approximal.

3 3en 3de Figure 3: The facets of the variance analysis conducted in the study. Abbildung 3: Die Facetten der in der Studie durchgeführten Varianzanalyse. 3 0 0