Formative assessment of practical skills with peer-assessors: quality features of an OSCE in general medicine at the Heidelberg Medical Faculty

zma001335 10.3205/zma001335 urn:nbn:de:0183-zma0013354 article Artikel Formative assessment of practical skills with peer-assessors: quality features of an OSCE in general medicine at the Heidelberg Medical Faculty Formatives Prüfen praktischer Fertigkeiten mit studentischen Prüfern: Qualitätseigenschaften des OSCE Allgemeinmedizin der Medizinischen Fakultät Heidelberg Möltner Möltner Andreas A

University Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Im Neuenheimer Feld 346, D-69120 Heidelberg, GermanyUniversity Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany

Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Im Neuenheimer Feld 346, 69120 Heidelberg, DeutschlandUniversität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

andreas.moeltner@med.uni-heidelberg.de author Lehmann Lehmann Mirijam M

University Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany

Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

mirijam.lehmann@med.uni-heidelberg.de author Wachter Wachter Cornelia C

University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany

Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland

cornelia.wachter@uni-heidelberg.de author Kurczyk Kurczyk Sonia S

University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany

Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland

sonia.kurczyk@uni-heidelberg.de author Schwill Schwill Simon S

University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany

Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland

simon.schwill@uni-heidelberg.de author Loukanova Loukanova Svetla S

University Heidelberg, Medical Faculty, Department of General Practice and Implementation Research, Heidelberg, Germany

Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland

svetla.loukanova@uni-heidelberg.de author German Medical Science GMS Publishing House

Düsseldorf

610 formative OSCE student examiners generalizability theory formativ OSCE studentische Prüfer Generalisierbarkeitstheorie Formative Assessment Formatives Prüfen 20190514 20200324 20200415 20200615 engl germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 2366-5017 37 4 GMS Journal for Medical Education GMS J Med Educ 42 Bundesministerium für Bildung und Forschung Hintergrund: Objective Structured Clinical Examinations (OSCEs) sind mittlerweile ein etabliertes Prüfungsformat an deutschen medizinischen Fakultäten. Üblicherweise werden darin praktische und kommunikative Fertigkeiten von medizinischen Experten summativ bewertet. Der Einsatz des OSCEs als formatives Prüfungsformat mit studentischen Prüfern findet bislang eher wenig Anwendung.Zielsetzung: Der an der Medizinischen Fakultät Heidelberg im Fach Allgemeinmedizin durchgeführte formative OSCE, der von Peer-Tutoren durchgeführt und bewertet wird, soll hinsichtlich seiner Gütekriterien untersucht und mit denen summativer OSCEs aus anderen Fachbereichen verglichen werden. Methodik: Schwierigkeiten und Trennschärfen der einzelnen Stationen werden für die summativen sowie den formativen OSCE bestimmt und einander gegenübergestellt. Zur Beurteilung der Messzuverlässigkeit wird eine Analyse der Daten mittels der Generalisierbarkeitstheorie durchgeführt. Zusätzlich findet ein Vergleich zwischen den Bewertungen der studentischen Prüfer und Zweitbewertungen medizinischer Experten statt.Ergebnisse: Die Stationen des formativen OSCEs weisen ähnliche Schwierigkeiten wie die der summativen Vergleichs-OSCEs auf (Pform=0.882; Psum=0.845 – 0.902). Bezüglich der Messzuverlässigkeit zeigen sich keine Unterschiede zwischen dem OSCE Allgemeinmedizin und denen der anderen Fächer. Die Bewertungen der studentischen Prüfer und der medizinischen Experten korrelieren hoch (r=0.888).Schlussfolgerung: Der formative OSCE Allgemeinmedizin ist hinsichtlich seiner Qualitätskriterien vergleichbar mit denen der summativen Vergleichsformate. Der Einsatz studentischer Prüfer kann bei formativen OSCEs eine verlässliche Alternative zu medizinischen Experten darstellen. Background: Objective Structured Clinical Examinations (OSCEs) have become an established examination format at German medical faculties. Medical experts routinely use a summative assessment to evaluate practical and communicative skills, while the use of the OSCE format by student examiners, as a formative examination, remains rather limited.Objective: The formative OSCE program of the Department of General Practice and Implementation Research at the Heidelberg Medical Faculty, which is conducted and evaluated by peer tutors, is examined with regard to its quality criteria and compared with summative OSCEs from other departments. Methods: Difficulties and discriminatory power of individual testing stations were determined for the summative, as well as the formative OSCE, and compared with each other. To assess the reliability of the measurements, an analysis of the data was carried out using the Generalizability theory. In addition, a comparison is made between the assessments of student examiners and second assessments by medical experts.Results: The stations of the formative OSCE show similar difficulties as those of the summative comparison OSCEs (Pform=0.882; Psum=0.845 – 0.902). With respect to measurement reliability, there are no differences between the OSCE in General Medicine and the other subjects. The assessments of student examiners and medical experts correlate highly (r=0.888).Conclusion: The formative OSCE in General Medicine is comparable to the summative comparison formats in terms of its quality criteria. The use of student examiners can be a reliable alternative to medical experts in formative OSCEs. 1. IntroductionPractical clinical skills and anamnesis are already being taught at various medical faculties in the preclinical study semesters and tested with the help of an Objective Structured Clinical Examination (OSCE). It has been shown that an early learning of practical skills leads to better results in the clinical examination sections and clinical skills . Traditionally, the teaching content is taught by faculty physicians, but increasingly also by student tutors of higher semesters. An advantage of peer tutors (Peer Assisted Learning, PAL) is the higher acceptance by students , lower costs , and the possibility of smaller learning groups . In addition, the students benefit from a reduction of stress and anxiety factors and the student tutors , benefit from their own in-depth study of the learning content. When comparing the student tutors with faculty members, the PAL students achieve the same results in final exams , , , and the same or even higher quality of feedback . Prerequisites for this are precisely defined student tutor training courses and checklists , .Since 2013, practical skills and anamnesis techniques have been taught at the Heidelberg Medical Faculty in the pre-clinical part of the AaLPLUS courses (AaL: “Living Anatomy Plus”) of the Department of General Practice and Implementation Research with the help of peer tutors and subsequently examined in a formative OSCE, also conducted by student tutors . A detailed description of the program and the evaluation of the OSCE by students and peer tutors can be found in .Black and Wiliam see five essential aspects of formative examinations. These are adapted to the context of University education:Clarification and exchange of learning goals and success criteriaInitiating effective discussions and other learning tasks that demonstrate students' understanding of the learning contentFeedback that is useful for the studentsEncouraging students to act as a mutual learning resourceEncouraging students to see themselves as initiators of their own learning activities These objectives involve a whole process of teaching in which more or less continuously formative examinations are integrated. This is often logistically difficult to achieve fully in formative practical examinations in the form of OSCEs in medical education, so that the formative OSCE considered here should rather be seen as an instrument , which comes at the end of the pre-clinical part of the study. In order to achieve the goals announced by Black and Wiliam, other forms of formative examination procedures should be suitable . Despite this limited function of the formative OSCE, it can be expected to have a positive effect on the learning behaviour of the examined students , .In a review article by Khan et al. from 2017, 13 publications on the topic of “Students as examiners in OSCEs” are presented in more detail . Some of the papers listed there examine the assessments of students and experts with regard to basic characteristics such as differences in the scores awarded and the correlation of the assessments of students and experts as examiners. A more detailed quantitative analysis, which also includes a differentiation of station- and examiner effects and their consequences for measurement reliability, is only provided in the works of Moineau et al. and Basehore et al. . In both studies, double evaluations at the stations by students and experts are investigated (in the experts evaluated using videos of the examinations). However, it was not investigated whether student examiners differ from experts with regard to the extent of exam effects. Besides the comparison of student examiners and experts in the same formative examination, the quality of the formative examination in relation to the summative examinations established at the faculty is also of interest. Formative examinations differ in their objectives and structure (e.g. higher importance of feedback) and relevance of summative examinations to the examined students. The latter in particular, can have an effect on the reliability and accuracy of measurements, e.g. if the performance of the candidates is less differentiated due to reduced motivation.Aim of the studyThe aim of the study was to demonstrate that students in the context of formative examinations of practical skills can replace experts as examiners without compromising the quality of the examination and that the quality of such formative examinations reaches the same standards as established summative examinations.To this end, the formative OSCE in General Medicine at the Heidelberg Medical Faculty, which was held in 2018 and involved tutors as examiners, was examined with regard to its quality criteria (characteristics of the stations, measurement reliability of the exam, extent of examiner effects). A comparison was made with summative OSCEs, and a matching between the assessments of student examiners and those of experts (“supervisors”) was considered.Other aspects of the formative OSCE in General Medicine with student examiners, such as acceptance by both examiners and examined students, assessment of the quality of feedback and subjective benefit to both students and examiners of the skills assessed in the OSCE are described in detail in . The present study focuses exclusively on the quality characteristics of the OSCE that can be measured by statistical parameters of the examination results.Standard analyses of tests usually include basic parameters such as difficulty, selectivity and reliability (see 3.1.1). Based on the Generalizability theory, the facets (influencing factors) “students” (differences in the ability of students), “station” (difference in the difficulty of stations), “examiner” (difference in the “strictness” of examiners) and the interaction “station x examiner” (different strictness of examiners at different stations) and their effects on generalizability and absolute measurement accuracy (see 3.1.2) were examined.To compare the characteristic values of the OSCE General Medicine with established summative OSCEs of the Heidelberg Medical Faculty, the OSCEs of the subjects Surgery and Internal Medicine of the winter semester (winter term) 2017/2018, the summer semester (summer term) 2018 and the winter term 2018/2019 were used.Finally, a comparison of double assessments by student examiners and experts within the formative OSCE General Medicine was conducted (3.2). 1. EinleitungPraktische klinische Fähigkeiten und Anamneseerhebung werden bereits an verschiedenen medizinischen Fakultäten in den vorklinischen Studiensemestern vermittelt und mit Hilfe eines Objektive Structured Clinical Examination (OSCE) überprüft. Es konnte gezeigt werden, dass das frühe Erlernen praktischer Fähigkeiten zu besseren Ergebnissen in klinischen Examensabschnitten und in den klinischen Fertigkeiten führt . Die Vermittlung der Lehrinhalte erfolgt traditionsgemäß durch Lehrärzte der Fakultät, in zunehmendem Maße jedoch auch durch studentische Tutoren höherer Semester. Ein Vorteil von Peer-Tutoren (Peer Assisted Learning, PAL) sind die höhere Akzeptanz durch die Studierenden , die niedrigeren Kosten , und der Möglichkeit von kleineren Lerngruppen . Zudem profitieren hierbei sowohl die Studierenden durch eine Reduktion von Stress- und Angstfaktoren wie auch die studentischen Tutoren , durch die eigene Vertiefung der Lerninhalte. Beim Vergleich der Studententutoren mit Lehrärzten der Fakultät erzielen die Studierenden beim PAL einen gleichen Ergebnisstand in abschließenden Prüfungen , , , und eine gleiche bis höhere Qualität des Feedbacks . Voraussetzungen hierbei sind genau definierte Studententutoren-Schulungen und Checklisten , .Seit dem Jahr 2013 werden an der Medizinischen Fakultät Heidelberg im vorklinischen Studienabschnitt im Rahmen der AaLPLUS -Veranstaltungen (AaL: „Anatomie am Lebenden“) der Abteilung Allgemeinmedizin praktische Fähigkeiten und Anamnesetechniken mit Hilfe von Peer-Tutoren vermittelt und anschließend in einem ebenfalls von Studententutoren durchgeführten formativen OSCE überprüft . Eine detaillierte Darstellung des Programms und der Evaluation des OSCEs durch Studierende und Peer-Tutoren findet sich in .Black und Wiliam sehen fünf wesentliche Aspekte bei formativen Prüfungen. Angepasst an den Kontext der universitären Ausbildung sind dies:Klärung und Austausch von Lernabsichten und ErfolgskriterienAnstoß von effektiven Diskussionen und anderen Lernaufgaben, die das Verständnis der Studierenden für die Lerninhalte belegenRückmeldungen, die für die Studierenden nützlich sindAktivierung der Studierenden, als gegenseitige Lernquelle zu fungierenAktivierung der Studierenden, sich als Initiator ihrer eigenen Lernaktivitäten zu sehen. Diese Zielsetzungen beinhalten einen ganzen Prozess der Lehre, in dem mehr oder weniger kontinuierlich formative Prüfungen integriert sind. Dies ist in vollem Umfang bei formativen praktischen Prüfungen in Form von OSCEs in der medizinischen Ausbildung logistisch oft schwer zu erfüllen, so dass der hier betrachtete formative OSCE eher als Instrument zu sehen ist , der am Ende des vorklinischen Abschnitts des Studiums steht. Um die von Black und Wiliam avisierten Ziele zu erreichen, dürften andere Formen formativer Prüfungsverfahren geeignet sein . Trotz dieser begrenzten Funktion des formativen OSCEs kann erwartet werden, dass er sich positiv auf das Lernverhalten der Prüfungsteilnehmer auswirkt , .In einem Übersichtsartikel von Khan et al. aus dem Jahr 2017 werden 13 Publikationen zum Thema „Studierende als Prüfer in OSCEs“ näher dargestellt . Einige der dort aufgeführten Arbeiten untersuchen die Bewertungen von Studierenden und Experten hinsichtlich basaler Kennwerte wie Unterschiede bei den vergebenen Punktzahlen und die Korrelation der Bewertungen durch Studierende und Experten als Prüfer. Eine eingehendere quantitative Analyse, die auch eine Differenzierung von Stations- und Prüfereffekten und deren Konsequenzen für die Messzuverlässigkeit enthält, erfolgt nur in den Arbeiten von Moineau et al. und Basehore et al. . Bei beiden Arbeiten werden Doppelbewertungen an den Stationen durch Studierende und Experten untersucht (in bewerteten die Experten anhand von Videos der Prüfungen). Nicht untersucht wurde jedoch, ob sich studentische Prüfer hinsichtlich des Ausmaßes an Prüfereffekten von Experten unterscheiden.Neben dem Vergleich von studentischen Prüfern und Experten bei der gleichen formativen Prüfung ist auch die Qualität der formativen Prüfung in Relation zu an der Fakultät etablierten summativen Prüfungen von Interesse. Formative Prüfungen unterscheiden sich von Ihrer Zielsetzung und Struktur (z. B. höhere Bedeutung des Feedbacks) und der Relevanz für die Prüflinge von summativen Prüfungen. Insbesondere Letzteres kann Auswirkungen auf die Messzuverlässigkeit und -genauigkeit haben, z. B. etwa dann, wenn durch eine verringerte Motivation der Prüflinge deren Leistungen weniger differenziert erbracht werden.Ziel der StudieZiel der Studie ist, nachzuweisen, dass Studierende im Kontext formativer Prüfungen praktischer Fertigkeiten, Experten als Prüfer ersetzen können, ohne dass dadurch die Qualität der Prüfung leidet und dass die Qualität solcher formativen Prüfungen die gleichen Standards erreicht wie etablierte summative Prüfungen.Hierzu soll der im Jahr 2018 durchgeführte formative OSCE Allgemeinmedizin an der Medizinischen Fakultät Heidelberg, bei dem Tutoren als Prüfer eingesetzt werden, hinsichtlich seiner Gütekriterien (Kennwerte der Stationen, Messzuverlässigkeit der Prüfung, Ausmaß von Prüfereffekten) untersucht werden, ein Vergleich mit summativen OSCEs erfolgen und die Übereinstimmung der Bewertungen studentischer Prüfer mit denen von Experten („Supervisoren“) betrachtet werden .Andere Aspekte des formativen OSCE Allgemeinmedizin mit studentischen Prüfern, wie etwa die Akzeptanz seitens der prüfenden wie auch der geprüften Studierenden, die Einschätzung der Qualität des Feedbacks und des subjektiven Nutzens hinsichtlich der im OSCE abgeprüften Fertigkeiten für die Prüfungsteilnehmer und die Prüfer sind ausführlich in dargestellt. Die vorliegende Studie thematisiert ausschließlich die durch statistische Kennwerte der Prüfungsergebnisse erfassbaren Qualitätseigenschaften des OSCE.Standardanalysen von Prüfungen umfassen meist basale Kennwerte wie Schwierigkeit, Trennschärfe und Reliabilität (s. 3.1.1). Auf Basis der Generalisierbarkeitstheorie werden darüber hinaus die Facetten (Einflussfaktoren) „Studierende“ (Unterschiede in der Fähigkeit der Studierenden), „Station“ (Unterschied in der Schwierigkeit der Stationen), „Prüfer“ (Unterschied bei der „Strenge“ der Prüfer) und der Interaktion „Station x Prüfer“ (Unterschiedliche Strenge von Prüfern an verschiedenen Stationen) und deren Auswirkungen auf Generalisierbarkeit und absolute Messgenauigkeit (s. 3.1.2) untersucht.Zum Vergleich der Kennwerte des OSCEs Allgemeinmedizin mit etablierten summativen OSCEs der Medizinischen Fakultät Heidelberg wurden die OSCEs der Fächer Chirurgie und Innere Medizin des Wintersemesters (WS) 2017/2018, des Sommersemesters (SS) 2018 und des WS 2018/2019 herangezogen.Abschließend erfolgt ein Vergleich von Doppelbewertungen durch studentische Prüfer und Experten innerhalb des formativen OSCEs Allgemeinmedizin (3.2). 2. Methods2.1. Implementation of the OSCEThe formative OSCE General Medicine in May 2018 was attended by 300 students of the fourth semester. The OSCE took place over two days and comprised four testing stations. One of the four stations (“venous blood sampling”) was completed by all students. Various clinical examinations had to be performed at two stations. These stations were not identical for the participating students, but alternated between the different parcours. A total of 11 different tasks were used (general examination of the abdomen, examination of spleen/kidney/appendicitis signs, blood pressure measurement, examination of the heart, liver, lymph node status, pulse status, thyroid gland, thorax, spine and a neurological examination). Furthermore, a complete anamnesis had to be taken. Here too, the contents changed (back, abdomen and head). Trained acting patients were used for the clinical examinations and the anamnesis. The contents of the stations and the essential criteria for evaluation were known to the participating students from the previous tutorials and given materials.Each participant went through a total of four stations of eight minutes duration (5 minutes per task and 3 minutes feedback). The assessment of performance was carried out using checklists by students with basic didactic training who were at least in their sixth semester. A total of 25 points could be achieved at each of the stations. An exception to this were the three stations where an anamnesis had to be taken. In these, 30 points were to be achieved.32 students were used as examiners, 26 of whom examined at several (up to five) stations during the course of the OSCE (see table 1 ). The assessments were recorded using tablet computers (Programm tOSCE des UCAN-Prüfungsverbunds) .Five supervisors were appointed to monitor the quality of implementation and evaluation, who carried out random second evaluation (135 evaluations in total). The trained examiners were (medical) staff members of the Department of General Practice and Implementation Research and, for the assessment of communicative skills at the three anamnesis stations, lecturers of the Department of Medical Psychology.2.2. Comparison with summative OSCEsSix OSCEs of the subjects Surgery and Internal Medicine of the winter semesters 2017/2018 and 2018/2019 and of the summer semester 2018 of the Heidelberg Medical Faculty were used to compare the quality criteria of the OSCE General Medicine. The inclusion of several comparative OSCEs from two different subjects and semesters ensures that an estimate of the variability of their characteristic values (e.g. proportion of examiner influences) can be made for the comparative OSCEs. The OSCEs in Internal Medicine comprised 10 stations, those in surgery 13 stations. A maximum of 25 points could be achieved at all stations of these OSCEs (see table 2 ). These OSCEs were performed on two to three days in two parallel courses (viz. “parcours”). The stations were partly changed in the different parcours. The two subjects Internal Medicine and Surgery were chosen because: different examiners were used at the same testing stations and the examiners were generally employed at different stations. This allows an estimation of the examiner, stations and the interaction effect station x station during the evaluation.2.3. Statistical analysisDifficulty P and corrected selectivities rit (correlations of the number of points achieved at one station with the points achieved at all other stations) as well as the mean inter-correlations with all other stations rij (mean inter-item correlation) were determined for the stations of all mentioned OSCEs. The product-moment correlation (according to Pearson, two-tailed P value) was used throughout as a correlation measure.In order to achieve equivalence of the stations, the point values obtained at the anamnesis stations, where 30 points were to be achieved, were rescaled to the range of 0-25 points for all analyses presented.To assess the reliability of the measurements, the data were analysed using the Generalisability theory . The facets considered were “students”, “stations”, “examiners” and the interaction “station x examiner”. From the variance components found by applying the Generalizability theory, the “generalizability” Eρ2 (as an analogy to internal consistency/Cronbachs α) and the “dependability” Φ can be determined as a measure of absolute measurement accuracy:If n denotes the number of stations, then In order to analyse the matching between the assessments of the student examiners and the supervisors, the scores awarded for each station were compared (Wilcoxon signed-rank test) and the correlations determined. Furthermore, an analysis of variance of the total data set (examiners and supervisors) with the fixed factor “student examiner/supervisor” and the facets “students”, “stations”, “student examiners”, “supervisor” and the interaction “station x examiner” was carried out.Note: When analysing with the Generalizability theory, a distinction must be made between so-called fixed and random factors. If the facet “student” is considered a random factor, the intention is to generalise to equivalent groups of students (i.e. in the same semester, same demographic composition, equivalent teaching etc.). The group of students considered in the examination being analysed should therefore be regarded as a sample from a population. The same applies to the facet “station”: As a random factor, the focus is on generalizability to equivalently constructed stations, while the facet “examiners” involves examiners from a potential group of examiners. When modelling the station or examiner as a fixed factor, however, the focus is on the stations or examiners actually used in the exam: Are individual stations particularly easy or difficult, are examiners too strict or too lenient? Since the present study focuses on generalizability, only the results for the analyses with “student”, “station” and “examiner” are presented as random factors.The statistical analyses were performed with R Version 3.5.1. For the mixed model analyses for evaluation with the model of generalizability theory the packages “lme4” and “lmerTest” were used. 2. Methoden2.1. Durchführung des OSCEsAn dem formativen OSCE Allgemeinmedizin im Mai 2018 nahmen 300 Studierende des vierten Fachsemesters teil. Der OSCE fand an zwei Tagen statt und umfasste vier Stationen. Eine der vier Stationen („Venöse Blutentnahme“) wurde von allen Studierenden durchlaufen. An zwei Stationen mussten verschiedene klinische Untersuchungen durchgeführt werden. Diese Stationen waren für die teilnehmenden Studierenden nicht identisch, sondern wechselten zwischen den verschiedenen Parcours. Insgesamt wurden 11 verschiedene Aufgaben (Allgemeine Untersuchung des Abdomens, Untersuchung von Milz/Niere/Appendizitiszeichen, Blutdruckmessung, Untersuchung des Herzens, der Leber, des Lymphknotenstatus, des Pulsstatus, der Schilddrüse, des Thorax, der Wirbelsäule und eine neurologische Untersuchung) verwendet. Weiter musste eine vollständige Anamnese durchgeführt werden. Auch hier wechselten die Inhalte (Rücken-, Bauch- und Kopfschmerz). Für die klinischen Untersuchungen und die Anamnesen wurden geschulte Schauspielpatienten eingesetzt. Die Inhalte der Stationen und die wesentlichen Kriterien zur Beurteilung waren den teilnehmenden Studierenden aus den Kursen und -materialien bekannt.Jeder Teilnehmende durchlief insgesamt vier Stationen von achtminütiger Dauer (5 Minuten pro Aufgabe und 3 Minuten Feedback). Die Bewertung der Leistung erfolgte anhand von Checklisten durch basisdidaktisch geschulte Studierende, die mindestens im sechsten Semester waren. Insgesamt konnten an den Stationen jeweils 25 Punkte erreicht werden. Eine Ausnahme hiervon bildeten die drei Stationen, an denen eine Anamnese durchgeführt werden musste. Bei diesen waren 30 Punkte zu erreichen.Als Prüfer waren 32 Studierende im Einsatz, von denen im Verlauf des OSCEs 26 an mehreren (bis zu fünf) Stationen geprüft haben (siehe Tabelle 1 ). Die Erfassung der Bewertungen erfolgte mit Tablets (Programm tOSCE des UCAN-Prüfungsverbunds) .Zur Qualitätskontrolle der Durchführung und Bewertung waren fünf Supervisoren eingesetzt, die stichprobenartig Zweitbewertungen durchführten (insgesamt 135 Bewertungen). Die geschulten Prüfer waren (ärztliche) Mitarbeiter der Abteilung Allgemeinmedizin und für die Beurteilung der kommunikativen Fertigkeiten an den drei Anamnesestationen Lehrende der Abteilung Medizinische Psychologie.2.2. Vergleich mit summativen OSCEsZum Vergleich der Gütekriterien des OSCEs Allgemeinmedizin wurden sechs OSCEs der Fächer Chirurgie und Innere Medizin der Wintersemester 2017/2018 und 2018/2019 und des Sommersemesters 2018 der Medizinischen Fakultät Heidelberg herangezogen. Durch die Einbeziehung mehrerer Vergleichs-OSCEs aus zwei verschiedenen Fächern und Semestern wird sichergestellt, dass bei den Vergleichs-OSCEs eine Abschätzung der Variabilität ihrer Kennwerte (z. B. Anteil von Prüfereinflüssen) vorgenommen werden kann. Die OSCEs der Inneren Medizin umfassten jeweils 10, die der Chirurgie 13 Stationen. An allen Stationen dieser OSCEs konnten maximal 25 Punkte erreicht werden (siehe Tabelle 2 ). Diese OSCEs wurden jeweils an zwei bis drei Tagen in jeweils zwei zeitlich parallelen Parcours durchgeführt. Die Stationen wurden teilweise in den verschiedenen Parcours gewechselt. Die beiden Fächer Innere Medizin und Chirurgie wurden gewählt, da bei diesen an denselben Stationen unterschiedliche Prüfer und die Prüfer i. A. an verschiedenen Stationen eingesetzt wurden. Dies ermöglicht bei der Auswertung eine Abschätzung von Prüfer-, Stations- und dem Interaktionseffekt Station x Station.2.3. Statistische AnalyseFür die Stationen aller genannten OSCEs wurden Schwierigkeiten P und korrigierte Trennschärfen rit (Korrelationen der an einer Station erreichten Punktzahl mit den an allen anderen Stationen erreichten Punkten) sowie die gemittelten Interkorrelationen mit allen anderen Stationen rij (Average inter-item correlation) bestimmt. Als Korrelationsmaß wurde durchweg die Produkt-Moment-Korrelation (nach Pearson) verwandt.Um eine Gleichwertigkeit der Stationen zu erzielen, wurden für alle dargestellten Analysen die an den Anamnesestationen, an denen 30 Punkte zu erreichen waren, erzielten Punktwerte auf den Bereich von 0-25 Punkten reskaliert.Zur Beurteilung der Messzuverlässigkeit wurde eine Analyse der Daten mittels der Generalisierbarkeitstheorie durchgeführt. Die betrachteten Facetten waren „Studierende“, „Stationen“, „Prüfer“ und die Interaktion „Station x Prüfer“. Aus den durch die Anwendung der Generalisierbarkeitstheorie gefundenen Varianzkomponenten lassen sich die „Generalizability“ Eρ2 (als Analogon zur internen Konsistenz/Cronbachs α) und die „Dependability“ Φ als Maß der absoluten Messgenauigkeit bestimmen:Bezeichne n die Zahl der Stationen, so ist Zur Analyse der Übereinstimmung der Bewertungen der studentischen Prüfer und der Supervisoren wurden je Station die vergebenen Punktzahlen verglichen (Wilcoxon-Vorzeichen-Rang-Tests) und die Korrelationen bestimmt. Weiterhin erfolgte eine Varianzanalyse des Gesamtdatensatzes (Prüfer und Supervisoren) mit dem festen Faktor „Studentischer Prüfer/Supervisor“ und den Facetten „Studierende“, „Stationen“, „studentische Prüfer“, „Supervisor“ sowie der Interaktion „Station x Prüfer“.Anmerkung: Bei der Analyse mittels der Generalisierbarkeitstheorie muss unterschieden werden zwischen sog. festen und Zufallsfaktoren („fixed“ bzw. „random factors“). Wird die Facette „Student“ als Zufallsfaktor betrachtet, so intendiert man eine Verallgemeinerbarkeit auf äquivalente Studentengruppen (also im selben Semester, gleiche demographische Zusammensetzung, gleichwertige Lehre etc.). Die in der untersuchten Prüfung betrachtete Studierendengruppe ist demzufolge als Stichprobe aus einer Population aufzufassen. Ähnliches gilt für die Facette „Station“: Als Zufallsfaktor steht die Verallgemeinerbarkeit auf äquivalent konstruierte Stationen im Zentrum, bei der Facette „Prüfer“ die Einbeziehung von Prüfern aus einer potentiellen Gruppe von Prüfern. Bei der Modellierung von Station oder Prüfer als fester Faktor zielt man hingegen auf die in der Prüfung tatsächlich eingesetzten Stationen bzw. Prüfer ab: Sind einzelnen Stationen besonders leicht oder schwer, sind Prüfer zu streng oder zu nachsichtig? Da in der vorliegenden Studie die Verallgemeinerbarkeit im Fokus steht, werden nur die Ergebnisse für die Analysen mit „Student“, „Station“ und „Prüfer“ als Zufallsfaktoren dargestellt.Die statistischen Analysen wurden mit R Version 3.5.1 durchgeführt. Für die Mixed-Model-Analysen zur Auswertung mit dem Modell der Generalisierbarkeitstheorie wurden die Pakete „lme4“ und „lmerTest“ verwendet. 3. Results3.1. Characteristic values of the test3.1.1. Difficulties and selectivity of testing stationsThe basic parameters (mean score achieved x, difficulty P and corrected selectivity rit) of the scores obtained at the stations are listed in table 3 . Figure 1 contains a graphical representation of the distributions as a box plot.The difficulties at the individual stations range from P=0.794 at the “Anamnesis Abdomen” station to P=0.959 at the “Blood Pressure Measurement” station. An average of 87.632 out of a maximum of 100 points was achieved. Please note that in contrast to dichotomous items, where only 0 or 1 point can be achieved, with finer granular evaluations (here 0-25 points) selectivities can possibly be interpreted even if the difficulties are numerically high. Eleven of the 15 stations have part-hole corrected selectivities of more than 0.300, two stations are just below this limit with selectivities of 0.276 and 0.296 (“Physical Examination Blood Pressure” and “Physical Examination Neurology”). Significantly lower are the stations “Physical Examination Liver” with rit=0.112 and “Pulse status” with rit=0.099.Comparison with summative OSCEsFigure 2 shows the distribution of the scores achieved at the stations of OSCE General Medicine compared to the summative OSCEs in Internal Medicine and Surgery in the last three semesters (see also table 4 ).In comparison to the considered OSCEs of Internal Medicine and Surgery, the stations of the OSCE General Medicine were almost equally heavy (P=0.882 compared to P=0.876).The corrected selectivities were on average lower than in the comparative OSCEs, only the OSCE Internal Medicine SS 2018 showed lower values (rit=0.358 compared to 0.386, see table 4 and figure 3 ). In this comparison, however, it must be taken into account that in the OSCE General Medicine, the point total of the other stations used for the corrected selectivity is determined from only three stations, in contrast to Internal Medicine and Surgery with nine and twelve stations, respectively. This means that this sum is subject to more error variance in the OSCE General Medicine. A better possibility for comparison is offered here by the average of all correlations of the point sum from one ward with all other stations rij (“mean inter-item correlation”). Here it can be seen that three of the comparison OSCEs each have lower and higher values (see table 4 and figure 4 ).3.1.2. Measurement reliabilityMethods of Generalizability theory were used to analyse measurement reliability. A model with the facets “student”, “station”, “examiner” and the interaction “station x examiner” was analysed. Table 5 shows the estimated variance components of the facets.Nearly 53% of the variance can be explained by the effects of the model, with 22% attributable to differences between students in terms of performance. The variability of the stations accounts for 21%, while the combined examiner influence was around 10%. The interaction effect station x examiner was not detectable or significantly different from 0.The expected correlation of the point values achieved in the OSCE with an equivalent OSCE is Eρ2=0.647. These values do not take into account the effects of station and examiner, since in an equivalent parcours, all students pass through the same stations with the same examiners, so their total achieved points are only changed by these facets by a value that is constant for all and is not taken into account in a correlation (Eρ2 is thus a measure of the relative measurement accuracy). In contrast, the Dependability Φ, as a measure of the absolute measurement accuracy, takes these factors into account, and is Φ=0.525 for the test.Comparison with summative OSCEsFigure 5 shows graphically the percentage shares of the variance components for the OSCEs. A quality comparison of the OSCE General Medicine with those of Internal Medicine and Surgery with regard to the quality of the stations and the extent of the examiner’s influences must take into account the different number of stations. As an example, table 6 lists the values obtained on a Parcour with ten stations. It can be seen that for Eρ2 three of the six comparison OSCEs have both lower and higher values. The absolute accuracy is higher for four comparison OSCEs. As can be seen in figure 5, this is mainly due to the higher variability of the stations.3.2. SupervisionIn 135 assessments, an additional examination was carried out by a supervisor (medical staff of the Department of General Practice and Implementation Research and Medical Psychology), which serves as quality assurance of the OSCE (see table 1 ). Table 7 shows the mean values of the assessments by the examiners, as well as those of the supervisors for the wards with double assessments. In addition, the significance value of the test for difference of assessments (Wilcoxon signed-rank test) is given. Only one station (“Anamnesis Abdomen”) shows a statistically significant difference.Table 7 contains the correlations between examiners and supervisors at the stations, these ranged from 0.729 to 0.989. As examples, the scatter plots (bubble chart) of the assessments for the wards “Back Anamnesis” and “Physical Examination Neurology” are shown in figure 6 .An overall analysis based on the Generalizability theory of all data (student examiners and supervisors) with the examiner group as a fixed factor and with separate variance components for the two examiner groups is shown in table 8 . The supervisors give 0.568 points less than the student examiners, but the effect is not significant (p=0.152). The examiner effects have a standard deviation of 0.700 points (see also table 5 ). For the five supervisors, no variance component other than zero can be demonstrated (p=0.117), which is equivalent to the fact that no difference can be demonstrated with regard to their strictness. 3. Ergebnisse3.1. Kennwerte der Prüfung3.1.1. Schwierigkeiten und Trennschärfe der StationenDie Basiskennwerte (mittlere erreichte Punktzahl x, Schwierigkeit P und korrigierte Trennschärfe rit) der an den Stationen erzielten Punktwerte sind in Tabelle 3 aufgeführt. Abbildung 1 enthält eine grafische Darstellung der Verteilungen als Boxplot.Die Schwierigkeiten an den einzelnen Stationen reichen von P=0.794 bei der Station „Anamnese Bauch“ bis P=0.959 an der Station „KU Blutdruck“. Im Mittel wurden 87.632 von maximal 100 Punkten erreicht. Man beachte, dass im Unterschied zu dichotomen Items, bei denen nur 0 oder 1 Punkt erreicht werden kann, bei feiner granulierten Bewertungen (hier 0-25 Punkte) Trennschärfen u. U. auch dann interpretiert werden können, wenn die Schwierigkeiten numerisch hoch sind. Elf der 15 Stationen weisen Part-whole-korrigierte Trennschärfen von über 0.300 auf, zwei Stationen liegen mit Trennschärfen von 0.276 und 0.296 knapp unter dieser Grenze („KU Blutdruck“ bzw. „KU Neurologie“). Deutlich niedriger sind die der Stationen „KU Leber“ mit rit=0.112 und „Pulsstatus“ mit rit=0.099.Vergleich mit summativen OSCEsAbbildung 2 zeigt die Verteilung der an den Stationen erreichten Punktzahlen des OSCEs Allgemeinmedizin im Vergleich zu den summativen OSCEs der Inneren Medizin und der Chirurgie der vergangenen drei Semester (siehe auch Tabelle 4 ).Im Vergleich zu den betrachteten OSCEs der Inneren Medizin und der Chirurgie waren die Stationen des OSCE Allgemeinmedizin annähernd gleich schwer (P=0.882 gegenüber P=0.876).Die korrigierten Trennschärfen waren im Mittel etwas geringer als bei den Vergleichs-OSCEs, lediglich der OSCE Innere Medizin SS 2018 wies hier niedrigere Werte auf (rit=0.358 gegenüber 0.386, siehe Tabelle 4 und Abbildung 3 ). Bei diesem Vergleich ist jedoch zu berücksichtigen, dass beim OSCE Allgemeinmedizin die für die korrigierte Trennschärfe verwendete Punktsumme der anderen Stationen nur aus drei Stationen bestimmt wird, im Gegensatz zur Inneren Medizin und der Chirurgie mit neun bzw. zwölf Stationen. Damit ist diese Summe beim OSCE Allgemeinmedizin mit mehr Fehlervarianz behaftet. Eine bessere Vergleichsmöglichkeit bietet hier das Mittel aus allen Korrelationen der Punktsumme aus einer Station mit allen anderen Stationen rij („averaged inter-item correlation“). Hier zeigt sich, dass jeweils drei der Vergleichs-OSCEs niedrigere und höhere Werte aufweisen (siehe Tabelle 4 und Abbildung 4 ).3.1.2. MesszuverlässigkeitZur Analyse der Messzuverlässigkeit wurden Verfahren der Generalisierbarkeitstheorie eingesetzt. Analysiert wurde ein Modell mit den Facetten „Studierender“, „Station“, „Prüfer“ und der Interaktion „Station x Prüfer“.In Tabelle 5 sind die geschätzten Varianzkomponenten der Facetten aufgeführt.Nahezu 53% der Varianz können durch die Effekte des Modells erklärt werden, wobei 22% auf die Unterschiede zwischen den Studierenden hinsichtlich ihrer Leistungen zurückgeführt werden können. Auf die Variabilität der Stationen entfallen 21%, die zusammengefassten Prüfereinflüsse betragen etwa 10%. Dabei ist der Interaktionseffekt Station x Prüfer nicht als signifikant von 0 verschieden nachweisbar.Die zu erwartende Korrelation der beim OSCE erreichten Punktwerte mit einem äquivalenten OSCE beträgt Eρ2=0.647. In diesen Werte gehen die Effekte von Station und Prüfer nicht mit ein, da bei einem äquivalenten Parcours alle Studierenden die gleichen Stationen mit den gleichen Prüfern durchlaufen, ihre erreichte Punktsumme daher durch diese Facetten nur durch einen für alle konstanten Wert verändert sind, der bei einer Korrelation nicht berücksichtigt wird (Eρ2 ist somit ein Maß für die relative Messgenauigkeit). Im Unterschied dazu berücksichtigt die Dependability Φ als Maß für die absolute Messgenauigkeit diese Faktoren, und beträgt für die Prüfung Φ=0.525.Vergleich mit summativen OSCEsAbbildung 5 zeigt graphisch die prozentualen Anteile der Varianzkomponenten für die OSCEs. Ein Qualitätsvergleich des OSCEs Allgemeinmedizin mit denen der Inneren Medizin und der Chirurgie hinsichtlich der Stationsqualität und des Umfangs der Prüfereinflüsse muss die unterschiedliche Zahl von Stationen berücksichtigen. Bei Normierung auf einem Parcours von zehn Stationen erhält man die in Tabelle 6 aufgeführten Werte. Es zeigt sich, dass für Eρ2 drei der sechs Vergleichs-OSCEs niedrigere wie auch höhere Werte aufweisen. Die absolute Genauigkeit ist bei vier Vergleichs-OSCEs höher. Wie aus Abbildung 5 zu entnehmen ist, ist dies im Wesentlichen auf die höhere Variabilität der Stationen zurückzuführen.3.2. SupervisionBei 135 Bewertungen wurde eine Zweitbewertung durch einen Supervisor (ärztliche Mitarbeiter der Abteilung Allgemeinmedizin und Medizinische Psychologie) vorgenommen, die der Qualitätssicherung des OSCE dient (siehe Tabelle 1 ). In Tabelle 7 sind die Mittelwerte der Bewertungen durch die Prüfer sowie die der Supervisoren für die Stationen mit Doppelbewertungen aufgeführt, zusätzlich ist der Signifikanzwert des Tests auf Unterschied der Bewertungen (Wilcoxon-Vorzeichen-Rang-Test) angegeben. Nur bei einer Station („Anamnese Bauch“) zeigt sich ein statistisch signifikanter Unterschied.Tabelle 7 enthält weiterhin die Korrelationen zwischen Prüfern und Supervisoren an den Stationen, diese lagen zwischen 0.729 und 0.989. Als Beispiele sind die Streudiagramme (Blasendiagramme) der Bewertungen für die Stationen „Anamnese Rücken“ und „KU Neurologie“ in Abbildung 6 dargestellt.Eine Gesamtanalyse auf Basis der Generalisierbarkeitstheorie aller Daten (studentische Prüfer und Supervisoren) mit der Prüfergruppe als fester Faktor und mit getrennten Varianzkomponenten für die beiden Prüfergruppen enthält Tabelle 8 . Die Supervisoren vergeben 0.568 Punkte weniger als die studentischen Prüfer, der Effekt ist jedoch nicht signifikant (p=0.152). Die Prüfereffekte haben eine Standardabweichung von 0.700 Punkten (vgl. auch Tabelle 5 ). Bei den fünf Supervisoren kann keine von Null verschiedene Varianzkomponente nachgewiesen werden (p=0.117), was gleichbedeutend damit ist, dass kein Unterschied hinsichtlich ihrer Strenge nachzuweisen ist. 4. DiscussionThe results show that the stations of the OSCE General Medicine 2018 essentially fulfill the same quality criteria as the stations that are tested in the OSCEs in the subjects of Surgery and Internal Medicine, which have been established for years. In two of the physical examination stations, a review is recommended due to low selectivity. The matching of the assessments of the student examiners with those of the supervisors can be described as good to very good at all stations. Systematic differences between the assessments of the student examiners and the supervisors cannot be demonstrated. Although there is a relative influence of the examiners, the examiner effects tend to be even lower than in the comparison OSCEs. The generalizability standardized on ten stations is noticeably higher in the OSCE General Medicine with Eρ2=0.82 compared to the two studies mentioned in Khan's review , in which an analysis was carried out using the Generalizability theory, in and marginally higher in (Eρ2=0.51 for the checklist and Eρ2=0.63 for the “global score” and Eρ2=0.80 for the “total score”).Apart from the number of stations, the measurement reliability of the OSCE examination in General Medicine is fully in line with the summative comparative OSCEs in the subjects of Surgery and Internal Medicine in the last three semesters.This shows that with appropriate preparation: students instead of experts can be used as examiners of practical skills and the quality of a formative examination with student examiners is similar to that of established summative OSCEs with experts as examiners. Since the implementation of practical format-based exams, which record the level of knowledge for students themselves as well as for teachers in a structured manner, often fails at the faculties due to the availability of examiners from the teaching staff, students in higher semesters offer a convenient alternative to substitute them.The only weakness of the OSCE General Medicine is the small number of four stations that the examined students have to pass through. However, the fact that four stations does not provide a measurement reliability that meets the requirements of high-quality examinations is not surprising. This is in line with the literature, which demands significantly higher numbers of stations for OSCEs in order to obtain overall evaluations that can be classified as meaningful .The analysis of other formative examinations in which students act as examiners is of course desirable, since it is not possible to generalize to other institutions, general conditions, or the like from the individual case presented here. Such investigations could show which conditions must be met for the use of student examiners in order to obtain statistically satisfactory and meaningful performance assessments. LimitationsThe random second assessment by the supervisors were not carried out systematically, so that the comparisons with the student assessors are partly based on very small data sets (see table 7 ). There is also a room for improvement in the systematic allocation of the two physical examination stations from the set of eleven available stations among the examined students. 4. DiskussionDie Ergebnisse zeigen, dass die Stationen des OSCE Allgemeinmedizin 2018 im Wesentlichen die gleichen Qualitätskriterien erfüllen wie die Stationen, die in den seit Jahren etablierten OSCEs der Fächer Chirurgie und Innere Medizin geprüft werden. Bei zwei der klinischen Untersuchungsstationen ist eine Überprüfung auf Grund niedriger Trennschärfen angeraten. Die Übereinstimmung der Bewertungen der studentischen Prüfer mit denen der Supervisoren kann an allen Stationen als gut bis sehr gut bezeichnet werden, systematische Unterschiede zwischen den Bewertungen der studentischen Prüfer und den Supervisoren sind nicht nachzuweisen. Ein relativer Einfluss der Prüfer ist zwar vorhanden, die Prüfereffekte sind tendenziell sogar niedriger als bei den Vergleichs-OSCEs. Die auf zehn Stationen normierte Generalisierbarkeit liegt im OSCE Allgemeinmedizin mit Eρ2=0.82 gegenüber den beiden im Review von Khan genannten Arbeiten, in denen eine Analyse mittels der Generalisierbarkeitstheorie erfolgte, in merklich, in marginal höher (Eρ2=0.51 für die Checkliste und Eρ2=0.63 für den „global score“ bzw. Eρ2=0.80 für den „total score“).Sofern man von der Anzahl der Stationen absieht, ist die Messzuverlässigkeit der OSCE-Prüfung Allgemeinmedizin vollständig im Rahmen der summativen Vergleichs-OSCEs der Fächer Chirurgie und Innere Medizin der letzten drei Semester.Damit ist gezeigt, dass bei entsprechender Vorbereitung Studierende statt Experten als Prüfer praktischer Fertigkeiten eingesetzt werden können und die Qualität einer formativen Prüfung mit studentischen Prüfern ähnlich hoch ist wie die etablierter summativer OSCEs mit Experten als Prüfern. Da die Durchführung praktischer formativer Prüfungen, die den Kenntnisstand für die Studierenden selbst wie auch für Lehrende strukturiert erfassen, an den Fakultäten häufig an der Verfügbarkeit von Prüfern des Lehrkörpers scheitert, können Studierende höherer Fachsemester hier einen vollwertigen Ersatz bieten.Einzige Schwäche des OSCE Allgemeinmedizin ist die geringe Zahl von vier Stationen, die die Prüfungsteilnehmerinnen und -teilnehmer zu durchlaufen haben. Die Tatsache, dass mit vier Stationen keine Messzuverlässigkeit zu erreichen ist, die den Anforderungen an qualitativ hochwertige Prüfungen genügt, ist jedoch wenig überraschend. Sie steht im Einklang mit der Literatur, in der für OSCEs deutlich höhere Stationszahlen gefordert werden, um als aussagekräftig einzustufende Gesamtbewertungen zu erhalten .Die Analyse anderer formativer Prüfungen, in denen Studierende als Prüfer fungieren, ist natürlich wünschenswert, da aus dem hier vorgestellten Einzelfall keine Verallgemeinerung auf andere Institutionen, Rahmenbedingungen o. ä. möglich ist. Solche Untersuchungen könnten zeigen, welche Voraussetzungen für den Einsatz studentischer Prüfer gegeben sein müssen, um teststatistisch zufriedenstellende und aussagekräftige Leistungsbeurteilungen zu gewinnen. Limitationen: Die stichprobenartigen Zweitbewertungen durch die Supervisoren wurden nicht systematisch durchgeführt, so dass die Vergleiche mit den studentischen Bewertern teils auf sehr geringen Datenzahlen beruhen (siehe Tabelle 7 ). Ebenfalls verbesserungswürdig ist die Systematik der Zuordnung der beiden klinischen Untersuchungsstationen aus der Menge der elf verfügbaren Stationen zu den Prüfungsteilnehmerinnen und -teilnehmern. 5. ConclusionOverall, the OSCE General Medicine shows that it is possible to assess a large number of students with student examiners and thus to conduct high quality formative practical examinations. The involvement of students in the process of creating formative performance assessments is thus a practical way for medical faculties to take advantage of the widely recognized benefits of feedback in university teaching with the help of structured performance recording. 5. SchlussfolgerungInsgesamt zeigt der OSCE Allgemeinmedizin, dass es möglich ist, mit studentischen Prüfern eine große Zahl an Studierenden zu beurteilen und damit qualitativ hochwertige formative praktische Prüfungen durchzuführen. Die Einbindung von Studierenden in den Prozess der Erstellung formativer Leistungsbeurteilungen stellt damit eine für die medizinischen Fakultäten praktikable Möglichkeit dar, die allseits anerkannten Vorteile von Feedback in der Hochschullehre mit Hilfe strukturierter Leistungserfassungen zu nutzen. FundingThe work was developed within the framework of the project MERLIN II (01PL17011C) funded by the Federal Ministry of Education and Research. FörderungDie Arbeit entstand im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Projekts MERLIN II (01PL17011C). Competing interestsThe authors declare that they have no competing interests. InteressenkonfliktDie Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben. Swierszcz J Stalmach-Przygoda A Kuzma M Jablonski K Cegielny T Skrzypek A Wieczorek-Surdacka E Kruszelnicka O Chmura K Chyrchel B Surdacki A Nowakowski M How does preclinical laboratory training impact physical examination skills during the first clinical year? A retrospective analysis of routinely collected objective structured clinical examination scores among the first two matriculating classes of a reformed curriculum in one Polish medical school 2017 BMJ Open e017748 Swierszcz J, Stalmach-Przygoda A, Kuzma M, Jablonski K, Cegielny T, Skrzypek A, Wieczorek-Surdacka E, Kruszelnicka O, Chmura K, Chyrchel B, Surdacki A, Nowakowski M. How does preclinical laboratory training impact physical examination skills during the first clinical year? A retrospective analysis of routinely collected objective structured clinical examination scores among the first two matriculating classes of a reformed curriculum in one Polish medical school. BMJ Open. 2017;7(8):e017748. DOI: 10.1136/bmjopen-2017-017748 https://doi.org/10.1136/bmjopen-2017-017748 Khalid H Shahid S Punjabi N Sahdev N An integrated 2-year clinical skills peer tutoring scheme in a UK-based medical school: perceptions of tutees and peer tutors 2018 Adv Med Educ Pract 423-432 Khalid H, Shahid S, Punjabi N, Sahdev N. An integrated 2-year clinical skills peer tutoring scheme in a UK-based medical school: perceptions of tutees and peer tutors. Adv Med Educ Pract. 2018;9:423-432. DOI: 10.2147/AMEP.S159502 https://doi.org/10.2147/AMEP.S159502 Bosse HM Nickel M Huwendiek S Schultz JH Nikendei C Cost-effectiveness of peer role play and standardized patients in undergraduate communication training 2015 BMC Med Educ 138 Bosse HM, Nickel M, Huwendiek S, Schultz JH, Nikendei C. Cost-effectiveness of peer role play and standardized patients in undergraduate communication training. BMC Med Educ. 2015;15:138. DOI: 10.1186/s12909-015-0468-1 https://doi.org/10.1186/s12909-015-0468-1 Lee CB Madrazo L Khan U Thangarasa T McConnell M Khamisa K A student-initiated objective structured clinical examination as a sustainable cost-effective learning experience 2018 Med Educ Online 1440111 Lee CB, Madrazo L, Khan U, Thangarasa T, McConnell M, Khamisa K. A student-initiated objective structured clinical examination as a sustainable cost-effective learning experience. Med Educ Online. 2018;23(1):1440111. DOI: 10.1080/10872981.2018.1440111 https://doi.org/10.1080/10872981.2018.1440111 Hudson JN Tonkin AL Clinical skills education: outcomes of relationships between junior medical students, senior peers and simulated patients 2008 Med Educ 901-908 Hudson JN, Tonkin AL. Clinical skills education: outcomes of relationships between junior medical students, senior peers and simulated patients. Med Educ. 2008;42(9):901-908. DOI: 10.1111/j.1365-2923.2008.03107.x https://doi.org/10.1111/j.1365-2923.2008.03107.x Young I Montgomery K Kearns P Hayward S Mellanby E The benefits of a peer-assisted mock OSCE 2014 Clin Teach 214-218 Young I, Montgomery K, Kearns P, Hayward S, Mellanby E. The benefits of a peer-assisted mock OSCE. Clin Teach. 2014;11(3):214-218. DOI: 10.1111/tct.12112 https://doi.org/10.1111/tct.12112 Nomura O Onishi H Kato H Medical students can teach communication skills - a mixed methods study of crossyear peer tutoring 2017 BMC Med Educ 103 Nomura O, Onishi H, Kato H. Medical students can teach communication skills - a mixed methods study of crossyear peer tutoring. BMC Med Educ. 2017;17(1):103. DOI: 10.1186/s12909-017-0939-7 https://doi.org/10.1186/s12909-017-0939-7 Weyrich P Celebi N Schrauth M Möltner A Lammerding-Köppel M Nikendei C Peer-assisted versus faculty staff-led skills laboratory training: a randomised controlled trial 2009 Med Educ 113-120 Weyrich P, Celebi N, Schrauth M, Möltner A, Lammerding-Köppel M, Nikendei C. Peer-assisted versus faculty staff-led skills laboratory training: a randomised controlled trial. Med Educ. 2009;43(2):113-120. DOI: 10.1111/j.1365-2923.2008.03252.x https://doi.org/10.1111/j.1365-2923.2008.03252.x Chenot JF Simmenroth-Nayda A Koch A Fischer T Scherer M Emmert B Stanske B Kochen MM Himmel W Can student tutors act as examiners in an objective structured clinical examination? 2007 Med Educ 1032-1038 Chenot JF, Simmenroth-Nayda A, Koch A, Fischer T, Scherer M, Emmert B, Stanske B, Kochen MM, Himmel W. Can student tutors act as examiners in an objective structured clinical examination? Med Educ. 2007;41(11):1032-1038. DOI: 10.1111/j.1365-2923.2007.02895.x https://doi.org/10.1111/j.1365-2923.2007.02895.x Moineau G Power B Pion AJ Wood TJ Humphrey-Murto S Comparison of student examiner to faculty examiner scoring and feedback in an OSCE 2011 Med Educ 183-191 Moineau G, Power B, Pion AJ, Wood TJ, Humphrey-Murto S. Comparison of student examiner to faculty examiner scoring and feedback in an OSCE. Med Educ. 2011;45(2):183-191. DOI: 10.1111/j.1365-2923.2010.03800.x https://doi.org/10.1111/j.1365-2923.2010.03800.x Blank WA Blankenfeld H Vogelmann R Linde K Schneider A Can near-peer medical students effectively teach a new curriculum in physical examination? 2013 BMC Med Educ 165 Blank WA, Blankenfeld H, Vogelmann R, Linde K, Schneider A. Can near-peer medical students effectively teach a new curriculum in physical examination? BMC Med Educ. 2013;13:165. DOI: 10.1186/1472-6920-13-165 https://doi.org/10.1186/1472-6920-13-165 Melcher P Roth A Ghanem M Rotzoll D Klinisch-praktische Prüfungen in der orthopädischen Lehre: Wer ist der "ideale" Prüfer? 2017 Z Orthop Unfall 468-475 Melcher P, Roth A, Ghanem M, Rotzoll D. Klinisch-praktische Prüfungen in der orthopädischen Lehre: Wer ist der "ideale" Prüfer? Z Orthop Unfall. 2017;155(4):468-475. DOI: 10.1055/s-0043-109022 https://doi.org/10.1055/s-0043-109022 Melcher P Zajonz D Roth A Heyde C Ghanem M Peer-assisted teaching student tutors as examiners in an orthopedic surgery OSCE station - pros and cons 2016 GMS Interdiscip Plast Reconstr Surg DGPW Doc17 Melcher P, Zajonz D, Roth A, Heyde C, Ghanem M. Peer-assisted teaching student tutors as examiners in an orthopedic surgery OSCE station - pros and cons. GMS Interdiscip Plast Reconstr Surg DGPW. 2016;5:Doc17. DOI: 10.3205/iprs000096 https://doi.org/10.3205/iprs000096 Ledig T Eicher C Szecsenyi J Engeser P AaLplus - ein Anamnese- und Untersuchungskurs für den vorklinischen Studienabschnitt 2014 Z Allg Med 76-80 Ledig T, Eicher C, Szecsenyi J, Engeser P. AaLplus - ein Anamnese- und Untersuchungskurs für den vorklinischen Studienabschnitt. Z Allg Med. 2014;90(2):76-80. Schwill S Fahrbach-Veeser J Moeltner A Eicher C Kurczyk S Pfisterer D Szecsenyi J Loukanova S Peers as OSCE assessors for junior medical students-a review of routine use: a mixed methods study 2020 BMC Med Educ 1-12 Schwill S, Fahrbach-Veeser J, Moeltner A, Eicher C, Kurczyk S, Pfisterer D, Szecsenyi J, Loukanova S. Peers as OSCE assessors for junior medical students-a review of routine use: a mixed methods study. BMC Med Educ. 2020;20(1):1-12. DOI: 10.1186/s12909-019-1898-y https://doi.org/10.1186/s12909-019-1898-y Black P Wiliam D Developing the theory of formative assessment 2009 Educ Asse Eval Acc 5-31 Black P, Wiliam D. Developing the theory of formative assessment. Educ Asse Eval Acc. 2009;21(1):5-31. DOI: 10.1007/s11092-008-9068-5 https://doi.org/10.1007/s11092-008-9068-5 Dolin J Black P Harlen W Andrée Tiberghien A Exploring Relations Between Formative and Summative Assessment 2018 Transforming Assessment: Through an interplay between practice, research and policy 53-80 Dolin J, Black P, Harlen W, Andrée Tiberghien A. Exploring Relations Between Formative and Summative Assessment. In: Dolin J, Evans R, editors. Transforming Assessment: Through an interplay between practice, research and policy. Cham, Switzerland: Springer; 2018. p.53-80. DOI: 10.1007/978-3-319-63248-3_3 https://doi.org/10.1007/978-3-319-63248-3_3 O'Shaughnessy SM Pauline J Summative and Formative Assessment in Medicine: The Experience of an Anaesthesia Trainee 2015 Internl J High Educ 198-206 O'Shaughnessy SM, Pauline J. Summative and Formative Assessment in Medicine: The Experience of an Anaesthesia Trainee. Internl J High Educ. 2015;4(2):198-206. DOI: 10.5430/ijhe.v4n2p198 https://doi.org/10.5430/ijhe.v4n2p198 Pugh D Desjardins I Eva K How do formative objective structured clinical examinations drive learning? Analysis of residents' perceptions 2018 Med Teach 45-52 Pugh D, Desjardins I, Eva K. How do formative objective structured clinical examinations drive learning? Analysis of residents' perceptions. Med Teach. 2018;40(1):45-52. DOI: 10.1080/0142159X.2017.1388502 https://doi.org/10.1080/0142159X.2017.1388502 Lim YS Students' Perception of Formative Assessment as an Instructional Tool in Medical Education 2019 Med Sci Educ 255-263 Lim YS. Students' Perception of Formative Assessment as an Instructional Tool in Medical Education. Med Sci Educ. 2019;29(1):255-263. DOI: 10.1007/s40670-018-00687-w https://doi.org/10.1007/s40670-018-00687-w Khan R Payne MW Chahine S Peer assessment in the objective structured clinical examination: A scoping review 2017 Med Teach 745-756 Khan R, Payne MW, Chahine S. Peer assessment in the objective structured clinical examination: A scoping review. Med Teach. 2017;39(7):745-756. DOI: 10.1080/0142159X.2017.1309375 https://doi.org/10.1080/0142159X.2017.1309375 Basehore PM Pomerantz SC Gentile M Reliability and benefits of medical student peers in rating complex clinical skills 2014 Med Teach 409-414 Basehore PM, Pomerantz SC, Gentile M. Reliability and benefits of medical student peers in rating complex clinical skills. Med Teach. 2014;36(5):409-414. DOI: 10.3109/0142159X.2014.889287 https://doi.org/10.3109/0142159X.2014.889287 Hochlehnert A Schultz JH Möltner A Timbil S Brass K Jünger J Elektronische Erfassung von Prüfungsleistungen bei OSCE-Prüfungen mit Tablets 2015 GMS Z Med Ausbild Doc41 Hochlehnert A, Schultz JH, Möltner A, Timbil S, Brass K, Jünger J. Elektronische Erfassung von Prüfungsleistungen bei OSCE-Prüfungen mit Tablets. GMS Z Med Ausbild. 2015;32(4):Doc41. DOI: 10.3205/zma000983 https://doi.org/10.3205/zma000983 Brennan RL 2001 Generalizability Theory Brennan RL. Generalizability Theory. New York NY: Springer; 2001. DOI: 10.1007/978-1-4757-3456-0 https://doi.org/10.1007/978-1-4757-3456-0 Epstein RM Assessment in Medical Education 2007 N Engl J Med 387-396 Epstein RM. Assessment in Medical Education. N Engl J Med. 2007;356(4):387-396. DOI: 10.1056/NEJMra054784 https://doi.org/10.1056/NEJMra054784 11en1de

22en2de

33en3de

44en4de

55en5de

66en6de

77en7de

88en8de

1 1en 1de Figure 1: Distribution of the scores achieved at the stations of the formative OSCE General Practice. The station "Complete anamnesis", where 30 points were achieved in the original OSCE, has been rescaled to the range of 0-25 points. Abbildung 1: Verteilungen der erreichten Punktzahlen an den Stationen des formativen OSCE Allgemeinmedizin. Die Station „Vollständige Anamnese“, an der im Original-OSCE 30 Punkte erreicht werden konnten, ist auf den Bereich von 0-25 Punkte reskaliert.

2 2en 2de Figure 2: Distribution of the mean difficulties achieved P at the stations of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017/18 to winter semester 2018/2019. Abbildung 2: Verteilung der mittleren erreichten Schwierigkeiten P an den Stationen des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017/18 bis Wintersemester 2018/2019.

3 3en 3de Figure 3: Distribution of corrected item-total correlations rit at the stations of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017/18 to winter semester 2018/2019. Abbildung 3: Verteilung der korrigierten Trennschärfen rit an den Stationen des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017/18 bis Wintersemester 2018/2019.

4 4en 4de Figure 4: Distribution of averaged inter-item correlations rij (correlations of the number of points achieved at one station with the respective other stations) of the formative OSCE General Medicine 2018 and the summative OSCEs Internal Medicine and Surgery winter semester 2017/18 to winter semester 2018/2019. Abbildung 4: Verteilung des mittleren Interitemkorrelationen rij (Korrelationen der an einer Station erreichten Punktzahl mit den jeweils anderen Stationen) des formativen OSCE Allgemeinmedizin 2018 und der summativen OSCEs Innere Medizin und Chirurgie Wintersemester 2017/18 bis Wintersemester 2018/2019.

5 5en 5de Figure 5: Percentage distribution of the variance of the OSCE General Medicine and the OSCEs Internal Medicine and Surgery from WS 2017 to WS 2018. The total variance is divided into the components "student", "station", "examiner", the interaction "station x examiner" and the residual variance. Abbildung 5: Prozentuale Aufteilung der Varianz des OSCE Allgemeinmedizin und der OSCEs Innere Medizin und Chirurgie von WS 2017 bis WS 2018. Die Gesamtvarianz unterteilt sich in die Komponenten „Studierender“, „Station“, „Prüfer“, der Interaktion „Prüfer x Station“ und der Residualvarianz.

6 6en 6de Figure 6: Scatter plots (bubble plots) of the assessments by examiners and supervisors at the "Back Anamnesis" and "Physical Examination Neurology" stations (the circle size represents the number of multiple data points with the same values). Abbildung 6: Streudiagramme (Blasendiagramme) der Bewertungen durch Prüfer und Supervisoren an den Stationen „Vollständige Anamnese Rücken“ und „KU Neurologie“ (die Kreisgröße repräsentiert die Anzahl mehrfach vorhandener Datenpunkte mit gleichen Werten). 6

1 1

2 2 2 0