Measuring competency-relevant knowledge in the competency-oriented student progress test

zma001299 10.3205/zma001299 urn:nbn:de:0183-zma0012993 article Artikel Measuring competency-relevant knowledge in the competency-oriented student progress test Erfassung kompetenzrelevanten Wissens im studentischen kompetenzorientierten Progresstest Möltner Möltner Andreas A Dr. phil.

Medical Faculty of Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Im Neuenheimer Feld 346, D-69120 Heidelberg, GermanyMedical Faculty of Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany

Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Im Neuenheimer Feld 346, 69120 Heidelberg, DeutschlandMedizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

andreas.moeltner@med.uni-heidelberg.de author Wagener Wagener Stefan S

Medical Faculty of Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany

Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

author Burkert Burkert Mirka M

Medical Faculty of Heidelberg, Baden-Württemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany

Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 progress test reliability discriminant validity Progresstest Reliabilität Diskriminanzvalidität Progress testing Progresstest 20190204 20190801 20191014 20200217 engl germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 2366-5017 37 1 GMS Journal for Medical Education GMS J Med Educ 6 Bundesministerium für Bildung und Forschung Hintergrund: Seit dem Jahr 2013 wird an einer Reihe medizinischer Fakultäten ein studentischer kompetenzorientierter Progresstest (SKPT) durchgeführt. Die Erstellung der Fragen erfolgt auf Basis eines zweidimensionalen Blueprints, dessen eine Achse aus den auf dem Kompetenzmodell des NKLM basierenden fünf Kompetenzbereichen „Kommunikative Kompetenz“ (KO), „Klinisch-praktische Kompetenz“ (KP) „Klinisch-theoretische Kompetenz“ (KT), „Wissenschaftskompetenz“ (WI) und „Professionelle Handlungskompetenz“ (PH) besteht. Die Rückmeldung an die teilnehmenden Studierenden erfolgt u. a. differenziert nach diesen Bereichen. Ziel der Studie ist, zu prüfen, ob die nach Kompetenzbereichen differenzierten Ergebnisse eine hinreichende Messgenauigkeit aufweisen und ob die Ergebnisse zu verschiedenen Bereichen auch unterschiedliche Informationen enthalten. Methoden: Untersucht wurden die SKPTs der Jahre 2013 bis 2017 mit zusammen 3027 Teilnehmern. Die Messgenauigkeit wurde mit dem Koeffizient glb und dem Standardmessfehler bestimmt, zum Nachweis der Differenziertheit der Kompetenzbereiche wurde eine Diskriminanzanalyse der Hauptkomponenten eingesetzt. Ergebnisse: Die Reliabilität der Kompetenzbereiche war in allen Progresstests über 0.8, Ausnahmen hiervon waren in zwei der Tests KO und PH mit einer Reliabilität von 0.7–0.8. Die Ergebnisse aller Bereiche unterschieden sich hinsichtlich ihres Informationsgehalts jeweils vom Gesamt der anderen Bereiche, gleiches gilt mit Ausnahme von KP und KT für sämtliche paarweisen Vergleiche.Diskussion: Die nach Kompetenzbereichen differenzierte Rückmeldung der Leistungen im SKPT erfüllt im Wesentlichen die Anforderungen an Messzuverlässigkeit und Eigenständigkeit. Eine Verbesserung der Messgüte bei den Bereichen KO und PH sowie eine bessere Differenzierung der Bereiche KP und KT ist wünschenswert. Background: Since 2013 a competency-oriented student progress test (SKPT) has been administered at a number of German medical schools. The questions are generated on the basis of a two-dimensional blueprint, on which one axis contains the five competency domains – communicative competence (CO), practical clinical competence (CP), theoretical clinical competence (CT), scientific competence (SC), and professional decision-making competence (PR) – that form part of the competency model of the National Competency-based Catalogue of Learning Objectives for Undergraduate Medicine (NKLM). The feedback for students is structured in part according to these domains. The aim of our study is to examine if the results differentiated by competency domain show adequate measurement accuracy and if the results for the different domains also contain different information.Methods: The SKPTs for the years 2013 to 2017, taken by a total of 3,027 students, were examined. The measurement accuracy was determined using the coefficient glb (greatest bound to reliability) and the standard error of measurement; discriminant analysis of the principal components was carried out to demonstrate differentiation between the competency domains.Results: The reliability of the competency domains was above 0.8 for all SKPTs; exceptions to this were seen in two of the tests for CO and PR that had a reliability of 0.7–0.8. The results for all of the individual competency domains differed in their informational content compared to the overall of the other domains; the same applies for all pairwise comparisons, with the exceptions of CP and CT.Discussion: The SKPT feedback for students that is differentiated by competency domains basically fulfills the requirements for measurement reliability and distinctness. An improvement of the measurement quality for CO and PR and a better differentiation between CP and CT is desirable. 1. BackgroundCompetency-based medical education (CBME) has received special attention over the past 20 years in connection with curriculum development at medical schools and health policy , . As a consequence, this must also be reflected in educational assessments . This has led to a veritable flood of publications on competency-based testing (see the critical discussion of this in ), with a particular focus on practical and workplace-based methods to assess communication skills, professional competence, and so on. Less attention has been paid to assessments using traditional multiple-choice questions (MCQs) since, assuming that competencies are primarily action-based, less importance is placed on the simple measurement of knowledge. Nonetheless, knowledge is an essential prerequisite for taking competent action and can be measured using competency-based tests of knowledge . MCQs continue to offer substantial advantages to accomplish this. Due to the generally brief amount of time needed to answer a MCQ, it is possible to ask a large number of questions on a test that then, relative to the time needed, allows for distinctly better coverage and representation of the curricular content that is being tested than do open-ended essay formats, which are laborious to grade, or practical assessment formats. In addition, objectivity and a high reliability are easier to achieve than, for instance, with workplace-based assessments in which there is the risk that their seemingly higher validity is rendered void by insufficient standardization.As part of the BMBF-funded project Medical Education Research – Lehrforschung im Netz BW (MERLIN, http://www.merlin-bw.de), a competency-oriented student progress test (SKPT) was designed in 2013 by the Baden-Württemberg Center of Excellence for Assessment in Medicine (Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg).Progress tests are recognized and used in medical education to map learning progress over the course of medical study . To do this, students of all semester levels (year of study) are given the same test. If there is sufficient equivalence (same difficulty level) between the tests administered in consecutive years, students are able to see their progress over the course of their studies and receive corresponding feedback. Progress tests are administered at different medical schools in Germany . In general, these tests have two main functions: a) to give students ongoing feedback on their individual academic proficiency and b) to give medical schools the opportunity to monitor curricula, observe academic progress in different student cohorts and compare different curricula , .The questions on the SKPT derive from a two-dimensional blueprint whose axes contain the eight subjects identified by the German medical licensing regulations (ÄAppO) and the individual competencies that are grouped into five competency domains in the National Competency-based Catalogue of Learning Objectives for Undergraduate Medical Education (NKLM) . This blueprint was created by three inter-university and interdisciplinary expert groups who were tasked with grouping the domains in the NKLM in clusters referred to as “competency domains” and creating “subject groups” out of the subjects listed in the medical licensing regulations. These groups needed to reflect the best balance possible between preclinical and clinical subjects (see table 1 and table 2 ).A special aspect of the SKPT is that the questions are generated by students who are trained during multiple annual workshops. These students compose questions based on the competencies defined in the NKLM with reference to the subject groups in order to fill in the cells of the blueprint in table 2 . The number of existing questions per cell is documented in an ongoing manner so that, especially near the end of the process, only the questions still needed to fill the empty cells need to be formulated. See for a detailed description.The progress test is administered each year in November/December (as of 2015 in cooperation with the Institut für Kommunikations- und Prüfungsforschung gGmbH). All medical students enrolled at universities where the SKPT is offered can take the test. In 2017 the SKPT was administered at a total of 16 medical schools: Dresden, Erlangen-Nürnberg, Freiburg, Gießen, Hannover, Heidelberg, Homburg, Krems (Austria), Leipzig, Magdeburg, Mannheim, Marburg, LMU München, Tübingen, Ulm, and Witten/Herdecke. Participation is voluntary, except at the private Karl Landsteiner University in Krems, Austria, where participation is mandatory.The test consists of 120 Type A MCQs (one correct response out of four to five possible responses) plus the additional option of “I don’t know” and ten situational judgment test questions (SJT) to measure social competencies . An exception to this was the first progress test in 2013 that consisted of 144 Type A questions and no SJT.The “I don’t know” option is frequently used in progress tests and other formative tests to enable test-takers to explicitly document their knowledge deficits and to avoid any guessing based on the possible response options , .Example question from the Theoretical Clinical Competency domain (CT) on the 2017 SKPTYou are treating a 12-year-old child with pneumonia on the pediatric ward. The patient has a history of frequent respiratory complaints and infections. During an ultrasound examination you determine situs inversus, meaning that the organs are reversed from their normal positions. As part of a bronchoscopy you then send a biopsy for histological analysis.Which diagnosis are you expecting based on the histology?Defect in the cell-to-cell junctionsDefect in the kinociliaFormation of pseudostratified epitheliumAbsence of surface differentiationsDefect in the basement membraneI don’t knowThe correct answer is B. Additional examples are included in the attachment 1 . All of the SKPT questions and their explanations can be found on the publicly accessible webpage https://www.komp-pt.de/fragen-aus-dem-progresstest/.After taking the test all examinees receive feedback on their performance (number of points earned) which is differentiated according the subject groups and competency domains. This feedback is absolute (criteria-based), relative in comparison to the other participants at the same semester level (standards-based), and – if prior tests have been taken – longitudinal to show the gain in knowledge (progress) compared to earlier scores (ipsative).The aim of this study is to ascertain if the scores differentiated for each competency domain have sufficient measurement precision and if the questions of the different competency domains constitute empirically distinct clusters.Both of these issues are especially important for the usefulness of the feedback given to students: feedback is only beneficial if the graded performance has been reliably measured; and differentiated feedback is only meaningful if the individual scores reflect different content and thus are not redundant.In the terminology used by Campbell and Fiske , the second issue involves proving “discriminant validity” (also referred to as “discriminative validity”). The term “validity” has been the subject of intense discussion over the past 30 years. Many authors critically view the use of different terms to describe validity, e.g. predictive, convergent, discriminant; (a thorough description of this can be found in ). In the present study we use this term to refer to its “classic” definition: the questions assigned to competency domains form “scales” which measure the performance of different tasks (see the discussion in ). These “scales” are also supposed to be reflected in the responses of the progress test-takers. Basically, questions grouped together in the same domain should be answered similarly well (or badly). 1. HintergrundEine kompetenzbasierte medizinische Ausbildung („competency based medical education“ – CBME) ist insbesondere in den letzten 20 Jahren in den Fokus des Interesses der Curriculumsentwicklung an den medizinischen Fakultäten und der Gesundheitspolitik gerückt , . Konsequenterweise muss sich dies auch in den Leistungserfassungen widerspiegeln . Dies hat zu einer wahren Flut an Veröffentlichungen zum Thema kompetenzbasierten Prüfens geführt (man vergleiche hierzu die kritische Diskussion in ), wobei insbesondere praktische und arbeitsplatzbasierte Verfahren zur Erfassung von Kommunikationskompetenz, Handlungskompetenz u. ä. im Zentrum stehen. Weniger Aufmerksamkeit haben Prüfungen mittels traditioneller Multiple-Choice-Aufgaben in diesem Zusammenhang erfahren, da – ausgehend von Kompetenzen als primär handlungsbezogen – der reinen Erfassung von Wissen eine geringere Bedeutung zugesprochen wird. Dennoch ist Wissen eine wesentliche Voraussetzung kompetenter Handlungen, welches mittels „kompetenzorientierter Wissenstests“ erfasst werden kann. Hierfür bieten MC-Fragen nach wie vor erhebliche Vorteile: Auf Grund der im Allgemeinen kurzen Bearbeitungszeit einer Aufgabe kann in einer Prüfung eine hohe Zahl von Fragen gestellt werden, die damit – relativ zum Zeitaufwand – eine deutlich bessere Abdeckung und Repräsentativität für den zu prüfenden Lehrinhalt erlaubt als aufwändig zu korrigierende offene schriftliche Frageformate oder praktische Prüfungsformen. Zudem sind Objektivität und eine hohe Reliabilität leichter zu erreichen als etwa mit arbeitsplatzbasierten Prüfungen, bei denen die Gefahr besteht, dass ihre augenscheinlich höhere Validität durch ungenügende Standardisierung zunichte gemacht wird. Im Rahmen des vom BMBF geförderten Verbund-Projekts „Medical Education Research – Lehrforschung im Netz BW“ (MERLIN, http://www.merlin-bw.de/) wurde im Jahr 2013 vom Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg ein „studentischer kompetenzorientierter Progresstest“ (SKPT) konzipiert. Progresstests sind in der medizinischen Ausbildung anerkannte und eingesetzte Verfahren, um den Lernfortschritt im Verlauf des Studiums abzubilden . Dazu wird Studierenden aller Ausbildungsstufen (Studienjahre) derselbe Test vorgelegt. Bei hinreichender Sicherung der Äquivalenz der Tests (gleiche Schwierigkeit) in aufeinanderfolgenden Jahren, kann für den Studierenden sein Lernfortschritt im Laufe seiner Ausbildung abgebildet und entsprechendes Feedback gegeben werden. Progresstests werden auch in Deutschland an verschiedenen Fakultäten durchgeführt und haben Progresstests haben vornehmlich zwei Funktionen: Einerseits geben sie Studierenden ein fortlaufendes Feedback über ihren individuellen Wissensstand im Studium, andererseits bieten sie für die Fakultäten die Möglichkeit, Curricula zu monitoren, Leistungsfortschritte in unterschiedlichen Kohorten zu beobachten und verschieden gestalteten Curricula zu vergleichen , .Die Aufgabenzusammenstellung des SKPT beruht auf einem zweidimensionalen Blueprint, dessen eine Achse aus den inhaltlich in acht Gruppen zusammengefassten Fächern der Approbationsordnung und dessen andere Achse aus den in fünf Kompetenzbereiche gruppierten Einzelkompetenzen des Nationalen kompetenzbasierten Lernzielkatalogs Medizin (NKLM) besteht. Der Blueprint wurde von drei interfakultären und interdisziplinären Expertengruppen gebildet, die die Aufgabe hatten, die Gebiete des NKLM in Clustern von „Kompetenzbereichen“ zusammenzustellen sowie für die Leistungsnachweise der ÄAppO „Fächergruppen“ zu bilden, wobei diese Gruppen jeweils vorklinische und klinische Fächer möglichst ausgewogen enthalten sollten (siehe Tabelle 1 und Tabelle 2 ). Eine Besonderheit dieses Progresstests ist, dass die Aufgaben von Studierenden erstellt werden, die hierfür in mehrfach jährlich stattfindenden Workshops geschult werden. Die teilnehmenden Studierenden erstellen dabei anhand der im NKLM definierten Kompetenzen Fragen mit Bezug zu den Fächergruppen, um die Zellen des Blueprints in Tabelle 2 zu füllen. Die Zahl der vorhandenen Fragen je Zelle wird fortlaufend dokumentiert, so dass insbesondere gegen Ende des Prozesses der Aufgabenerstellung gezielt nur noch Fragen für nicht gefüllte Zellen formuliert werden müssen. Für eine detaillierte Darstellung sei auf verwiesen. Der Progresstest wird (seit 2015 in Kooperation mit dem Institut für Kommunikations- und Prüfungsforschung gGmbH) jährlich im November/Dezember durchgeführt. Teilnehmen können alle Studierenden der Humanmedizin aus Medizinischen Fakultäten, an denen der SKPT angeboten wird, im Jahr 2017 waren dies 16 Medizinische Fakultäten: Dresden, Erlangen-Nürnberg, Freiburg, Gießen, Hannover, Heidelberg, Homburg, Krems (A), Leipzig, Magdeburg, Mannheim, Marburg, LMU München, Tübingen, Ulm und Witten/Herdecke. Mit Ausnahme der Karl-Landsteiner-Privatuniversität in Krems war die Teilnahme freiwillig. Der Test besteht aus 120 MC-Fragen des Typs A (eine korrekte Antwort aus vier oder fünf Antwortoptionen) mit der zusätzlichen Antwortoption „weiß nicht“ sowie 10 Situational-Judgement-Aufgaben (SJT) zur Erfassung sozialer Kompetenzen . Ausnahme hiervon ist der erste Progresstest 2013 mit 144 Typ A-Aufgaben, jedoch ohne SJT. Die „weiß nicht“-Option wird in Progresstests wie auch in anderen formativen Tests häufig eingesetzt, um es den Teilnehmern zu ermöglichen, explizit ihr Wissensdefizit zu dokumentieren und das Raten unter den verfügbaren Antwortoptionen vermeiden zu können , .Beispiel einer Frage aus dem Kompetenzbereich „Klinisch-theoretische Kompetenz“ (KT) im SKPT 2017:Sie behandeln auf Ihrer pädiatrischen Station ein zwölfjähriges Kind mit Lungenentzündung, das schon häufig wegen Atemwegsbeschwerden und -infektionen in Behandlung war. Bei einer Ultraschalluntersuchung stellen Sie zudem einen Situs inversus, also eine gespiegelte Organausrichtung, fest. Daher senden Sie im Rahmen einer Bronchoskopie eine Biopsie in die Histologie.Welche Diagnose erwarten Sie sich von der histologischen Untersuchung?Defekt der Zell-Zell-KontakteDefekt der KinozilienAusbildung eines falschen EpithelsFehlen von OberflächendifferenzierungenDefekt der BasalmembranWeiß nichtDie korrekte Antwort lautet hier B. Weitere Beispiele sind als Anhang 1 angefügt, sämtliche Fragen der SKPTs mit Erläuterungen finden sich auf der öffentlich zugänglichen Internetseitehttps://www.komp-pt.de/fragen-aus-dem-progresstest/.Nach der Durchführung erhalten alle teilnehmenden Studierenden eine nach Fächergruppen und Kompetenzbereichen differenzierte Rückmeldung über ihre erbrachten Leistungen (erreichte Punktzahlen). Die Rückmeldung erfolgt absolut (kriteriumsbezogen), relativ im Vergleich zu den teilnehmenden Studierenden desselben Jahrgangs (normbezogen) sowie – bei mehrfacher Teilnahme – longitudinal zur Darstellung des Leistungszuwachses (Progress) im Vergleich zu den früheren Ergebnissen (ipsativ). Ziel der Studie: Es soll geprüft werden, ob die nach Kompetenzbereichen differenzierten Leistungserfassungen jeweils eine hinreichende Messgenauigkeit aufweisen sowie durch die unterschiedlichen Aufgaben der Kompetenzbereiche empirisch voneinander unterschiedene Aufgabengruppen gebildet werden.Beides ist insbesondere für die Nützlichkeit der Rückmeldungen an die teilnehmenden Studierenden von Bedeutung: Rückmeldungen sind nur dann brauchbar, wenn die zu beurteilenden Leistungen zuverlässig erfasst sind. Differenzierte Rückmeldungen machen nur dann Sinn, wenn die verschiedenen Einzelresultate auch Unterschiedliches beinhalten, also nicht redundant sind. In der Terminologie von Campbell und Fiske handelt es sich bei der Fragestellung (2) um den Nachweis der „Diskriminanzvalidität“ (auch „diskriminative Validität“). Der Begriff der „Validität“ war in den letzten 30 Jahren Gegenstand intensiver Diskussionen. Von vielen Autoren wird die Verwendung der unterschiedlichen Validitätsbegriffe (z. B. prädiktive, konvergente, diskriminative ... Validität) kritisch gesehen (eine eingehende Darstellung hierzu findet sich in ). In der vorliegenden Studie soll er dennoch in seiner „klassischen“ Bedeutung Verwendung finden: Die den Kompetenzbereichen zugeordneten Aufgaben bilden „Skalen“, welche unterschiedliche Leistungen messen (vgl. die Diskussion in ). Diese „Skalen“ sollten sich damit auch in den Antworten der Testteilnehmerinnen und -teilnehmer widerspiegeln, im Wesentlichen sollten Aufgaben des gleichen Bereichs ähnlich gut (oder schlecht) beantwortet werden. 2. Methods2.1. Data collectionThe SKPT was administered once annually between 2013 and 2017. In the first two years the SKPT was taken as a paper-and-pencil test at each participating medical school; as of 2015 it is available online.Test announcement, student registration and conducting the progress test at each university are handled individually by each medical school. The overarching coordination is in the hands of the Baden-Württemberg Center of Excellence for Assessment in Medicine (Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg), which is housed at the Medical Faculty of Heidelberg. For more details on the administration of the test, please see , , , , .The SKPT is designed as a formative test that can be taken voluntarily. However, at the medical school in Krems, Austria, the SKPT is mandatory. Since it has been shown in various analyses (not presented here) that the Krems student group differs clearly from the voluntary participants at the other medical schools, the Austrian group has been excluded from the following analysis. A second exclusion criterion was the number of answered questions. The present study includes only those test-takers who answered at least 100 of the 120 questions, meaning that they marked one of the four or five possible answers or indicated that they did not know (see table 3 ). Only complete datasets have been included for the first two paper-based SKPTs from 2013 and 2014. Table 4 shows the number of participants in the analysis by year of study. The ten SJT questions from 2014 through 2017 did not fall within the scope of this study.Prior to taking the SKPT, the students consented to the use of their pseudonymized data for the purpose of quality assurance and academic research.2.2. Statistical analyses2.2.1. Evaluation of the questionsThe questions that were generated based on the blueprint were type-A MCQs with the additional option to respond with “I don’t know.” One point is assigned if the correct answer is chosen. For this analysis, incorrect responses, “I don’t know” and questions left blank were treated the same and assigned zero points (see for alternative grading approaches in which “I don’t know” and incorrect responses are treated differently). After test administration, there was a second review (post-review) of the questions, which was based on student comments and the statistical analysis. If it was determined that more than one response was possible for a question, the test-takers received one point if they had selected one of the correct answers. Based on the post-reviews, we had to exclude between three to eight questions on the SKPTs for the years 2013 to 2017 for being flawed (see table 3 ).2.2.2. Reliability and measurement precisionThe greatest lower bound of reliability (glb) is used to estimate the reliability of the competency domains , . This is also the optimal algebraic estimate of the reliability for non-homogenous scales (in this case, Cronbach’s α, as a measure of the internal consistency, yields an underestimation of reliability).Reliability is a relative measure of measurement precision based on the participant population; the standard error of measurement serves as an absolute measure of measurement precision and is calculated from the reliability and the standard deviation of the scale values for the examinees .When comparing students who are at the same semester level, reliability is relevant also as it refers to these particular subpopulations. In these cases, lower values are to be expected in comparison to the overall reliability since, assuming almost the same measurement error, the variance in the number of correctly answered questions among examinees at the same academic level is lower than the number for all examinees across all semester levels (see ).2.2.3. Delineating the competency domains (“discriminant validity”)Testing whether or not the different competency domains denote empirical differences becomes somewhat complex given the progress test’s design: the individual questions are not only assigned to one competency domain, but also to a subject or a subject group. As a consequence of this design, the constructs defined by the two axes of the blueprint already overlap each other (for a detailed explanation of construct overlap, see , among others). For this reason, we cannot assume that the competency domains are directly apparent in the data when applying methods of factor or cluster analysis (compare the factor analysis of the validity and reliability of competency constructs in ).Therefore, we chose Fisher’s linear discriminant analysis as the methodical approach. The objects in this case are the individual questions with the competency domain as the grouping variable. The number of points scored by the test-takers for the questions (response patterns) are the predictors. One problem here is that more people have participated than there are questions. Analogous to the approach taken for a principal component regression, data reduction was therefore carried out by determining the principal components. Linear discriminant analyses were then carried out with a reduced number of principal components. This “discriminant analysis of the principal components” (DAPC) is used for similar reasons in genetic analyses in which the number of predictors exceeds the number of objects to be classified (, see also note 2 below).The first analytical step (determining the principal components) does not involve any distributional assumptions. The extraction of the principal components serves to reduce the original data to a few components in the response patterns which best approximate the data according to the least squares criterion. Fisher’s linear discriminant analysis is a special case of linear discriminant analysis in which the a priori group sizes are assumed to be equal. In this special case, no normal distributional assumption is made for the analysis. Calculation of the p-values for the group comparisons (see below) is done using t-tests that in principle are based on normal distributional assumptions but are known to be robust to violations of these assumptions (we also performed a non-parametric test by means of a randomizing test whose results are substantially identical to the t-test presented here and are therefore not reported here for reasons of clarity).One question associated with the method of factor analysis and one that generally cannot be answered satisfactorily is the question concerning the determination of the number of principal components to be used. For the different SKPT, no consistent value over the years has been yielded by scree plots or from Onatski’s method , which is why we extracted ten principal components, meaning twice as many components as competency domains (the following results are less sensitive in relation to the number of the extracted components; analyses with more than six components yield nearly identical results).To answer the question if the individual competency domains are different from the entirety of all other domains, a one-against-the-rest analysis and a pairwise classification of all competency domains against each other (one-against-one) were carried out , . Tests of significance were done in each case by combining the individual p-values from the five progress tests for the years 2013 to 2017 using Fisher’s method (Fisher’s combined probability test). Significance was defined as α= 0.05. 2. Methoden2.1. DatenerhebungDie Durchführung des SKPT in den Jahren 2013-2017 erfolgte einmal jährlich. In den beiden ersten Jahren wurde der Test an den jeweiligen Fakultäten in Papierform durchgeführt, seit 2015 steht er online zur Verfügung. Die Ankündigung und Anmeldung der Studierenden sowie die Durchführung des Progresstests vor Ort erfolgte selbständig seitens der beteiligten medizinischen Fakultäten. Die übergeordnete Koordination lag beim „Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg“ an der Medizinischen Fakultät Heidelberg. Genauere Details zur Durchführung finden sich in , , , , . Der SKPT ist als formativer Test mit freiwilliger Teilnahme konzipiert. In der Fakultät in Krems ist der Test verpflichtend. Da sich in verschiedenen (hier nicht dargestellten) Analysen gezeigt hat, dass diese Studierendengruppe sich deutlich von den freiwilligen Teilnehmern aus den anderen Fakultäten unterscheidet, wurde diese Gruppe in den nachfolgenden Analysen nicht mit einbezogen. Weiteres Einschlusskriterium war die Zahl der beantworteten Aufgaben. In der vorliegenden Studie wurden nur die Teilnehmer berücksichtigt, die mindestens 100 der 120 Aufgaben bearbeitet haben, d.h. die eine der vier oder fünf Antwortoptionen oder „weiß nicht“ angegeben haben (siehe Tabelle 3 ). Aus den beiden ersten SKPTs im Papierformat der Jahre 2013 und 2014 wurden nur vollständige Datensätze einbezogen. Eine Aufteilung der Teilnehmer nach Studienjahr findet sich in Tabelle 4 . Die 10 Situational-Judgement-Aufgaben der Jahre 2014-2017 waren nicht Gegenstand der Studie. Die Teilnehmer am SKPT willigten vor Durchführung des Tests ein, dass ihre Daten in pseudoymisierter Form zur Qualitätssicherung und für wissenschaftliche Zwecke verwendet werden dürfen. 2.2. Statistische Analysen2.2.1. Bewertung der AufgabenDie nach dem Blueprint erstellten Aufgaben waren vom Typ A mit der zusätzliche Option „weiß nicht“. Bei Wahl der zutreffenden Antwort, wurde ein Punkt vergeben. Für die hier dargestellte Analyse wurden falsche Antworten und „weiß nicht“ sowie fehlende Antworten gleich behandelt und 0 Punkte vergeben (für alternative Bewertungsschemata, in denen „weiß nicht“ und Falschantworten unterschiedlich behandelt werden, s. ). Nach Durchführung des Tests erfolgte auf Grundlage von Teilnehmerkommentaren und der statistischen Auswertung eine zweite Begutachtung der Aufgaben (Post-Review). Stellte sich dabei heraus, dass bei einer Aufgabe mehrere Antworten zutreffend waren, erhielten die Teilnehmerinnen und Teilnehmer einen Punkt, wenn eine der korrekten Antworten gewählt wurde. Zwischen drei und acht Aufgaben in den SKPTs der Jahre 2013-2017 mussten nach dem Post-Review als fehlerhaft ausgeschlossen werden (siehe Tabelle 3 ).2.2.2. Reliabilität und MessgenauigkeitZur Abschätzung der Reliabilität der Kompetenzbereiche wird die „greatest lower bound to reliability“ (glb) verwendet , . Diese ist die algebraisch optimale Abschätzung der Reliabilität auch bei nicht-homogenen Skalen (in diesen Fällen liefert Cronbachs α als Maß der internen Konsistenz eine Unterschätzung der Reliabilität). Die Reliabilität ist ein auf die Teilnehmerpopulation bezogenes relatives Maß der Messgenauigkeit, als absolutes Maß der Messgenauigkeit dient der Standardmessfehler, welcher sich aus der Reliabilität und der Standardabweichung der Skalenwerte der Teilnehmer errechnet . Für den Vergleich mit Studierenden aus dem gleichen Studienjahr ist zusätzlich die Reliabilität bezogen auf diese Teilpopulationen von Relevanz. Hier sind gegenüber der Gesamtreliabilität niedrigere Werte zu erwarten, da (unter der Annahme annähernd gleicher Messfehler) die Varianz der Zahl der korrekten Antworten innerhalb der Teilnehmer des gleichen Studienjahrs niedriger als die aller Teilnehmer über die Studienjahre hinweg ist (vgl. hierzu ).2.2.3. Abgrenzung der Kompetenzbereiche („Diskriminanzvalidität“)Die Prüfung der Frage, ob die verschiedenen Kompetenzbereiche auch empirisch Unterschiedliches bezeichnen, gestaltet sich auf Grund des Konstruktionsprinzips des Progresstests etwas komplex: Die einzelnen Aufgaben sind nicht nur jeweils einem Kompetenzbereich sondern auch einem Fach oder einer Fachgruppe zugeordnet. Damit überlagern sich schon durch die Testkonstruktion bedingt die durch die beiden Achsen des Blueprint definierten Konstrukte („construct overlap“, nähere Erläuterungen hierzu finden sich z. B. in ). Daher ist nicht davon auszugehen, dass sich die Kompetenzbereiche mit faktoren-oder clusteranalytischen Verfahren direkt in den Daten abzeichnen (man vergleiche hierzu die faktoranalytische Untersuchung zur Validität und Reliabilität von Kompetenzkonstrukten in ). Als methodischer Ansatz wurde deshalb das Verfahren der linearen Diskriminanzanalyse nach Fisher gewählt. Die Objekte sind in diesem Fall die einzelnen Aufgaben mit dem Kompetenzbereich als Gruppierungsvariable. Die erreichten Punktzahlen der teilnehmenden Personen bei den Aufgaben („Lösungsmuster“) sind die Prädiktoren. Dabei stellt sich das Problem, dass mehr Personen teilgenommen haben als Aufgaben vorhanden sind. Analog zum Vorgehen bei einer Hauptkomponentenregression wurde deshalb eine Datenreduktion durch die Bestimmung von Hauptkomponenten vorgenommen. Die linearen Diskriminanzanalysen wurden danach mit einer verminderten Zahl von Hauptkomponenten durchgeführt. Diese „Diskriminanzanalyse der Hauptkomponenten“ („Discriminant analysis of principal components„’, DAPC) wird aus ähnlichen Gründen z. B. im Bereich genetischer Analysen eingesetzt, bei der die Zahl der Prädiktoren die der zu klassifizierenden Objekte übersteigt (, vgl. auch Anmerkung 2). Der erste Schritt der Auswertung (Bestimmung der Hauptkomponenten) beinhaltet keine Verteilungsannahmen. Die Extraktion der Hauptkomponenten dient zur Reduktion der Originaldaten auf wenige Komponenten in den Antwortmustern, die die Daten nach dem Kleinst-Quadrate-Kriterium bestmöglich approximieren. Die lineare Diskriminanzanalyse nach Fisher ist ein Spezialfall der linearen Diskriminanzanalyse, bei der die a priori-Gruppengrößen als gleich angenommen werden. In diesem Spezialfall wird keine Normalverteilungsannahme für die Daten getroffen. Die Bestimmung der p-Werte für die Gruppenvergleiche (s. u.) erfolgt mittels t-Tests, die zwar im Prinzip auf Normalverteilungsannahmen beruhen, jedoch bekanntlich robust gegenüber deren Verletzung sind (eine nicht-parametrische Testung mittels eines Randomisierungstests wurde ebenfalls durchgeführt, deren Ergebnisse sind substantiell mit den hier dargestellten t-Tests identisch und werden deshalb aus Gründen der Überschaubarkeit hier nicht berichtet).Eine aus der Faktorenanalyse bekannte und allgemein nicht zufriedenstellend zu beantwortende Frage ist die nach der Bestimmung der Zahl der zu verwendenden Hauptkomponenten. Für die hier untersuchten Progresstests ergab sich weder aus dem Scree-Test oder dem Verfahren von Onatski über die Jahre ein konsistenter Wert, weshalb zehn Hauptkomponenten, also doppelt so viele Komponenten wie Kompetenzbereiche, extrahiert wurden (die nachfolgend berichteten Ergebnisse sind wenig sensitiv gegenüber der Zahl der extrahierten Komponenten, es ergeben sich nahezu identische Resultate bei Analysen mit mehr als sechs Komponenten). Zur Beantwortung der Frage, ob die einzelnen Kompetenzbereiche sich vom Gesamt aller anderen Bereiche abheben, wurde eine Analyse „one against the rest“ sowie eine paarweise Klassifikation aller Kompetenzbereiche gegeneinander („one against one“) durchgeführt , . Signifikanztestungen erfolgten jeweils durch Kombination der einzelnen p-Werte aus den fünf Progresstests der Jahre 2013–2017 mittels der Methode von Fisher („Fisher’s combined probability test“). Als Signifikanzniveau wurde α=0.05 gewählt. 3. Results3.1. Reliability and measurement precisionThe number of questions, reliability coefficients glb, and the corresponding standard error of measurements (sem) are listed in table 5 ; a visual depiction of glb and sem over the years is presented in figure 1 .Practical clinical competence (CP) and theoretical clinical competence (CT) are measured as nearly stable with a high reliability (more than 0.90); (one notes that the number of the questions in these two competency domains is higher than in the other competency domains, see the blueprint). Scientific competence (SC) is likewise stable over time with a reliability of around 0.80-0.85. For professional decision-making competence (PR) and communicative competence (CO), a decrease to a reliability below 0.80 is seen for the last two years, most distinctly for communicative competence (CO) with a reliability of 0.73 for the 2017 progress test (see figure 1 , left diagram).For the standard error of measurement (see figure 1 , right diagram), a distinct reduction in 2014 is visible that can be traced to the fewer number of questions in comparison to the SKPT for 2013. Afterward, the standard error of measurements for all competency domains remain virtually the same since 2015. Here, too, varying numbers of questions in the competency domains must be taken into account; longer scales also have a larger absolute sem. This is also reflected in figure 1 (left): practical clinical competence (CP) and theoretical clinical competence (CT) are the longest scales (with 30 questions each on the blueprint), and scientific competence (SC) has the shortest scale with only 18 questions.The median values for the reliabilities in the subpopulations at the same semester level are presented in table 6 </PlainText></TextGroup><ImgLink imgNo="6" imgType="table"/> according to both year of study and competency domain. In addition, figure 2 <ImgLink imgNo="2" imgType="figure"/> shows the distribution of these 30 individual reliabilities for the different competency domains. While the measurement reliabilities for the majority of reliabilities for the practical clinical, theoretical clinical, and scientific competency domains (CP, CT, SC) are above 0.7 (CP 83%, SC 80%, CT 90%), these percentages are distinctly lower for communicative competence (CO) with 37% and for professional decision-making (PR) with 47%. In particular, for these individual SKPTs and semester levels it must be established that there are low reliabilities under 0.4 (see figure 2 <ImgLink imgNo="2" imgType="figure"/>). Low measurement reliabilities appear to be especially frequent for sixth-year students (percentages of the reliabilities over 0.7 for the first through fifth years of study: CO 44%, CP 84%, SC 84%, PR 56%, CT 96% (see table 6 <ImgLink imgNo="6" imgType="table"/>).</Pgraph><SubHeadline2>3.2. Delineation of the competency domains (“discriminant validity”)</SubHeadline2><SubHeadline3>3.2.1. Delineation of each competency domain in relation to all other domains</SubHeadline3><Pgraph>To provide examples, the results of the two-class discriminant analyses of a competency domain in relation to every other competency domain are presented in <TextGroup><PlainText>figure 3 </PlainText></TextGroup><ImgLink imgNo="3" imgType="figure"/> and figure 4 <ImgLink imgNo="4" imgType="figure"/> for the progress tests given in 2013 and 2017 (the results for 2014 to 2016 are very similar). On the ordinate axes are the values of the discriminant function of the individual questions in the form of a box plot. Clear overlapping in the box plots of two competency domains points to construct overlapping in the associated questions. When the boxes are clearly separated this indicates that the two groups of questions, and hence the two competency domains, are distinct from each other.</Pgraph><Pgraph>Thus, the questions belonging to scientific competence (SC) in all years form a clearly delineated cluster: it is highly probable that whoever answers one question from this competency domain correctly, also answers the other questions in this domain correctly (see figure 3 <ImgLink imgNo="3" imgType="figure"/>, diagram c and figure 4 <ImgLink imgNo="4" imgType="figure"/>, diagram c). In contrast, there is a high degree of overlapping between practical clinical competence (CP) and theoretical clinical competence (CT) (see figure 3 <ImgLink imgNo="3" imgType="figure"/>, diagrams b, e; and figure 4 <ImgLink imgNo="4" imgType="figure"/>, diagrams b, e).</Pgraph><Pgraph>For inferential statistical testing to see if the individual competency domains differ from the entirety of all other domains, the individual p-values for 2013 through 2017 were combined in Fisher’s probability test (one notes that the individual p-values are not used for significance testing). There are significant values for all five domains (see table 7 <ImgLink imgNo="7" imgType="table"/>).</Pgraph><SubHeadline3>3.2.2. Pairwise delineation of the competency domains</SubHeadline3><Pgraph>To provide examples of the ten possible paired comparisons, we present the values of the discriminant function of the questions for the comparison between practical clinical competence (CP) and theoretical clinical competence (CT) in figure 5 <ImgLink imgNo="5" imgType="figure"/>, and the values comparing scientific competence (SC) and theoretical clinical competence (CT) in figure 6 <ImgLink imgNo="6" imgType="figure"/>.</Pgraph><Pgraph>We present the p-values, combined from the individual values for the different SKPTs, for all paired comparisons in table 8 <ImgLink imgNo="8" imgType="table"/>. All of these pairwise comparisons are significant, with the exception of the comparison between the practical clinical (CP) and the theoretical clinical (CT) competency domains.</Pgraph><Pgraph>These significant differences remain even after applying the Bonferroni-Holm method to adjust the ten tests: for this, the individual p-values of the tests are ordered in ascending order according to size (p<Subscript>[1]</Subscript>≤p<Subscript>[2]</Subscript>≤…≤[<Subscript>10]</Subscript>). Significant are precisely those p<Subscript>[k]</Subscript> for which the inequalities p<Subscript>[i]</Subscript>≤α/(11 – i) are fulfilled for <Mark3>all</Mark3> i≤k. If an inequality is not achieved for any smaller p[i], then no larger p[k] can still be considered significant.</Pgraph><Pgraph>For eight of the tests the result is p<0.001, making these significant based on p<Subscript>[1]</Subscript>≤0.05/10, p<Subscript>[2]</Subscript>≤0.05/9, … p<Subscript>[8]</Subscript>≤0.05/3; in addition, p<Subscript>[9]</Subscript>=0.002≤0.05/2=0.025 is also significant. Only the p-value for the comparison between the competency domains CP and CT, which is p<Subscript>[10]</Subscript>=0.091, does not fulfill the condition p<Subscript>[10]</Subscript>≤0.05/1.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="3. Ergebnisse"> <MainHeadline>3. Ergebnisse</MainHeadline><SubHeadline2>3.1. Reliabilität und Messgenauigkeit</SubHeadline2><Pgraph>In Tabelle 5 <ImgLink imgNo="5" imgType="table"/> sind Aufgabenzahlen, Reliabilitätskoeffizienten glb und zugehörige Standardmessfehler sem aufgeführt, eine graphische Darstellung von glb und sem über die Jahre hinweg findet sich in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>.</Pgraph><Pgraph>„Klinisch-praktische Kompetenz“ (KP) und „Klinisch-theoretische Kompetenz“ (KT) werden annähernd stabil mit einer hohen Reliabilität (über 0.90) erfasst (man beachte dabei, dass die Zahl der Aufgaben in diesen beiden Kompetenzbereichen höher ist als in den anderen Kompetenzbereichen, s. Blueprint). Die „Wissenschaftskompetenz“ (WI) ist mit einer Reliabilität von etwa 0.80-0.85 ebenfalls über die Zeit hinweg stabil erhoben. Bei der „Professionellen Handlungskompetenz“ (PH) und der „Kommunikativen Kompetenz“ (KO) ist in den beiden letzten Jahren ein Abfall unter 0.80 festzustellen, am deutlichsten bei der „Kommunikativen Kompetenz“ (KO) mit einer Reliabilität von 0.73 im Progresstest 2017 (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, linke Abbildung). </Pgraph><Pgraph>Bei den Standardmessfehlern (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, rechte Abbildung) ist eine deutliche Verringerung mit dem Jahr 2014 sichtbar, die auf die geringere Zahl der Aufgaben gegenüber dem SKPT 2013 zurückzuführen ist. Danach bleiben die Standardmessfehler für alle Kompetenzbereiche seit 2015 jeweils nahezu gleich. Auch hier sind die unterschiedlichen Zahlen von Aufgaben in den Kompetenzbereichen zu berücksichtigen, längere Skalen haben auch einen absolut größeren Standardmessfehler. Diese Reihenfolge bildet sich auch in der Abbildung ab, „Klinisch-praktische Kompetenz“ (KP) und „Klinisch-theoretische Kompetenz“ (KT) sind die längsten Skalen (im Blueprint jeweils 30 Aufgaben), die „Wissenschaftskompetenz“ (WI) ist mit lediglich 18 Aufgaben die kürzeste Skala.</Pgraph><Pgraph>In Tabelle 6 <ImgLink imgNo="6" imgType="table"/> sind je Studienjahr und Kompetenzbereich die Mediane der Reliabilitäten in den Teilpopulationen mit gleicher Studiendauer aufgeführt. Zusätzlich zeigt Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> die Verteilungen dieser jeweils 30 Einzelreliabilitäten getrennt für die Kompetenzbereiche. Während für die Kompetenzbereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT bzw. WI) die Messzuverlässigkeiten in der Mehrzahl die Reliabilitäten über 0.7 liegen (KP 83%, WI 80%, KT 90%), sind diese Anteile bei der kommunikativen Kompetenz (KO) mit 37% und professionellem Handeln (PH) mit 47% deutlich niedriger. Insbesondere gibt es bei diesen einzelne SKPTs und Studienjahre, für die niedrige Reliabilitäten unter 0.4 zu konstatieren sind (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Insbesondere scheinen in der Gruppe des 6. Studienjahres gehäuft niedrige Messzuverlässigkeiten aufzutreten (Anteile der Reliabilitäten über 0.7 für die Studienjahre 1-5: KO 44%, KP 84%, WI 84%, PH 56%, KT 96%, siehe Tabelle 6 <ImgLink imgNo="6" imgType="table"/>).</Pgraph><SubHeadline2>3.2. Abgrenzung der Kompetenzbereiche („Diskriminanzvalidität“)</SubHeadline2><SubHeadline3>3.2.1. Abgrenzung der Kompetenzbereiche gegenüber jeweils allen anderen Bereichen</SubHeadline3><Pgraph>In Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> sind als Beispiele für die Progresstests der Jahre 2013 und 2017 die Ergebnisse der Zwei-Klassen-Diskriminanzanalysen eines Kompetenzbereichs jeweils gegenüber allen anderen Kompetenzbereichen dargestellt (die Ergebnisse der Jahre 2014 bis 2016 sind diesen sehr ähnlich). Auf der Ordinate sind die Werte der Diskriminanzfunktion der Einzelaufgaben als Boxplot abgetragen. Deutliche Überlagerungen der Boxplots zweier Kompetenzbereiche weisen auf Konstruktüberlappung bei den Aufgaben hin, bei deutlich separierten Boxen sind die Aufgabengruppen des zugehörigen Kompetenzbereichs von den anderen Aufgaben abzugrenzen. </Pgraph><Pgraph>So bilden die Aufgaben zur „Wissenschaftskompetenz“ (WI) in allen Jahren ein deutlich abgegrenztes Cluster, wer eine Aufgabe aus diesem Kompetenzbereich gelöst hat, hat auch mit höherer Wahrscheinlichkeit andere Aufgaben des Bereichs korrekt beantwortet (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>, Punkt c und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>, Punkt c). Hingegen ist bei der „Klinisch-praktischen Kompetenz“ (KP) und „Klinisch-theoretischen Kompetenz“ (KT) eine deutliche Konstruktüberlappung festzustellen (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>, Punkte b, e und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>, Punkte b, e). </Pgraph><Pgraph>Zur inferenzstatistischen Testung, ob sich die einzelnen Kompetenzbereiche vom Gesamt aller anderen Bereiche unterscheiden, wurden die einzelnen p-Werte der Jahre 2013–2017 mit dem Gesamttest nach Fisher kombiniert (man beachte, dass die einzelnen p-Werte nicht zu einer Signifikanztestung verwendet werden). Für alle fünf Bereiche ergeben sich signifikante Werte (siehe Tabelle 7 <ImgLink imgNo="7" imgType="table"/>). </Pgraph><SubHeadline3>3.2.2. Paarweise Abgrenzung der Kompetenzbereiche</SubHeadline3><Pgraph>Exemplarisch für die insgesamt 10 möglichen Paarvergleiche sind in Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> die Werte der Diskriminanzfunktion der Aufgaben für den Vergleich der „Klinisch-praktischen Kompetenz“ (KP) mit der „Klinisch-theoretischen Kompetenz“ (KT) sowie in Abbildung 6 <ImgLink imgNo="6" imgType="figure"/> die der „Wissenschaftskompetenz“ (WI) mit der „Klinisch-theoretischen Kompetenz“ (KT) dargestellt.</Pgraph><Pgraph>Die aus den Einzelwerten der verschiedenen Durchgänge des SKPT kombinierten Signifikanzwerte aller Paarvergleiche sind in Tabelle 8 <ImgLink imgNo="8" imgType="table"/> aufgeführt. Mit Ausnahme des klinisch-praktischen (KP) und des klinisch-theoretischen Kompetenzbereichs (KT) sind alle Paarvergleiche signifikant. </Pgraph><Pgraph>Die Signifikanzen bleiben auch nach Bonferroni-Holm-Adjustierung der zehn Tests erhalten:Hierzu werden die einzelnen p-Werte der Tests ihrer Größe nach aufsteigend angeordnet (p<Subscript>[1]</Subscript>≤p<Subscript>[2]</Subscript>≤,…≤p<Subscript>[10]</Subscript>). Als signifikant gelten genau die p [k] , bei denen für alle i≤k die Ungleichungen p<Subscript>[i]</Subscript>≤α/(11 – i) erfüllt sind. Ist nur für ein einziges kleineres p<Subscript>[i]</Subscript> die Ungleichung nicht erfüllt, kann kein größeres p<Subscript>[k]</Subscript> noch als signifikant gelten.</Pgraph><Pgraph>Bei acht der Tests ist p<0.001, somit sind diese wegen p<Subscript>[1]</Subscript>≤0.05/10, p<Subscript>[2]</Subscript>≤0.05/9, … p<Subscript>[8]</Subscript>≤0.05/3 signifikant, weiter ist p<Subscript>[9]</Subscript>=0.002≤0.05/2=0.025 ebenfalls signifikant. Lediglich der dem Vergleich der Kompetenzbereiche KP und KT zugeordnete p-Wert p<Subscript>[10]</Subscript>=0.091 erfüllt nicht die Bedingung p<Subscript>[10]</Subscript>=0.05/1.</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="4. Summary and discussion"> <MainHeadline>4. Summary and discussion</MainHeadline><Pgraph>The competency domains of practical clinical competence (CP), theoretical clinical competence (CT) and scientific competence (SC) have been reliably measured by five SKPTs over the years (reliability over 0.80). Not quite so satisfactory are the questions covering the domains of communicative competence (CO) and professional decision-making competence (PR), with reliabilities still over 0.73. The questions for the different competency domains also represent empirically different domains. One exception is seen in the groups of questions covering practical clinical and theoretical clinical competence, between which no delineation can be empirically demonstrated (p=0.091).</Pgraph><Pgraph>With few exceptions, the measurement reliabilities within the student cohorts by year of study show satisfactory values for the practical clinical, theoretical clinical and scientific competency domains (CP, CT, SC). Limitations are seen in the reliabilities of the domains communication and professional decision making (CO, PR), which frequently still do not reach 0.7. However, it must be noted that these domains are covered by only 22 and 20 questions, respectively, numbers that are generally inadequate for achieving a sufficiently high reliability using Type A MCQs even on the well-prepared summative, subject-specific tests given at medical schools.</Pgraph><Pgraph>It is thus shown that on competency-based knowledge tests the generation of questions to measure practically relevant knowledge is also possible with a limited number of questions and – using the terminology of Cronbach and Meehl <TextLink reference="2"></TextLink> – represent the different constructs in the blueprint intended for the competency domains.</Pgraph><Pgraph>The exceptions to this are the practical clinical and theoretical clinical competency domains (CP/CT), which, although they differ significantly from the other competency domains, do not differ from each other. Because the discriminant analysis applied here explicitly allows construct overlap, the fact that no delineation can be drawn between these two domains cannot serve as an explanation. The reason for this non-separability could be rules that are too vague to clearly assign a question to only one of the two domains. An alternative explanation could be that within the context of medical expertise these two domains are very strongly connected in terms of content and that this knowledge is largely acquired by students at parallel points in time. Despite the semantic differences of each domain, this would lead to no detection of an empirical difference in the test question responses: whoever has the knowledge to answer the questions in one domain also has the knowledge to answer the questions in the other.</Pgraph><Pgraph>Discriminant analysis of the principal components (DAPC) proved itself to be methodically suitable for empirically tracing the underlying structure of the blueprint axis for the competency domains.</Pgraph><Pgraph>One consequence arising from these results for future progress tests should be an attempt to improve the measurement reliability for competence in communicative (CO) and professional decision-making (PR). This could be achieved by increasing the number of questions for each domain. To avoid enlarging the scope of the SKPT, it would be conceivable to reduce the number of questions asked in the domains of practical clinical competence (CP) and theoretical clinical competence (CT). Delineation of the content of these two domains should also be verified. If empirical discrimination remains impossible to determine, then these two domains could be combined in the feedback given to students.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="4. Zusammenfassung und Diskussion"> <MainHeadline>4. Zusammenfassung und Diskussion</MainHeadline><Pgraph>Die Kompetenzbereiche „Klinisch-praktische Kompetenz“ (KP), „Klinisch-theoretische Kompetenz“ (KT) und „Wissenschaftskompetenz“ (WI) wurden mit den fünf SKPTs über die Jahre hinweg reliabel erfasst (Reliabilität über 0.80) Nicht ganz so zufriedenstellend sind die Aufgaben zu den Bereichen „Kommunikative Kompetenz“ (KO) und „Professionelle Handlungskompetenz“ (PH) mit Reliabilitäten noch über 0.73. Die Aufgaben zu den verschiedenen Kompetenzbereichen repräsentieren auch empirisch unterschiedliche Bereiche. Eine Ausnahme bilden die Aufgabengruppen zum klinisch-praktischen und klinisch-theoretischen Kompetenzbereich, für die keine Abgrenzung voneinander empirisch nachzuweisen ist (p=0.091). </Pgraph><Pgraph>Die Messzuverlässigkeiten innerhalb der Jahrgangskohorten weisen, von wenigen Ausnahmen abgesehen, für die Bereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT, WI) zufriedenstellende Werte auf. Einschränkungen sind wie oben bei den Bereichen Kommunikation und professionellem Handeln (KO, PH) festzustellen, bei denen die Reliabilitäten doch häufig 0.7 nicht erreicht. Dabei muss jedoch berücksichtigt werden, dass diese Bereiche lediglich mit 22 bzw. 20 Aufgaben abgedeckt werden, was auch bei gut vorbereiteten summativen Fachprüfungen an den Fakultäten im Allgemeinen nicht ausreicht, mit Fragen des Typs A eine hinreichend hohe Reliabilität zu erreichen.</Pgraph><Pgraph>Damit ist gezeigt, dass in kompetenzorientierten Wissenstests die Erstellung von Aufgaben zur Erfassung von handlungsrelevantem Wissen auch bei begrenzter Zahl von Aufgaben möglich ist und – in der Terminologie von Cronbach und Meehl <TextLink reference="2"></TextLink> – die im Blueprint intendierten unterschiedlichen Konstrukte für die Kompetenzbereiche abbilden. </Pgraph><Pgraph>Ausnahme hiervon sind der klinisch-praktische und der klinisch-theoretische Kompetenzbereich (KP/KT), die sich zwar signifikant von den anderen Kompetenzbereichen, nicht aber untereinander unterscheiden. Die Tatsache, dass die beiden Bereiche nicht voneinander abzugrenzen sind, kann auf Grund des verwendeten Verfahrens der Diskriminanzanalyse, das explizit ein „construct overlap“ erlaubt, nicht als Erklärung dienen. Grund für die Nichtseparierbarkeit könnte eine zu wenig eindeutige Vorgabe für die Klassierung der Aufgaben in die beiden Bereiche sein. Eine alternative Erklärungsmöglichkeit bestünde darin, dass diese im Sinn einer fachlichen Kompetenz stärker inhaltlich zusammenhängen und dass bei den teilnehmenden Studierenden die Kenntnisse in beiden Bereichen zum großen Teil zeitlich parallel erworben werden. Dies würde dazu führen, dass trotz semantischer Verschiedenheit der beiden Bereiche, kein empirischer Unterschied bei den Lösungsmustern nachweisbar ist: wer bei den Aufgaben eines Bereichs gute Kenntnisse besitzt, besitzt sie auch bei denen des anderen. </Pgraph><Pgraph>Methodisch hat sich die Diskriminanzanalyse der Hauptkomponenten (DAPC) als geeignet erwiesen, die zugrundeliegende Struktur der Achse „Kompetenzbereiche“ des Blueprints empirisch nachzuzeichnen. </Pgraph><Pgraph>Als Konsequenz aus den Ergebnissen sollte für zukünftige Progresstests eine Verbesserung der Messzuverlässigkeit der Kompetenzbereiche „kommunikative“ (KO) und „professionelle Handlungskompetenz“ (PH) angestrebt werden. Dies könnte etwa mit einer Erhöhung der zugehörigen Zahl von Aufgaben erreicht werden. Um den Umfang des SKPT nicht zu vergrößern, wäre eine Verminderung der Aufgabenzahl für den „klinisch-praktischen“ (KP) und „klinisch-theoretischen“ (KT) Bereich denkbar. Die inhaltliche Abgrenzung dieser beiden Bereiche sollte ebenfalls geprüft werden. Lässt sich auch hier keine empirische Trennung erreichen, könnten diese für die Rückmeldung an die teilnehmenden Studierenden auch zusammengefasst werden. </Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Notes"> <MainHeadline>Notes</MainHeadline><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Parts of the study concerning the 2013 and 2014 progress tests were reported at the 2014 GMA conference in Hamburg and at RIME 2015 in Munich <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>.</ListItem><ListItem level="1" levelPosition="2" numString="2.">The authors are unaware of an original source on discriminant analysis of principal components; the earliest mention we found is in a paper on the distribution of larger mammals in a national park in Tanzania <TextLink reference="16"></TextLink>.</ListItem></OrderedList></Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Anmerkungen"> <MainHeadline>Anmerkungen</MainHeadline><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Teile des Inhalts der Studie für die Progresstests 2013 und 2014 wurden auf der Tagung der GMA 2014 in Hamburg und der RIME 2015 in München berichtet <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. </ListItem><ListItem level="1" levelPosition="2" numString="2.">Eine Originalquelle zur Diskriminanzanalyse von Hauptkomponenten ist den Autoren nicht bekannt, die älteste von uns gefundene Erwähnung findet sich in einer Arbeit zur Verteilung großer Säugetiere in einem Nationalpark in Tansania <TextLink reference="16"></TextLink>. </ListItem></OrderedList></Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Funding"> <MainHeadline>Funding</MainHeadline><Pgraph>This study was undertaken within the scope of the MERLIN II project that is funded by the Federal Ministry of Education and Research (01PL17011C).</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Förderung"> <MainHeadline>Förderung</MainHeadline><Pgraph>Die Arbeit entstand im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Projekts MERLIN II (01PL17011C).</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Competing interests"> <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Interessenkonflikt"> <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock> <References linked="yes"> <Reference refNo="1"> <RefAuthor>Campbell DT</RefAuthor> <RefAuthor>Fiske DW</RefAuthor> <RefTitle>Convergent and discriminant validation by the multitrait-multimethod matrix</RefTitle> <RefYear>1959</RefYear> <RefJournal>Psychol Bull</RefJournal> <RefPage>81-105</RefPage> <RefTotal>Campbell DT, Fiske DW. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol Bull. 1959;56(2):81-105. DOI: 10.1037/h0046016</RefTotal> <RefLink>https://doi.org/10.1037/h0046016</RefLink> </Reference> <Reference refNo="2"> <RefAuthor>Cronbach LJ</RefAuthor> <RefAuthor>Meehl P E</RefAuthor> <RefTitle>Construct validity in psychological tests</RefTitle> <RefYear>1955</RefYear> <RefJournal>Psychol Bull</RefJournal> <RefPage>281-302</RefPage> <RefTotal>Cronbach LJ, Meehl P E. Construct validity in psychological tests. Psychol Bull. 1955;52(4):281-302. DOI: 10.1037/h0040957</RefTotal> <RefLink>https://doi.org/10.1037/h0040957</RefLink> </Reference> <Reference refNo="3"> <RefAuthor>Frank JR</RefAuthor> <RefAuthor>Snell LS</RefAuthor> <RefAuthor>Cate OT</RefAuthor> <RefAuthor>Holmboe ES</RefAuthor> <RefAuthor>Carraccio C</RefAuthor> <RefAuthor>Swing SR</RefAuthor> <RefAuthor>Harris P</RefAuthor> <RefAuthor>Glasgow NJ</RefAuthor> <RefAuthor>Campbell C</RefAuthor> <RefAuthor>Dath D</RefAuthor> <RefAuthor>Harden RM</RefAuthor> <RefAuthor>Iobst W</RefAuthor> <RefAuthor>Long DM</RefAuthor> <RefAuthor>Mungroo R</RefAuthor> <RefAuthor>Richardson DL</RefAuthor> <RefAuthor>Sherbino J</RefAuthor> <RefAuthor>Silver I</RefAuthor> <RefAuthor>Taber S</RefAuthor> <RefAuthor>Talbot M</RefAuthor> <RefAuthor>Harris KA</RefAuthor> <RefTitle>Competency-based medical education: theory to practice</RefTitle> <RefYear>2010</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>638-645</RefPage> <RefTotal>Frank JR, Snell LS, Cate OT, Holmboe ES, Carraccio C, Swing SR, Harris P, Glasgow NJ, Campbell C, Dath D, Harden RM, Iobst W, Long DM, Mungroo R, Richardson DL, Sherbino J, Silver I, Taber S, Talbot M, Harris KA. Competency-based medical education: theory to practice. Med Teach. 2010;32(8):638-645. DOI: 10.3109/0142159X.2010.501190</RefTotal> <RefLink>https://doi.org/10.3109/0142159X.2010.501190</RefLink> </Reference> <Reference refNo="4"> <RefAuthor>Hahn EG</RefAuthor> <RefAuthor>Fischer MR</RefAuthor> <RefTitle>Nationaler Kompetenzbasierter Lernzielkatalog Medizin (NKLM) für Deutschland: Zusammenarbeit der Gesellschaft für Medizinische Ausbildung (GMA) und des Medizinischen Fakultätentages (MFT)</RefTitle> <RefYear>2009</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc35</RefPage> <RefTotal>Hahn EG, Fischer MR. Nationaler Kompetenzbasierter Lernzielkatalog Medizin (NKLM) für Deutschland: Zusammenarbeit der Gesellschaft für Medizinische Ausbildung (GMA) und des Medizinischen Fakultätentages (MFT). GMS Z Med Ausbild. 2009;26(3):Doc35. DOI: 10.3205/zma000627</RefTotal> <RefLink>https://doi.org/10.3205/zma000627</RefLink> </Reference> <Reference refNo="5"> <RefAuthor>Holmboe ES</RefAuthor> <RefAuthor>Sherbino J</RefAuthor> <RefAuthor>Long DM</RefAuthor> <RefAuthor>Swing SR</RefAuthor> <RefAuthor>Frank JR</RefAuthor> <RefTitle>The role of assessment in competency based medical education</RefTitle> <RefYear>2010</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>676-682</RefPage> <RefTotal>Holmboe ES, Sherbino J, Long DM, Swing SR, Frank JR.The role of assessment in competency based medical education. Med Teach. 2010;32(8):676-682. DOI: 10.3109/0142159X.2010.500704</RefTotal> <RefLink>https://doi.org/10.3109/0142159X.2010.500704</RefLink> </Reference> <Reference refNo="6"> <RefAuthor>Hughes DJ</RefAuthor> <RefTitle>Psychometric validity: Establishing the accuracy and appropriateness of psychometric measures</RefTitle> <RefYear>2018</RefYear> <RefBookTitle>Wiley handbook of psychometric testing: A multidisciplinary approach to survey, scale, and test development</RefBookTitle> <RefPage></RefPage> <RefTotal>Hughes DJ. Psychometric validity: Establishing the accuracy and appropriateness of psychometric measures. In: Irwing P, Booth T,Hughes DJ, editors. Wiley handbook of psychometric testing: A multidisciplinary approach to survey, scale, and test development. Hoboken, NJ: Wiley; 2018. DOI: 10.1002/9781118489772.ch24</RefTotal> <RefLink>https://doi.org/10.1002/9781118489772.ch24</RefLink> </Reference> <Reference refNo="7"> <RefAuthor>Jackson</RefAuthor> <RefAuthor>P</RefAuthor> <RefAuthor>Agunwamba</RefAuthor> <RefAuthor>C</RefAuthor> <RefTitle>Lower bounds for the reliability of the total score on a test composed of non-homogeneous items I: Algebraic lower bounds</RefTitle> <RefYear>1977</RefYear> <RefJournal>Psychomet</RefJournal> <RefPage>567-578</RefPage> <RefTotal>Jackson, P, Agunwamba, C. Lower bounds for the reliability of the total score on a test composed of non-homogeneous items I: Algebraic lower bounds. Psychomet. 1977;42(4):567-578. DOI: 10.1007/BF02295979</RefTotal> <RefLink>https://doi.org/10.1007/BF02295979</RefLink> </Reference> <Reference refNo="8"> <RefAuthor>Jombart T</RefAuthor> <RefAuthor>Devillard S</RefAuthor> <RefAuthor>Balloux F</RefAuthor> <RefTitle>Discriminant analysis of principal components: a new method for the analysis of genetically structured populations</RefTitle> <RefYear>2010</RefYear> <RefJournal>BMC Gen</RefJournal> <RefPage>94</RefPage> <RefTotal>Jombart T, Devillard S, Balloux F. Discriminant analysis of principal components: a new method for the analysis of genetically structured populations. BMC Gen. 2010;11:94. DOI: 10.1186/1471-2156-11-94</RefTotal> <RefLink>https://doi.org/10.1186/1471-2156-11-94</RefLink> </Reference> <Reference refNo="9"> <RefAuthor>Lord FM</RefAuthor> <RefAuthor>Novick MR</RefAuthor> <RefTitle></RefTitle> <RefYear>1968</RefYear> <RefBookTitle>Statistical theories of mental test scores</RefBookTitle> <RefPage></RefPage> <RefTotal>Lord FM, Novick MR. Statistical theories of mental test scores. Reading, Mass.: Addison-Welsey; 1968.</RefTotal> </Reference> <Reference refNo="10"> <RefAuthor>Lotte F</RefAuthor> <RefAuthor>Bougrain L</RefAuthor> <RefAuthor>Cichocki A</RefAuthor> <RefAuthor>Clerc M</RefAuthor> <RefAuthor>Congedo M</RefAuthor> <RefAuthor>Rakotomamonjy A</RefAuthor> <RefAuthor>Yger F</RefAuthor> <RefTitle>A Review of Classification Algorithms for EEG-based Brain-Computer Interfaces: A 10-year Update</RefTitle> <RefYear>2018</RefYear> <RefJournal>J Neural Eng</RefJournal> <RefPage>031005</RefPage> <RefTotal>Lotte F, Bougrain L, Cichocki A, Clerc M, Congedo M, Rakotomamonjy A, Yger F. A Review of Classification Algorithms for EEG-based Brain-Computer Interfaces: A 10-year Update. J Neural Eng. 2018;15(3):031005. DOI: 10.1088/1741-2552/aab2f2</RefTotal> <RefLink>https://doi.org/10.1088/1741-2552/aab2f2</RefLink> </Reference> <Reference refNo="11"> <RefAuthor>Lurie</RefAuthor> <RefAuthor>SJ</RefAuthor> <RefTitle>History and practice of competency-based assessment</RefTitle> <RefYear>2012</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>49-57</RefPage> <RefTotal>Lurie, SJ. History and practice of competency-based assessment. Med Educ. 2012;46(1):49-57. DOI: 10.1111/j.1365-2923.2011.04142.x</RefTotal> <RefLink>https://doi.org/10.1111/j.1365-2923.2011.04142.x</RefLink> </Reference> <Reference refNo="12"> <RefAuthor>McGill DA</RefAuthor> <RefAuthor>van der Vleuten CP</RefAuthor> <RefAuthor>Clarke MJ</RefAuthor> <RefTitle>A critical evaluation of the validity and the reliability of global competency constructs for supervisor assessment of junior medical trainees</RefTitle> <RefYear>2013</RefYear> <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal> <RefPage>701-725</RefPage> <RefTotal>McGill DA, van der Vleuten CP, Clarke MJ. A critical evaluation of the validity and the reliability of global competency constructs for supervisor assessment of junior medical trainees. Adv Health Sci Educ Theory Pract. 2013;18(4):701-725. DOI: 10.1007/s10459-012-9410-z</RefTotal> <RefLink>https://doi.org/10.1007/s10459-012-9410-z</RefLink> </Reference> <Reference refNo="13"> <RefAuthor>McHarg J</RefAuthor> <RefAuthor>Bradley P</RefAuthor> <RefAuthor>Chamberlain S</RefAuthor> <RefAuthor>Ricketts C</RefAuthor> <RefAuthor>Searle J</RefAuthor> <RefAuthor>McLachlan JC</RefAuthor> <RefTitle>Assessment of progress tests</RefTitle> <RefYear>2005</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>221-227</RefPage> <RefTotal>McHarg J, Bradley P, Chamberlain S, Ricketts C, Searle J, McLachlan JC. Assessment of progress tests. Med Educ. 2005;39(2):221-227. DOI: 10.1111/j.1365-2929.2004.02060.x</RefTotal> <RefLink>https://doi.org/10.1111/j.1365-2929.2004.02060.x</RefLink> </Reference> <Reference refNo="14"> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefTitle>Empirische Struktur des kompetenzbasierten studentischen Progresstests: Reliabilität und diskriminante Validität von Kompetenzbereichen</RefTitle> <RefYear>2014</RefYear> <RefBookTitle>Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Hamburg, 25.-27.09.2014</RefBookTitle> <RefPage></RefPage> <RefTotal>Möltner A, Wagener S, Jünger J. Empirische Struktur des kompetenzbasierten studentischen Progresstests: Reliabilität und diskriminante Validität von Kompetenzbereichen. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Hamburg, 25.-27.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocV443. DOI: 10.3205/14gma308</RefTotal> <RefLink>https://doi.org/10.3205/14gma308</RefLink> </Reference> <Reference refNo="15"> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Timbil S</RefAuthor> <RefAuthor>Gornostayeva M</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefTitle>Empirical Structure of a Competency-Based Progress Test</RefTitle> <RefYear>2015</RefYear> <RefBookTitle>4th Research in Medical Education (RIME) Symposium 2015. München, 19.-21.03.2015</RefBookTitle> <RefPage>DocS1B3</RefPage> <RefTotal>Möltner A, Wagener S, Timbil S, Gornostayeva M, Jünger J. Empirical Structure of a Competency-Based Progress Test. In: 4th Research in Medical Education (RIME) Symposium 2015. München, 19.-21.03.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocS1B3. DOI: 10.3205/15rime14</RefTotal> <RefLink>https://doi.org/10.3205/15rime14</RefLink> </Reference> <Reference refNo="16"> <RefAuthor>Morton-Griffiths M</RefAuthor> <RefTitle>The numbers and distribution of large mammaly in Ruaha National Park, Tanzania</RefTitle> <RefYear>1975</RefYear> <RefJournal>E Afr Wildl J</RefJournal> <RefPage>121-140</RefPage> <RefTotal>Morton-Griffiths M. The numbers and distribution of large mammaly in Ruaha National Park, Tanzania. E Afr Wildl J. 1975;13:121-140. DOI: 10.1111/j.1365-2028.1975.tb00127.x</RefTotal> <RefLink>https://doi.org/10.1111/j.1365-2028.1975.tb00127.x</RefLink> </Reference> <Reference refNo="17"> <RefAuthor>Newton PE</RefAuthor> <RefAuthor>Shaw SD</RefAuthor> <RefTitle></RefTitle> <RefYear>2014</RefYear> <RefBookTitle>Validity in educational and psychological assessment</RefBookTitle> <RefPage></RefPage> <RefTotal>Newton PE, Shaw SD. Validity in educational and psychological assessment. Los Angeles: Sage; 2014. DOI: 10.4135/9781446288856</RefTotal> <RefLink>https://doi.org/10.4135/9781446288856</RefLink> </Reference> <Reference refNo="18"> <RefAuthor>Nouns ZM</RefAuthor> <RefAuthor>Georg W</RefAuthor> <RefTitle>Progress testing in German speaking countries</RefTitle> <RefYear>2010</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>467-470</RefPage> <RefTotal>Nouns ZM, Georg W. Progress testing in German speaking countries. Med Teach. 2010;32(6):467-470. DOI: 10.3109/0142159X.2010.485656</RefTotal> <RefLink>https://doi.org/10.3109/0142159X.2010.485656</RefLink> </Reference> <Reference refNo="19"> <RefAuthor>Onatski A</RefAuthor> <RefTitle>Testing hypotheses about the number of factors in large factor models</RefTitle> <RefYear>2009</RefYear> <RefJournal>Econometr</RefJournal> <RefPage>1447-1479</RefPage> <RefTotal>Onatski A. Testing hypotheses about the number of factors in large factor models. Econometr. 2009;77(5):1447-1479. DOI: 10.3982/ECTA6964</RefTotal> <RefLink>https://doi.org/10.3982/ECTA6964</RefLink> </Reference> <Reference refNo="20"> <RefAuthor>Patterson F</RefAuthor> <RefAuthor>Zibarras L</RefAuthor> <RefAuthor>& Ashworth V</RefAuthor> <RefTitle>Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100</RefTitle> <RefYear>2016</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>3-17</RefPage> <RefTotal>Patterson F, Zibarras L, & Ashworth V. Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100. Med Teach. 2016;38(1):3-17. DOI: 10.3109/0142159X.2015.1072619</RefTotal> <RefLink>https://doi.org/10.3109/0142159X.2015.1072619</RefLink> </Reference> <Reference refNo="21"> <RefAuthor>Raîche G</RefAuthor> <RefAuthor>Walls TA</RefAuthor> <RefAuthor>Magis D</RefAuthor> <RefAuthor>Riopel M</RefAuthor> <RefAuthor>Blais JG</RefAuthor> <RefTitle>Non-graphical solutions for Cattell's scree test</RefTitle> <RefYear>2013</RefYear> <RefJournal>Methodol</RefJournal> <RefPage>23-29</RefPage> <RefTotal>Raîche G, Walls TA, Magis D, Riopel M, Blais JG. Non-graphical solutions for Cattell's scree test. Methodol. 2013;9(1):23-29. DOI: 10.1027/1614-2241/a000051</RefTotal> <RefLink>https://doi.org/10.1027/1614-2241/a000051</RefLink> </Reference> <Reference refNo="22"> <RefAuthor>Ravesloot CJ</RefAuthor> <RefAuthor>Van der Schaaf MF</RefAuthor> <RefAuthor>Muijtjens AMM</RefAuthor> <RefAuthor>Haaring C</RefAuthor> <RefAuthor>Kruitwagen CL</RefAuthor> <RefAuthor>Beek FJ</RefAuthor> <RefAuthor>Bakker J</RefAuthor> <RefAuthor>Van Schaik JP</RefAuthor> <RefAuthor>Ten Cate TJ</RefAuthor> <RefTitle>The don't know option in progress testing</RefTitle> <RefYear>2015</RefYear> <RefJournal>Adv Health Sci Educ</RefJournal> <RefPage>1325-1338</RefPage> <RefTotal>Ravesloot CJ, Van der Schaaf MF, Muijtjens AMM, Haaring C, Kruitwagen CL, Beek FJ, Bakker J, Van Schaik JP, Ten Cate TJ. The don't know option in progress testing. Adv Health Sci Educ. 2015;20(5):1325-1338. DOI: 10.1007/s10459-015-9604-2</RefTotal> <RefLink>https://doi.org/10.1007/s10459-015-9604-2</RefLink> </Reference> <Reference refNo="23"> <RefAuthor>Schindler C</RefAuthor> <RefAuthor>Bauer J</RefAuthor> <RefAuthor>Strasser A</RefAuthor> <RefAuthor>Schlomske-Bodenstein N</RefAuthor> <RefAuthor>Seidel T</RefAuthor> <RefAuthor>Prenzel M</RefAuthor> <RefTitle>Prüfungen als Indikator für den Studienerfolg</RefTitle> <RefYear>2015</RefYear> <RefBookTitle>Handbuch Studienerfolg</RefBookTitle> <RefPage>62-79</RefPage> <RefTotal>Schindler C, Bauer J, Strasser A, Schlomske-Bodenstein N,Seidel T, Prenzel M. Prüfungen als Indikator für den Studienerfolg. In: Berthold C, Jorzik B, Meyer-Guckel V, editors. Handbuch Studienerfolg. Essen: Edition Stifterverband; 2015. p.62-79.</RefTotal> </Reference> <Reference refNo="24"> <RefAuthor>Schuwirth LW</RefAuthor> <RefAuthor>van der Vleuten CP</RefAuthor> <RefTitle>The use of progress testing</RefTitle> <RefYear>2012</RefYear> <RefJournal>Perspect Med Educ</RefJournal> <RefPage>24-30</RefPage> <RefTotal>Schuwirth LW, van der Vleuten CP. The use of progress testing. Perspect Med Educ. 2012;1(1):24-30. DOI: 10.1007/s40037-012-0007-2</RefTotal> <RefLink>https://doi.org/10.1007/s40037-012-0007-2</RefLink> </Reference> <Reference refNo="25"> <RefAuthor>Sijtsma K</RefAuthor> <RefTitle>On the use, the misuse, and the very limited usefulness of Cronbach's alpha</RefTitle> <RefYear>2009</RefYear> <RefJournal>Psychometrika</RefJournal> <RefPage>107-120</RefPage> <RefTotal>Sijtsma K. On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika. 2009;74(1):107-120. DOI: 10.1007/s11336-008-9101-0</RefTotal> <RefLink>https://doi.org/10.1007/s11336-008-9101-0</RefLink> </Reference> <Reference refNo="26"> <RefAuthor>Steinhaeuser J</RefAuthor> <RefAuthor>Chenot JF</RefAuthor> <RefAuthor>Roos M</RefAuthor> <RefAuthor>Ledig T</RefAuthor> <RefAuthor>Joos S</RefAuthor> <RefTitle>Competence-based curriculum development for general practice in Germany: a stepwise peer-based approach instead of reinventing the wheel</RefTitle> <RefYear>2013</RefYear> <RefJournal>BMC Res Notes</RefJournal> <RefPage>314</RefPage> <RefTotal>Steinhaeuser J, Chenot JF, Roos M, Ledig T, Joos S. Competence-based curriculum development for general practice in Germany: a stepwise peer-based approach instead of reinventing the wheel. BMC Res Notes. 2013;6(1):314. DOI: 10.1186/1756-0500-6-314</RefTotal> <RefLink>https://doi.org/10.1186/1756-0500-6-314</RefLink> </Reference> <Reference refNo="27"> <RefAuthor>Tax DM</RefAuthor> <RefAuthor>Duin RP</RefAuthor> <RefTitle>Using two-class classifiers for multiclass classification</RefTitle> <RefYear>2002</RefYear> <RefBookTitle>Proceedings of the 16th International Conference on Pattern Recognitions. Vol. 2; 2002 Aug 11-15; Quebec, Kanada</RefBookTitle> <RefPage>124-127</RefPage> <RefTotal>Tax DM, Duin RP. Using two-class classifiers for multiclass classification. In: Proceedings of the 16th International Conference on Pattern Recognitions. Vol. 2; 2002 Aug 11-15; Quebec, Kanada. IEEE Press; 2002. p.124-127. DOI:10.1109/ICPR.2002.1048253</RefTotal> <RefLink>https://doi.org/10.1109/ICPR.2002.1048253</RefLink> </Reference> <Reference refNo="28"> <RefAuthor>Van der Vleuten CP</RefAuthor> <RefAuthor>Verwijnen GM</RefAuthor> <RefAuthor>Wijnen WH</RefAuthor> <RefTitle>Fifteen years of experience with progress testing in a problem-based learning curriculum</RefTitle> <RefYear>1996</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>103-109</RefPage> <RefTotal>Van der Vleuten CP, Verwijnen GM, Wijnen WH. Fifteen years of experience with progress testing in a problem-based learning curriculum. Med Teach. 1996;18(2):103-109. DOI: 10.3109/01421599609034142</RefTotal> <RefLink>https://doi.org/10.3109/01421599609034142</RefLink> </Reference> <Reference refNo="33"> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Timbil S</RefAuthor> <RefAuthor>Gornostayeva M</RefAuthor> <RefAuthor>Schultz JH</RefAuthor> <RefAuthor>Brüstle P</RefAuthor> <RefAuthor>Mohr D</RefAuthor> <RefAuthor>Van der Beken A</RefAuthor> <RefAuthor>Better J</RefAuthor> <RefAuthor>Fries M</RefAuthor> <RefAuthor>Gottschalk M</RefAuthor> <RefAuthor>Günther J</RefAuthor> <RefAuthor>Herrmann L</RefAuthor> <RefAuthor>Kreisel C</RefAuthor> <RefAuthor>Moczko T</RefAuthor> <RefAuthor>Illg C</RefAuthor> <RefAuthor>Jassowicz A</RefAuthor> <RefAuthor>Müller A</RefAuthor> <RefAuthor>Niesert M</RefAuthor> <RefAuthor>Strübing F</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefTitle>Development of a competencybased formative progress test with student-generated MCQs: Results from a multi-centre pilot study</RefTitle> <RefYear>2015</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc46</RefPage> <RefTotal>Wagener S, Möltner A, Timbil S, Gornostayeva M, Schultz JH, Brüstle P, Mohr D, Van der Beken A, Better J, Fries M, Gottschalk M, Günther J, Herrmann L, Kreisel C, Moczko T, Illg C, Jassowicz A, Müller A, Niesert M, Strübing F, Jünger J. Development of a competencybased formative progress test with student-generated MCQs: Results from a multi-centre pilot study. GMS Z Med Ausbild. 2015;32(4):Doc46. DOI: 10.3205/zma000988</RefTotal> <RefLink>https://doi.org/10.3205/zma000988</RefLink> </Reference> <Reference refNo="29"> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Fleig A</RefAuthor> <RefAuthor>Möltner A</RefAuthor> <RefTitle>Warum sind im studentischen kompetenzorientierten Progresstest in jedem Studienjahr etwa 25% derAntworten falsch?</RefTitle> <RefYear>2017</RefYear> <RefBookTitle>Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017</RefBookTitle> <RefPage>Doc157</RefPage> <RefTotal>Wagener S, Fleig A, Möltner A. Warum sind im studentischen kompetenzorientierten Progresstest in jedem Studienjahr etwa 25% derAntworten falsch? In: Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. Doc157. DOI: 10.3205/17gma157</RefTotal> <RefLink>https://doi.org/10.3205/17gma157</RefLink> </Reference> <Reference refNo="30"> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Gaitzsch E</RefAuthor> <RefAuthor>Brass K</RefAuthor> <RefAuthor>Heid J</RefAuthor> <RefAuthor>Herrmann L</RefAuthor> <RefAuthor>Günther J</RefAuthor> <RefAuthor>Ney S</RefAuthor> <RefAuthor>Müller A</RefAuthor> <RefAuthor>Dikmen HO</RefAuthor> <RefAuthor>Zimmermann K</RefAuthor> <RefAuthor>Yilmaz OK</RefAuthor> <RefAuthor>Wittstock F</RefAuthor> <RefAuthor>Alhalabi O</RefAuthor> <RefAuthor>Park J</RefAuthor> <RefAuthor>Harapan BN</RefAuthor> <RefAuthor>Kollmeier B</RefAuthor> <RefAuthor>Ronellenfitsch L</RefAuthor> <RefAuthor>Mayer J</RefAuthor> <RefAuthor>Baumann T</RefAuthor> <RefAuthor>Daunert L</RefAuthor> <RefAuthor>Brüstle P</RefAuthor> <RefAuthor>Mohr D</RefAuthor> <RefAuthor>Schüttpelz-Brauns K</RefAuthor> <RefAuthor>Van der Beken A</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefAuthor>Möltner A</RefAuthor> <RefTitle>Videofragen im studentischen kompetenzorientierten Progresstest</RefTitle> <RefYear>2017</RefYear> <RefBookTitle>Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017</RefBookTitle> <RefPage>Doc110</RefPage> <RefTotal>Wagener S, Gaitzsch E, Brass K, Heid J, Herrmann L, Günther J, Ney S, Müller A, Dikmen HO, Zimmermann K, Yilmaz OK, Wittstock F, Alhalabi O, Park J, Harapan BN, Kollmeier B, Ronellenfitsch L, Mayer J, Baumann T, Daunert L, Brüstle P, Mohr D, Schüttpelz-Brauns K, Van der Beken A, Jünger J, Möltner A. Videofragen im studentischen kompetenzorientierten Progresstest. In: Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. Doc110. DOI: 10.3205/17gma110</RefTotal> <RefLink>https://doi.org/10.3205/17gma110</RefLink> </Reference> <Reference refNo="31"> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Fleig A</RefAuthor> <RefAuthor>Feistner L</RefAuthor> <RefAuthor>Heid J</RefAuthor> <RefAuthor>Brass K</RefAuthor> <RefAuthor>Holz T</RefAuthor> <RefAuthor>Weber M</RefAuthor> <RefAuthor>Pflaum P</RefAuthor> <RefAuthor>Rogg D</RefAuthor> <RefAuthor>Kellermann F</RefAuthor> <RefAuthor>Berg L</RefAuthor> <RefAuthor>Breithaupt MH</RefAuthor> <RefAuthor>Dehmel L</RefAuthor> <RefAuthor>Grad A</RefAuthor> <RefAuthor>Xiang Jin J</RefAuthor> <RefAuthor>Hai-Ning Lu K</RefAuthor> <RefAuthor>Müller A</RefAuthor> <RefAuthor>Rinawi T</RefAuthor> <RefAuthor>Shang V</RefAuthor> <RefAuthor>Zimmermann K</RefAuthor> <RefAuthor>Alhalabi O</RefAuthor> <RefAuthor>Park J</RefAuthor> <RefAuthor>Grupp M</RefAuthor> <RefAuthor>Klauth A</RefAuthor> <RefAuthor>Lepper A</RefAuthor> <RefAuthor>Lichnock Z</RefAuthor> <RefAuthor>Mayer J</RefAuthor> <RefAuthor>Hollmann A</RefAuthor> <RefAuthor>Meuth C</RefAuthor> <RefAuthor>Siegel F</RefAuthor> <RefAuthor>Peitz N</RefAuthor> <RefAuthor>Brüstle P</RefAuthor> <RefAuthor>Mohr D</RefAuthor> <RefAuthor>Schüttpelz-Brauns K</RefAuthor> <RefAuthor>Würth G</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefAuthor>Burkert M</RefAuthor> <RefTitle>"Was will ich prüfen?" - Erweiterung des Blueprints im studentischen kompetenzorientierten Progresstest</RefTitle> <RefYear>2018</RefYear> <RefBookTitle>Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018</RefBookTitle> <RefPage>Doc19.5</RefPage> <RefTotal>Wagener S, Möltner A, Fleig A, Feistner L, Heid J, Brass K, Holz T, Weber M, Pflaum P, Rogg D, Kellermann F, Berg L, Breithaupt MH, Dehmel L, Grad A, Xiang Jin J, Hai-Ning Lu K, Müller A, Rinawi T, Shang V, Zimmermann K, Alhalabi O, Park J, Grupp M, Klauth A, Lepper A, Lichnock Z, Mayer J, Hollmann A, Meuth C, Siegel F, Peitz N, Brüstle P, Mohr D, Schüttpelz-Brauns K, Würth G, Jünger J, Burkert M. "Was will ich prüfen?" - Erweiterung des Blueprints im studentischen kompetenzorientierten Progresstest. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. Doc19.5. DOI: 10.3205/18gma338</RefTotal> <RefLink>https://doi.org/10.3205/18gma338</RefLink> </Reference> <Reference refNo="32"> <RefAuthor>Wagener S</RefAuthor> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Timbil S</RefAuthor> <RefAuthor>Fleig A</RefAuthor> <RefAuthor>Feistner L</RefAuthor> <RefAuthor>Heid J</RefAuthor> <RefAuthor>Brass K</RefAuthor> <RefAuthor>Burkert M</RefAuthor> <RefTitle>"Da bin ich mir sicher" -Confidence rating im studentischen kompetenzorientierten Progresstest</RefTitle> <RefYear>2018</RefYear> <RefBookTitle>Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018</RefBookTitle> <RefPage>Doc15.2</RefPage> <RefTotal>Wagener S, Möltner A, Timbil S, Fleig A, Feistner L, Heid J, Brass K, Burkert M. "Da bin ich mir sicher" -Confidence rating im studentischen kompetenzorientierten Progresstest [Bericht über Forschungsergebnisse]. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. Doc15.2. DOI: 10.3205/18gma067</RefTotal> <RefLink>https://doi.org/10.3205/18gma067</RefLink> </Reference> <Reference refNo="34"> <RefAuthor>Wrigley W</RefAuthor> <RefAuthor>van der Vleuten CP</RefAuthor> <RefAuthor>Freeman A</RefAuthor> <RefAuthor>Muijtjens A</RefAuthor> <RefTitle>A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71</RefTitle> <RefYear>2012</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>683-697</RefPage> <RefTotal>Wrigley W, van der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71. Med Teach. 2012;34(9):683-697. DOI: 10.3109/0142159X.2012.704437</RefTotal> <RefLink>https://doi.org/10.3109/0142159X.2012.704437</RefLink> </Reference> <Reference refNo="35"> <RefAuthor>Zmud RW</RefAuthor> <RefAuthor>Sampson JP</RefAuthor> <RefAuthor>Reardon RC</RefAuthor> <RefAuthor>Lenz JG</RefAuthor> <RefAuthor>Byrd TA</RefAuthor> <RefTitle>Confounding Effects of Construct Overlap: An Example from IS User Satisfaction Theory</RefTitle> <RefYear>1994</RefYear> <RefJournal>Inform Technol People</RefJournal> <RefPage>29-45</RefPage> <RefTotal>Zmud RW, Sampson JP, Reardon RC, Lenz JG, Byrd TA. Confounding Effects of Construct Overlap: An Example from IS User Satisfaction Theory. Inform Technol People. 1994;7(2):29-45. DOI: 10.1108/09593849410074061</RefTotal> <RefLink>https://doi.org/10.1108/09593849410074061</RefLink> </Reference> </References> <Media> <Tables> <Table format="png"> <MediaNo>1</MediaNo> <MediaID language="en">1en</MediaID> <MediaID language="de">1de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 1: Blueprint axes for the SKPT: assignment of the individual competencies in the National Competency-based Catalogue of Learning Objectives in Undergraduate Medicine (NKLM) to the competency domains of the competency-oriented student progress test (SKPT) and assignment of the subjects contained in the German medical licensing regulations (ÄAppO) to the subject groups.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 1: Blueprintachsen des SKPT: Zuordnung der Einzelkompetenzen des „Nationalen Kompetenzbasierten Lernzielkatalogs Medizin“ (NKLM) zu den Kompetenzbereichen des studentischen kompetenzbasierten Progresstests und Zuordnung der Fächer der ÄAppO zu den Fächergruppen.</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>2</MediaNo> <MediaID language="en">2en</MediaID> <MediaID language="de">2de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 2: Blueprint of the competency- oriented student progress test 2014-2017 (see tab. 1 for explanation of the competency domains and subject groups).</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 2: Blueprint des studentischen kompetenzbasierten Progresstests 2014-2017 (zur Erläuterung der Kompetenzbereiche und Fächergruppen siehe Tab. 1).</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>3</MediaNo> <MediaID language="en">3en</MediaID> <MediaID language="de">3de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 3: Format, number of items and number of test-takers for the SKPTs (excluding Krems medical school) in the present study. The datasets for examinees who answered at least 100 questions were included in the analysis. The number in parentheses in the last column indicates the number of examinees who answered all questions.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 3: Format, Zahl der Items und Teilnehmerzahlen der SKPTs (ohne die Fakultät Krems) in der vorliegenden Untersuchung. In die Analyse wurden die Datensätze der Teilnehmer aufgenommen, die mindestens 100 Aufgaben beantwortet haben. In der letzten Spalte ist in Klammern die Zahl der Teilnehmer aufgeführt, die alle Aufgaben bearbeitet haben.</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>4</MediaNo> <MediaID language="en">4en</MediaID> <MediaID language="de">4de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 4: Number of participants in the analysis by year of study</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 4: Aufteilung der Teilnehmer in der vorliegenden Untersuchung nach Studienjahren.</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>5</MediaNo> <MediaID language="en">5en</MediaID> <MediaID language="de">5de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 5: Number of questions (n</Mark1><Mark1><Subscript>A</Subscript></Mark1><Mark1>), reliability (coefficient glb) and standard error of measurement (sem) for the competency domains in the SKPTs for 201 –2017. Due to the exclusion of individual questions in the post-review, the numbers of questions per domain are sometimes less than intended in the blueprint (see table 2).</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 5: Anzahl der Aufgaben (n</Mark1><Mark1><Subscript>A</Subscript></Mark1><Mark1>), Reliabilität (Koeffizient glb) und Standardmessfehler (sem) der Kompetenzbereiche in den SKPTs der Jahre 2013–2017. Durch die Streichung einzelner Aufgaben im Post-Reviewverfahren sind die Anzahlen der Aufgaben je Bereich teilweise geringer als im Blueprint vorgesehen (siehe Tabelle 2).</Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>6</MediaNo> <MediaID language="en">6en</MediaID> <MediaID language="de">6de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 6: Median values of the reliabilities for each year of study and competency domain from each of the five SKPTs for 2013-2017.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 6: Mediane der Reliabilitäten je Studienjahr und Kompetenzbereich aus den jeweils fünf SKPTs der Jahre 2013-2017. </Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>7</MediaNo> <MediaID language="en">7en</MediaID> <MediaID language="de">7de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 7: p-values for the tests for difference between the values of the discriminant function of the questions in a competency domain of the progress tests 2013-2017 in relation to the questions for all other domains and for Fisher’s combined probability test (FCPT).</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 7: p-Werte der Tests auf Unterschied zwischen den Werten der Diskriminanzfunktion der Aufgaben eines Kompetenzbereichs der Progresstests 2013-2017 gegenüber den Aufgaben aller anderen Bereiche und kombinierter Gesamttest nach Fisher (Fisher’s combined probability test, FCPT). </Mark1></Pgraph></Caption> </Table> <Table format="png"> <MediaNo>8</MediaNo> <MediaID language="en">8en</MediaID> <MediaID language="de">8de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 8: Fisher’s combined probability test (FCPT) of the pairwise tests for difference in the values of the discriminant function between the questions of two competency domains.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 8: Kombinierte Signifikanztests nach Fisher (FCPT) der paarweisen Tests auf Unterschied der Werte der Diskriminanzfunktion zwischen den Aufgaben zweier Kompetenzbereiche.</Mark1></Pgraph></Caption> </Table> <NoOfTables>8</NoOfTables> </Tables> <Figures> <Figure format="png" height="324" width="735"> <MediaNo>1</MediaNo> <MediaID language="en">1en</MediaID> <MediaID language="de">1de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 1: Reliability glb (left) and standard error of measurement sem (right) for the competency domains in the progress tests 2013–2017.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 1: Reliabilität (links) und Standardmessfehler (rechts) der Kompetenzbereiche in den Progresstests 2013–2017.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="324" width="355"> <MediaNo>2</MediaNo> <MediaID language="en">2en</MediaID> <MediaID language="de">2de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 2: Reliabilities within year of study for the individual competency domains. Each box represents the 30 individual reliabilities of the five progress tests and six levels of study reflected in years of study.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 2: Reliabilitäten innerhalb der Studienjahre für die einzelnen Kompetenzbereiche. Jede „Box“ repräsentiert die 30 Einzelreliabilitäten der 5 Progresstests und 6 Studienjahre.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="481" width="749"> <MediaNo>3</MediaNo> <MediaID language="en">3en</MediaID> <MediaID language="de">3de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 3: Distributions of the discriminant function values for the questions in the competency domains after performing two-class discriminant analysis for each domain in relation to all other domains (one-against-the-rest) for the 2013 progress test.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 3: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche nach Durchführung einer Zwei-Klassen Diskriminanzanalyse jedes Bereichs gegenüber allen anderen („one against the rest“) für den Progresstest 2013.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="481" width="749"> <MediaNo>4</MediaNo> <MediaID language="en">4en</MediaID> <MediaID language="de">4de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 4: Distributions of the discriminant function values for the questions in the competency domains after performing two-class discriminant analysis for each domain in relation to all other domains (one-against-the-rest) for the 2017 progress test.</Mark1></Pgraph><Pgraph> </Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 4: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche nach Durchführung einer Zwei-Klassen Diskriminanzanalyse jedes Bereichs gegenüber alle anderen („one against the rest“) für den Progresstest 2017.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="481" width="749"> <MediaNo>5</MediaNo> <MediaID language="en">5en</MediaID> <MediaID language="de">5de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 5: Distributions of the discriminant function values for the questions in the practical clinical competency domain and the theoretical clinical competency domain after performing two-class discriminant analysis for the progress tests 2013–2017.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 5: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche „klinisch-praktisch“ und „klinisch-theoretisch“ nach Durchführung einer Zwei-Klassen-Diskriminanzanalyse für die Progresstests 2013–2017.</Mark1></Pgraph></Caption> </Figure> <Figure format="png" height="481" width="749"> <MediaNo>6</MediaNo> <MediaID language="en">6en</MediaID> <MediaID language="de">6de</MediaID> <Caption language="en"><Pgraph><Mark1>Figure 6: Distributions of the discriminant function values for the questions in the scientific competence domain and the theoretical clinical competence domain after performing two-class discriminant analysis for the progress tests 2013–2017.</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Abbildung 6: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche „Wissenschaftskompetenz“ und „klinisch-theoretische Kompetenz“ nach Durchführung einer Zwei-Klassen-Diskriminanzanalyse für die Progresstests 2013–2017.</Mark1></Pgraph></Caption> </Figure> <NoOfPictures>6</NoOfPictures> </Figures> <InlineFigures> <NoOfPictures>0</NoOfPictures> </InlineFigures> <Attachments> <Attachment> <MediaNo>1</MediaNo> <MediaID filename="zma001299.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment_1.pdf" size="259811" url="">1en</MediaID> <MediaID filename="zma001299.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang_1.pdf" size="390326" url="">1de</MediaID> <AttachmentTitle language="en">Examples of competency-specific questions from the 2017 competency-based progress test</AttachmentTitle> <AttachmentTitle language="de">Beispiele für Fragen aus den Kompetenzbereichen des studentischen kompetenzorientierten Progresstests 2017</AttachmentTitle> </Attachment> <NoOfAttachments>1</NoOfAttachments> </Attachments> </Media> </OrigData> </GmsArticle>