<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001299</Identifier>
    <IdentifierDoi>10.3205/zma001299</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0012993</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Measuring competency-relevant knowledge in the competency-oriented student progress test</Title>
      <TitleTranslated language="de">Erfassung kompetenzrelevanten Wissens im studentischen kompetenzorientierten Progresstest</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>M&#246;ltner</Lastname>
          <LastnameHeading>M&#246;ltner</LastnameHeading>
          <Firstname>Andreas</Firstname>
          <Initials>A</Initials>
          <AcademicTitle>Dr. phil.</AcademicTitle>
        </PersonNames>
        <Address language="en">Medical Faculty of Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Im Neuenheimer Feld 346, D-69120 Heidelberg, Germany<Affiliation>Medical Faculty of Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany</Affiliation></Address>
        <Address language="de">Medizinische Fakult&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Im Neuenheimer Feld 346, 69120 Heidelberg, Deutschland<Affiliation>Medizinische Fakult&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation></Address>
        <Email>andreas.moeltner&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Wagener</Lastname>
          <LastnameHeading>Wagener</LastnameHeading>
          <Firstname>Stefan</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Medical Faculty of Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Medizinische Fakult&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Burkert</Lastname>
          <LastnameHeading>Burkert</LastnameHeading>
          <Firstname>Mirka</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Medical Faculty of Heidelberg, Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Medizinische Fakult&#228;t Heidelberg, Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">progress test</Keyword>
      <Keyword language="en">reliability</Keyword>
      <Keyword language="en">discriminant validity</Keyword>
      <Keyword language="de">Progresstest</Keyword>
      <Keyword language="de">Reliabilit&#228;t</Keyword>
      <Keyword language="de">Diskriminanzvalidit&#228;t</Keyword>
      <SectionHeading language="en">Progress testing</SectionHeading>
      <SectionHeading language="de">Progresstest</SectionHeading>
    </SubjectGroup>
    <DateReceived>20190204</DateReceived>
    <DateRevised>20190801</DateRevised>
    <DateAccepted>20191014</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20200217</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>37</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>6</ArticleNo>
    <Fundings>
      <Funding fundId="01PL17011C">Bundesministerium f&#252;r Bildung und Forschung</Funding>
    </Fundings>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund: </Mark1>Seit dem Jahr 2013 wird an einer Reihe medizinischer Fakult&#228;ten ein studentischer kompetenzorientierter Progresstest (SKPT) durchgef&#252;hrt. Die Erstellung der Fragen erfolgt auf Basis eines zweidimensionalen Blueprints, dessen eine Achse aus den auf dem Kompetenzmodell des NKLM basierenden f&#252;nf Kompetenzbereichen &#8222;Kommunikative Kompetenz&#8220; (KO), &#8222;Klinisch-praktische Kompetenz&#8220; (KP) &#8222;Klinisch-theoretische Kompetenz&#8220; (KT), &#8222;Wissenschaftskompetenz&#8220; (WI) und &#8222;Professionelle Handlungskompetenz&#8220; (PH) besteht. Die R&#252;ckmeldung an die teilnehmenden Studierenden erfolgt u. a. differenziert nach diesen Bereichen. Ziel der Studie ist, zu pr&#252;fen, ob </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">die nach Kompetenzbereichen differenzierten Ergebnisse eine hinreichende Messgenauigkeit aufweisen und </ListItem><ListItem level="1" levelPosition="2" numString="2.">ob die Ergebnisse zu verschiedenen Bereichen auch unterschiedliche Informationen enthalten. </ListItem></OrderedList></Pgraph><Pgraph><Mark1>Methoden: </Mark1>Untersucht wurden die SKPTs der Jahre 2013 bis 2017 mit zusammen 3027 Teilnehmern. Die Messgenauigkeit wurde mit dem Koeffizient glb und dem Standardmessfehler bestimmt, zum Nachweis der Differenziertheit der Kompetenzbereiche wurde eine Diskriminanzanalyse der Hauptkomponenten eingesetzt. </Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Reliabilit&#228;t der Kompetenzbereiche war in allen Progresstests &#252;ber 0.8, Ausnahmen hiervon waren in zwei der Tests KO und PH mit einer Reliabilit&#228;t von 0.7&#8211;0.8. Die Ergebnisse aller Bereiche unterschieden sich hinsichtlich ihres Informationsgehalts jeweils vom Gesamt der anderen Bereiche, gleiches gilt mit Ausnahme von KP und KT f&#252;r s&#228;mtliche paarweisen Vergleiche.</Pgraph><Pgraph><Mark1>Diskussion: </Mark1>Die nach Kompetenzbereichen differenzierte R&#252;ckmeldung der Leistungen im SKPT erf&#252;llt im Wesentlichen die Anforderungen an Messzuverl&#228;ssigkeit und Eigenst&#228;ndigkeit. Eine Verbesserung der Messg&#252;te bei den Bereichen KO und PH sowie eine bessere Differenzierung der Bereiche KP und KT ist w&#252;nschenswert. </Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background: </Mark1>Since 2013 a competency-oriented student progress test (SKPT) has been administered at a number of German medical schools. The questions are generated on the basis of a two-dimensional blueprint, on which one axis contains the five competency domains &#8211; communicative competence (CO), practical clinical competence (CP), theoretical clinical competence (CT), scientific competence (SC), and professional decision-making competence (PR) &#8211;  that form part of the competency model of the National Competency-based Catalogue of Learning Objectives for Undergraduate Medicine (NKLM). The feedback for students is structured in part according to these domains. The aim of our study is to examine if </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">the results differentiated by competency domain show adequate measurement accuracy and </ListItem><ListItem level="1" levelPosition="2" numString="2.">if the results for the different domains also contain different information.</ListItem></OrderedList></Pgraph><Pgraph><Mark1>Methods: </Mark1>The SKPTs for the years 2013 to 2017, taken by a total of 3,027 students, were examined. The measurement accuracy was determined using the coefficient glb (greatest bound to reliability) and the standard error of measurement; discriminant analysis of the principal components was carried out to demonstrate differentiation between the competency domains.</Pgraph><Pgraph><Mark1>Results: </Mark1>The reliability of the competency domains was above 0.8 for all SKPTs; exceptions to this were seen in two of the tests for CO and PR that had a reliability of 0.7&#8211;0.8. The results for all of the individual competency domains differed in their informational content compared to the overall of the other domains; the same applies for all pairwise comparisons, with the exceptions of CP and CT.</Pgraph><Pgraph><Mark1>Discussion:</Mark1> The SKPT feedback for students that is differentiated by competency domains basically fulfills the requirements for measurement reliability and distinctness. An improvement of the measurement quality for CO and PR and a better differentiation between CP and CT is desirable.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Background">
      <MainHeadline>1. Background</MainHeadline><Pgraph>Competency-based medical education (CBME) has received special attention over the past 20 years in connection with curriculum development at medical schools and health policy <TextLink reference="3"></TextLink>, <TextLink reference="26"></TextLink>. As a consequence, this must also be reflected in educational assessments <TextLink reference="5"></TextLink>. This has led to a veritable flood of publications on competency-based testing (see the critical discussion of this in <TextLink reference="11"></TextLink>), with a particular focus on practical and workplace-based methods to assess communication skills, professional competence, and so on. Less attention has been paid to assessments using traditional multiple-choice questions (MCQs) since, assuming that competencies are primarily action-based, less importance is placed on the simple measurement of knowledge. Nonetheless, knowledge is an essential prerequisite for taking competent action and can be measured using competency-based tests of knowledge <TextLink reference="23"></TextLink>. MCQs continue to offer substantial advantages to accomplish this. Due to the generally brief amount of time needed to answer a MCQ, it is possible to ask a large number of questions on a test that then, relative to the time needed, allows for distinctly better coverage and representation of the curricular content that is being tested than do open-ended essay formats, which are laborious to grade, or practical assessment formats. In addition, objectivity and a high reliability are easier to achieve than, for instance, with workplace-based assessments in which there is the risk that their seemingly higher validity is rendered void by insufficient standardization.</Pgraph><Pgraph>As part of the BMBF-funded project <Mark2>Medical Education Research &#8211; Lehrforschung im Netz BW</Mark2> (MERLIN, <Hyperlink href="http:&#47;&#47;www.merlin-bw.de">http:&#47;&#47;www.merlin-bw.de</Hyperlink>), a competency-oriented student progress test (SKPT) was designed in 2013 by the Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine (Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg).</Pgraph><Pgraph>Progress tests are recognized and used in medical education to map learning progress over the course of medical study <TextLink reference="28"></TextLink>. To do this, students of all semester levels (year of study) are given the same test. If there is sufficient equivalence (same difficulty level) between the tests administered in consecutive years, students are able to see their progress over the course of their studies and receive corresponding feedback. Progress tests are administered at different medical schools in Germany <TextLink reference="18"></TextLink>. In general, these tests have two main functions: a) to give students ongoing feedback on their individual academic proficiency and b) to give medical schools the opportunity to monitor curricula, observe academic progress in different student cohorts and compare different curricula <TextLink reference="24"></TextLink>, <TextLink reference="34"></TextLink>.</Pgraph><Pgraph>The questions on the SKPT derive from a two-dimensional blueprint whose axes contain the eight subjects identified by the German medical licensing regulations (&#196;AppO) and the individual competencies that are grouped into five competency domains in the National Competency-based Catalogue of Learning Objectives for Undergraduate Medical Education (NKLM) <TextLink reference="4"></TextLink>. This blueprint was created by three inter-university and interdisciplinary expert groups who were tasked with grouping the domains in the NKLM in clusters referred to as &#8220;competency domains&#8221; and creating &#8220;subject groups&#8221; out of the subjects listed in the medical licensing regulations. These groups needed to reflect the best balance possible between preclinical and clinical subjects (see table 1 <ImgLink imgNo="1" imgType="table"/> and table 2 <ImgLink imgNo="2" imgType="table"/>).</Pgraph><Pgraph>A special aspect of the SKPT is that the questions are generated by students who are trained during multiple annual workshops. These students compose questions based on the competencies defined in the NKLM with reference to the subject groups in order to fill in the cells of the blueprint in table 2 <ImgLink imgNo="2" imgType="table"/>. The number of existing questions per cell is documented in an ongoing manner so that, especially near the end of the process, only the questions still needed to fill the empty cells need to be formulated. See <TextLink reference="33"></TextLink> for a detailed description.</Pgraph><Pgraph>The progress test is administered each year in November&#47;December (as of 2015 in cooperation with the Institut f&#252;r Kommunikations- und Pr&#252;fungsforschung gGmbH). All medical students enrolled at universities where the SKPT is offered can take the test. In 2017 the SKPT was administered at a total of 16 medical schools: Dresden, Erlangen-N&#252;rnberg, Freiburg, Gie&#223;en, Hannover, Heidelberg, Homburg, Krems (Austria), Leipzig, Magdeburg, Mannheim, Marburg, LMU M&#252;nchen, T&#252;bingen, Ulm, and Witten&#47;Herdecke. Participation is voluntary, except at the private Karl Landsteiner University in Krems, Austria, where participation is mandatory.</Pgraph><Pgraph>The test consists of 120 Type A MCQs (one correct response out of four to five possible responses) plus the additional option of &#8220;I don&#8217;t know&#8221; and ten situational judgment test questions (SJT) to measure social competencies <TextLink reference="20"></TextLink>. An exception to this was the first progress test in 2013 that consisted of 144 Type A questions and no SJT.</Pgraph><Pgraph>The &#8220;I don&#8217;t know&#8221; option is frequently used in progress tests and other formative tests to enable test-takers to explicitly document their knowledge deficits and to avoid any guessing based on the possible response options <TextLink reference="13"></TextLink>, <TextLink reference="22"></TextLink>.</Pgraph><SubHeadline2>Example question from the Theoretical Clinical Competency domain (CT) on the 2017 SKPT</SubHeadline2><Pgraph><Mark2>You are treating a 12-year-old child with pneumonia on the pediatric ward. The patient has a history of frequent respiratory complaints and infections. During an ultrasound examination you determine situs inversus, meaning that the organs are reversed from their normal positions. As part of a bronchoscopy you then send a biopsy for histological analysis.</Mark2></Pgraph><Pgraph><Mark2>Which diagnosis are you expecting based on the histology&#63;</Mark2></Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1."><Mark2>Defect in the cell-to-cell junctions</Mark2></ListItem><ListItem level="1" levelPosition="2" numString="2."><Mark2>Defect in the kinocilia</Mark2></ListItem><ListItem level="1" levelPosition="3" numString="3."><Mark2>Formation of pseudostratified epithelium</Mark2></ListItem><ListItem level="1" levelPosition="4" numString="4."><Mark2>Absence of surface differentiations</Mark2></ListItem><ListItem level="1" levelPosition="5" numString="5."><Mark2>Defect in the basement membrane</Mark2></ListItem><ListItem level="1" levelPosition="6" numString="6."><Mark2>I don&#8217;t know</Mark2></ListItem></OrderedList></Pgraph><Pgraph>The correct answer is B. Additional examples are included in the attachment 1 <AttachmentLink attachmentNo="1"/>. All of the SKPT questions and their explanations can be found on the publicly accessible webpage <Hyperlink href="https:&#47;&#47;www.komp-pt.de&#47;fragen-aus-dem-progresstest&#47;">https:&#47;&#47;www.komp-pt.de&#47;fragen-aus-dem-progresstest&#47;</Hyperlink>.</Pgraph><Pgraph>After taking the test all examinees receive feedback on their performance (number of points earned) which is differentiated according the subject groups and competency domains. This feedback is absolute (criteria-based), relative in comparison to the other participants at the same semester level (standards-based), and &#8211; if prior tests have been taken &#8211; longitudinal to show the gain in knowledge (progress) compared to earlier scores (ipsative).</Pgraph><Pgraph>The aim of this study is to ascertain </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">if the scores differentiated for each competency domain have sufficient measurement precision and </ListItem><ListItem level="1" levelPosition="2" numString="2.">if the questions of the different competency domains constitute empirically distinct clusters.</ListItem></OrderedList></Pgraph><Pgraph>Both of these issues are especially important for the usefulness of the feedback given to students: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">feedback is only beneficial if the graded performance has been reliably measured; and </ListItem><ListItem level="1" levelPosition="2" numString="2.">differentiated feedback is only meaningful if the individual scores reflect different content and thus are not redundant.</ListItem></OrderedList></Pgraph><Pgraph>In the terminology used by Campbell and Fiske <TextLink reference="1"></TextLink>, the second issue involves proving &#8220;discriminant validity&#8221; (also referred to as &#8220;discriminative validity&#8221;). The term &#8220;validity&#8221; has been the subject of intense discussion over the past 30 years. Many authors critically view the use of different terms to describe validity, e.g. predictive, convergent, discriminant; (a thorough description of this can be found in <TextLink reference="17"></TextLink>). In the present study we use this term to refer to its &#8220;classic&#8221; definition: the questions assigned to competency domains form &#8220;scales&#8221; which measure the performance of different tasks (see the discussion in <TextLink reference="6"></TextLink>). These &#8220;scales&#8221; are also supposed to be reflected in the responses of the progress test-takers. Basically, questions grouped together in the same domain should be answered similarly well (or badly).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Hintergrund">
      <MainHeadline>1. Hintergrund</MainHeadline><Pgraph>Eine kompetenzbasierte medizinische Ausbildung (&#8222;competency based medical education&#8220; &#8211; CBME) ist insbesondere in den letzten 20 Jahren in den Fokus des Interesses der Curriculumsentwicklung an den medizinischen Fakult&#228;ten und der Gesundheitspolitik ger&#252;ckt <TextLink reference="3"></TextLink>, <TextLink reference="26"></TextLink>. Konsequenterweise muss sich dies auch in den Leistungserfassungen widerspiegeln <TextLink reference="5"></TextLink>. Dies hat zu einer wahren Flut an Ver&#246;ffentlichungen zum Thema kompetenzbasierten Pr&#252;fens gef&#252;hrt (man vergleiche hierzu die kritische Diskussion in <TextLink reference="11"></TextLink>), wobei insbesondere praktische und arbeitsplatzbasierte Verfahren zur Erfassung von Kommunikationskompetenz, Handlungskompetenz u. &#228;. im Zentrum stehen. Weniger Aufmerksamkeit haben Pr&#252;fungen mittels traditioneller Multiple-Choice-Aufgaben in diesem Zusammenhang erfahren, da &#8211; ausgehend von Kompetenzen als prim&#228;r handlungsbezogen &#8211; der reinen Erfassung von Wissen eine geringere Bedeutung zugesprochen wird. Dennoch ist Wissen eine wesentliche Voraussetzung kompetenter Handlungen, welches mittels &#8222;kompetenzorientierter Wissenstests&#8220; <TextLink reference="23"></TextLink> erfasst werden kann. Hierf&#252;r bieten MC-Fragen nach wie vor erhebliche Vorteile: Auf Grund der im Allgemeinen kurzen Bearbeitungszeit einer Aufgabe kann in einer Pr&#252;fung eine hohe Zahl von Fragen gestellt werden, die damit &#8211; relativ zum Zeitaufwand &#8211; eine deutlich bessere Abdeckung und Repr&#228;sentativit&#228;t f&#252;r den zu pr&#252;fenden Lehrinhalt erlaubt als aufw&#228;ndig zu korrigierende offene schriftliche Frageformate oder praktische Pr&#252;fungsformen. Zudem sind Objektivit&#228;t und eine hohe Reliabilit&#228;t leichter zu erreichen als etwa mit arbeitsplatzbasierten Pr&#252;fungen, bei denen die Gefahr besteht, dass ihre augenscheinlich h&#246;here Validit&#228;t durch ungen&#252;gende Standardisierung zunichte gemacht wird. </Pgraph><Pgraph>Im Rahmen des vom BMBF gef&#246;rderten Verbund-Projekts &#8222;Medical Education Research &#8211; Lehrforschung im Netz BW&#8220; (MERLIN, <Hyperlink href="http:&#47;&#47;www.merlin-bw.de&#47;">http:&#47;&#47;www.merlin-bw.de&#47;</Hyperlink>) wurde im Jahr 2013 vom Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin&#47;Baden-W&#252;rttemberg ein &#8222;studentischer kompetenzorientierter Progresstest&#8220; (SKPT) konzipiert. </Pgraph><Pgraph>Progresstests sind in der medizinischen Ausbildung anerkannte und eingesetzte Verfahren, um den Lernfortschritt im Verlauf des Studiums abzubilden <TextLink reference="28"></TextLink>. Dazu wird Studierenden aller Ausbildungsstufen (Studienjahre) derselbe Test vorgelegt. Bei hinreichender Sicherung der &#196;quivalenz der Tests (gleiche Schwierigkeit) in aufeinanderfolgenden Jahren, kann f&#252;r den Studierenden sein Lernfortschritt im Laufe seiner Ausbildung abgebildet und entsprechendes Feedback gegeben werden. Progresstests werden auch in Deutschland an verschiedenen Fakult&#228;ten durchgef&#252;hrt <TextLink reference="18"></TextLink> und haben Progresstests haben vornehmlich zwei Funktionen: Einerseits geben sie Studierenden ein fortlaufendes Feedback &#252;ber ihren individuellen Wissensstand im Studium, andererseits bieten sie f&#252;r die Fakult&#228;ten die M&#246;glichkeit, Curricula zu monitoren, Leistungsfortschritte in unterschiedlichen Kohorten zu beobachten und verschieden gestalteten Curricula zu vergleichen <TextLink reference="24"></TextLink>, <TextLink reference="34"></TextLink>.</Pgraph><Pgraph>Die Aufgabenzusammenstellung des SKPT beruht auf einem zweidimensionalen Blueprint, dessen eine Achse aus den inhaltlich in acht Gruppen zusammengefassten F&#228;chern der Approbationsordnung und dessen andere Achse aus den in f&#252;nf Kompetenzbereiche gruppierten Einzelkompetenzen des Nationalen kompetenzbasierten Lernzielkatalogs Medizin (NKLM) <TextLink reference="4"></TextLink> besteht. Der Blueprint wurde von drei interfakult&#228;ren und interdisziplin&#228;ren Expertengruppen gebildet, die die Aufgabe hatten, die Gebiete des NKLM in Clustern von &#8222;Kompetenzbereichen&#8220; zusammenzustellen sowie f&#252;r die Leistungsnachweise der &#196;AppO &#8222;F&#228;chergruppen&#8220; zu bilden, wobei diese Gruppen jeweils vorklinische und klinische F&#228;cher m&#246;glichst ausgewogen enthalten sollten (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/> und Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). </Pgraph><Pgraph>Eine Besonderheit dieses Progresstests ist, dass die Aufgaben von Studierenden erstellt werden, die hierf&#252;r in mehrfach j&#228;hrlich stattfindenden Workshops geschult werden. Die teilnehmenden Studierenden erstellen dabei anhand der im NKLM definierten Kompetenzen Fragen mit Bezug zu den F&#228;chergruppen, um die Zellen des Blueprints in Tabelle 2 <ImgLink imgNo="2" imgType="table"/> zu f&#252;llen. Die Zahl der vorhandenen Fragen je Zelle wird fortlaufend dokumentiert, so dass insbesondere gegen Ende des Prozesses der Aufgabenerstellung gezielt nur noch Fragen f&#252;r nicht gef&#252;llte Zellen formuliert werden m&#252;ssen. F&#252;r eine detaillierte Darstellung sei auf <TextLink reference="33"></TextLink> verwiesen. </Pgraph><Pgraph>Der Progresstest wird (seit 2015 in Kooperation mit dem Institut f&#252;r Kommunikations- und Pr&#252;fungsforschung gGmbH) j&#228;hrlich im November&#47;Dezember durchgef&#252;hrt. Teilnehmen k&#246;nnen alle Studierenden der Humanmedizin aus Medizinischen Fakult&#228;ten, an denen der SKPT angeboten wird, im Jahr 2017 waren dies 16 Medizinische Fakult&#228;ten: Dresden, Erlangen-N&#252;rnberg, Freiburg, Gie&#223;en, Hannover, Heidelberg, Homburg, Krems (A), Leipzig, Magdeburg, Mannheim, Marburg, LMU M&#252;nchen, T&#252;bingen, Ulm und Witten&#47;Herdecke. Mit Ausnahme der Karl-Landsteiner-Privatuniversit&#228;t in Krems war die Teilnahme freiwillig. </Pgraph><Pgraph>Der Test besteht aus 120 MC-Fragen des Typs A (eine korrekte Antwort aus vier oder f&#252;nf Antwortoptionen) mit der zus&#228;tzlichen Antwortoption &#8222;wei&#223; nicht&#8220; sowie 10 Situational-Judgement-Aufgaben (SJT) zur Erfassung sozialer Kompetenzen <TextLink reference="20"></TextLink>. Ausnahme hiervon ist der erste Progresstest 2013 mit 144 Typ A-Aufgaben, jedoch ohne SJT. </Pgraph><Pgraph>Die &#8222;wei&#223; nicht&#8220;-Option wird in Progresstests wie auch in anderen formativen Tests h&#228;ufig eingesetzt, um es den Teilnehmern zu erm&#246;glichen, explizit ihr Wissensdefizit zu dokumentieren und das Raten unter den verf&#252;gbaren Antwortoptionen vermeiden zu k&#246;nnen <TextLink reference="13"></TextLink>, <TextLink reference="22"></TextLink>.</Pgraph><SubHeadline2>Beispiel  einer Frage aus dem Kompetenzbereich &#8222;Klinisch-theoretische Kompetenz&#8220; (KT) im SKPT 2017:</SubHeadline2><Pgraph><Mark2>Sie behandeln auf Ihrer p&#228;diatrischen Station ein zw&#246;lfj&#228;hriges Kind mit Lungenentz&#252;ndung, das schon h&#228;ufig wegen Atemwegsbeschwerden und -infektionen in Behandlung war. Bei einer Ultraschalluntersuchung stellen Sie zudem einen Situs inversus, also eine gespiegelte Organausrichtung, fest. Daher senden Sie im Rahmen einer Bronchoskopie eine Biopsie in die Histologie.</Mark2></Pgraph><Pgraph><Mark2>Welche Diagnose erwarten Sie sich von der histologischen Untersuchung&#63;</Mark2></Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1."><Mark2>Defekt der Zell-Zell-Kontakte</Mark2></ListItem><ListItem level="1" levelPosition="2" numString="2."><Mark2>Defekt der Kinozilien</Mark2></ListItem><ListItem level="1" levelPosition="3" numString="3."><Mark2>Ausbildung eines falschen Epithels</Mark2></ListItem><ListItem level="1" levelPosition="4" numString="4."><Mark2>Fehlen von Oberfl&#228;chendifferenzierungen</Mark2></ListItem><ListItem level="1" levelPosition="5" numString="5."><Mark2>Defekt der Basalmembran</Mark2></ListItem><ListItem level="1" levelPosition="6" numString="6."><Mark2>Wei&#223; nicht</Mark2></ListItem></OrderedList></Pgraph><Pgraph>Die korrekte Antwort lautet hier B. Weitere Beispiele sind als Anhang 1 <AttachmentLink attachmentNo="1"/> angef&#252;gt, s&#228;mtliche Fragen der SKPTs mit Erl&#228;uterungen finden sich auf der &#246;ffentlich zug&#228;nglichen Internetseite</Pgraph><Pgraph><Hyperlink href="https:&#47;&#47;www.komp-pt.de&#47;fragen-aus-dem-progresstest&#47;">https:&#47;&#47;www.komp-pt.de&#47;fragen-aus-dem-progresstest&#47;</Hyperlink>.</Pgraph><Pgraph>Nach der Durchf&#252;hrung erhalten alle teilnehmenden Studierenden eine nach F&#228;chergruppen und Kompetenzbereichen differenzierte R&#252;ckmeldung &#252;ber ihre erbrachten Leistungen (erreichte Punktzahlen). Die R&#252;ckmeldung erfolgt absolut (kriteriumsbezogen), relativ im Vergleich zu den teilnehmenden Studierenden desselben Jahrgangs (normbezogen) sowie &#8211; bei mehrfacher Teilnahme &#8211; longitudinal zur Darstellung des Leistungszuwachses (Progress) im Vergleich zu den fr&#252;heren Ergebnissen (ipsativ). </Pgraph><Pgraph>Ziel der Studie: Es soll gepr&#252;ft werden, ob </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">die nach Kompetenzbereichen differenzierten Leistungserfassungen jeweils eine hinreichende Messgenauigkeit aufweisen sowie </ListItem><ListItem level="1" levelPosition="2" numString="2.">durch die unterschiedlichen Aufgaben der Kompetenzbereiche empirisch voneinander unterschiedene Aufgabengruppen gebildet werden.</ListItem></OrderedList></Pgraph><Pgraph>Beides ist insbesondere f&#252;r die N&#252;tzlichkeit der R&#252;ckmeldungen an die teilnehmenden Studierenden von Bedeutung: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">R&#252;ckmeldungen sind nur dann brauchbar, wenn die zu beurteilenden Leistungen zuverl&#228;ssig erfasst sind. </ListItem><ListItem level="1" levelPosition="2" numString="2.">Differenzierte R&#252;ckmeldungen machen nur dann Sinn, wenn die verschiedenen Einzelresultate auch Unterschiedliches beinhalten, also nicht redundant sind. </ListItem></OrderedList></Pgraph><Pgraph>In der Terminologie von Campbell und Fiske <TextLink reference="1"></TextLink> handelt es sich bei der Fragestellung (2) um den Nachweis der &#8222;Diskriminanzvalidit&#228;t&#8220; (auch &#8222;diskriminative Validit&#228;t&#8220;). Der Begriff der &#8222;Validit&#228;t&#8220; war in den letzten 30 Jahren Gegenstand intensiver Diskussionen. Von vielen Autoren wird die Verwendung der unterschiedlichen Validit&#228;tsbegriffe (z. B. pr&#228;diktive, konvergente, diskriminative ... Validit&#228;t) kritisch gesehen (eine eingehende Darstellung hierzu findet sich in <TextLink reference="17"></TextLink>). In der vorliegenden Studie soll er dennoch in seiner &#8222;klassischen&#8220; Bedeutung Verwendung finden: Die den Kompetenzbereichen zugeordneten Aufgaben bilden &#8222;Skalen&#8220;, welche unterschiedliche Leistungen messen (vgl. die Diskussion in <TextLink reference="6"></TextLink>). Diese &#8222;Skalen&#8220; sollten sich damit auch in den Antworten der Testteilnehmerinnen und -teilnehmer widerspiegeln, im Wesentlichen sollten Aufgaben des gleichen Bereichs &#228;hnlich gut (oder schlecht) beantwortet werden.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Methods">
      <MainHeadline>2. Methods</MainHeadline><SubHeadline2>2.1. Data collection</SubHeadline2><Pgraph>The SKPT was administered once annually between 2013 and 2017. In the first two years the SKPT was taken as a paper-and-pencil test at each participating medical school; as of 2015 it is available online.</Pgraph><Pgraph>Test announcement, student registration and conducting the progress test at each university are handled individually by each medical school. The overarching coordination is in the hands of the Baden-W&#252;rttemberg Center of Excellence for Assessment in Medicine (Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin Baden-W&#252;rttemberg), which is housed at the Medical Faculty of Heidelberg. For more details on the administration of the test, please see <TextLink reference="33"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>The SKPT is designed as a formative test that can be taken voluntarily. However, at the medical school in Krems, Austria, the SKPT is mandatory. Since it has been shown in various analyses (not presented here) that the Krems student group differs clearly from the voluntary participants at the other medical schools, the Austrian group has been excluded from the following analysis. A second exclusion criterion was the number of answered questions. The present study includes only those test-takers who answered at least 100 of the 120 questions, meaning that they marked one of the four or five possible answers or indicated that they did not know (see table 3 <ImgLink imgNo="3" imgType="table"/>). Only complete datasets have been included for the first two paper-based SKPTs from 2013 and 2014. Table 4 <ImgLink imgNo="4" imgType="table"/> shows the number of participants in the analysis by year of study. The ten SJT questions from 2014 through 2017 did not fall within the scope of this study.</Pgraph><Pgraph>Prior to taking the SKPT, the students consented to the use of their pseudonymized data for the purpose of quality assurance and academic research.</Pgraph><SubHeadline2>2.2. Statistical analyses</SubHeadline2><SubHeadline3>2.2.1. Evaluation of the questions</SubHeadline3><Pgraph>The questions that were generated based on the blueprint were type-A MCQs with the additional option to respond with &#8220;I don&#8217;t know.&#8221; One point is assigned if the correct answer is chosen. For this analysis, incorrect responses, &#8220;I don&#8217;t know&#8221; and questions left blank were treated the same and assigned zero points (see <TextLink reference="22"></TextLink> for alternative grading approaches in which &#8220;I don&#8217;t know&#8221; and incorrect responses are treated differently). After test administration, there was a second review (post-review) of the questions, which was based on student comments and the statistical analysis. If it was determined that more than one response was possible for a question, the test-takers received one point if they had selected one of the correct answers. Based on the post-reviews, we had to exclude between three to eight questions on the SKPTs for the years 2013 to 2017 for being flawed (see table 3 <ImgLink imgNo="3" imgType="table"/>).</Pgraph><SubHeadline3>2.2.2. Reliability and measurement precision</SubHeadline3><Pgraph>The greatest lower bound of reliability (glb) is used to estimate the reliability of the competency domains <TextLink reference="7"></TextLink>, <TextLink reference="25"></TextLink>. This is also the optimal algebraic estimate of the reliability for non-homogenous scales (in this case, Cronbach&#8217;s &#945;, as a measure of the internal consistency, yields an underestimation of reliability).</Pgraph><Pgraph>Reliability is a relative measure of measurement precision based on the participant population; the standard error of measurement serves as an absolute measure of measurement precision and is calculated from the reliability and the standard deviation of the scale values for the examinees <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>When comparing students who are at the same semester level, reliability is relevant also as it refers to these particular subpopulations. In these cases, lower values are to be expected in comparison to the overall reliability since, assuming almost the same measurement error, the variance in the number of correctly answered questions among examinees at the same academic level is lower than the number for all examinees across all semester levels (see <TextLink reference="33"></TextLink>).</Pgraph><SubHeadline3>2.2.3. Delineating the competency domains (&#8220;discriminant validity&#8221;)</SubHeadline3><Pgraph>Testing whether or not the different competency domains denote empirical differences becomes somewhat complex given the progress test&#8217;s design: the individual questions are not only assigned to one competency domain, but also to a subject or a subject group. As a consequence of this design, the constructs defined by the two axes of the blueprint already overlap each other (for a detailed explanation of construct overlap, see <TextLink reference="35"></TextLink>, among others). For this reason, we cannot assume that the competency domains are directly apparent in the data when applying methods of factor or cluster analysis (compare the factor analysis of the validity and reliability of competency constructs in <TextLink reference="12"></TextLink>).</Pgraph><Pgraph>Therefore, we chose Fisher&#8217;s linear discriminant analysis as the methodical approach. The objects in this case are the individual questions with the competency domain as the grouping variable. The number of points scored by the test-takers for the questions (response patterns) are the predictors. One problem here is that more people have participated than there are questions. Analogous to the approach taken for a principal component regression, data reduction was therefore carried out by determining the principal components. Linear discriminant analyses were then carried out with a reduced number of principal components. This &#8220;discriminant analysis of the principal components&#8221; (DAPC) is used for similar reasons in genetic analyses in which the number of predictors exceeds the number of objects to be classified (<TextLink reference="8"></TextLink>, see also note 2 below).</Pgraph><Pgraph>The first analytical step (determining the principal components) does not involve any distributional assumptions. The extraction of the principal components serves to reduce the original data to a few components in the response patterns which best approximate the data according to the least squares criterion. Fisher&#8217;s linear discriminant analysis is a special case of linear discriminant analysis in which the a priori group sizes are assumed to be equal. In this special case, no normal distributional assumption is made for the analysis. Calculation of the p-values for the group comparisons (see below) is done using t-tests that in principle are based on normal distributional assumptions but are known to be robust to violations of these assumptions (we also performed a non-parametric test by means of a randomizing test whose results are substantially identical to the t-test presented here and are therefore not reported here for reasons of clarity).</Pgraph><Pgraph>One question associated with the method of factor analysis and one that generally cannot be answered satisfactorily is the question concerning the determination of the number of principal components to be used. For the different SKPT, no consistent value over the years has been yielded by scree plots <TextLink reference="21"></TextLink> or from Onatski&#8217;s method <TextLink reference="19"></TextLink>, which is why we extracted ten principal components, meaning twice as many components as competency domains (the following results are less sensitive in relation to the number of the extracted components; analyses with more than six components yield nearly identical results).</Pgraph><Pgraph>To answer the question if the individual competency domains are different from the entirety of all other domains, a one-against-the-rest analysis and a pairwise classification of all competency domains against each other (one-against-one) were carried out <TextLink reference="10"></TextLink>, <TextLink reference="27"></TextLink>. Tests of significance were done in each case by combining the individual p-values from the five progress tests for the years 2013 to 2017 using Fisher&#8217;s method (Fisher&#8217;s combined probability test). Significance was defined as &#945;&#61; 0.05.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Methoden">
      <MainHeadline>2. Methoden</MainHeadline><SubHeadline2>2.1. Datenerhebung</SubHeadline2><Pgraph>Die Durchf&#252;hrung des SKPT in den Jahren 2013-2017 erfolgte einmal j&#228;hrlich. In den beiden ersten Jahren wurde der Test an den jeweiligen Fakult&#228;ten in Papierform durchgef&#252;hrt, seit 2015 steht er online zur Verf&#252;gung. </Pgraph><Pgraph>Die Ank&#252;ndigung und Anmeldung der Studierenden sowie die Durchf&#252;hrung des Progresstests vor Ort erfolgte selbst&#228;ndig seitens der beteiligten medizinischen Fakult&#228;ten. Die &#252;bergeordnete Koordination lag beim &#8222;Kompetenzzentrum f&#252;r Pr&#252;fungen in der Medizin&#47;Baden-W&#252;rttemberg&#8220; an der Medizinischen Fakult&#228;t Heidelberg. Genauere Details zur Durchf&#252;hrung finden sich in <TextLink reference="33"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>. </Pgraph><Pgraph>Der SKPT ist als formativer Test mit freiwilliger Teilnahme konzipiert. In der Fakult&#228;t in Krems ist der Test verpflichtend. Da sich in verschiedenen (hier nicht dargestellten) Analysen gezeigt hat, dass diese Studierendengruppe sich deutlich von den freiwilligen Teilnehmern aus den anderen Fakult&#228;ten unterscheidet, wurde diese Gruppe in den nachfolgenden Analysen nicht mit einbezogen. Weiteres Einschlusskriterium war die Zahl der beantworteten Aufgaben. In der vorliegenden Studie wurden nur die Teilnehmer ber&#252;cksichtigt, die mindestens 100 der 120 Aufgaben bearbeitet haben, d.h. die eine der vier oder f&#252;nf Antwortoptionen oder &#8222;wei&#223; nicht&#8220; angegeben haben (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>). Aus den beiden ersten SKPTs im Papierformat der Jahre 2013 und 2014 wurden nur vollst&#228;ndige Datens&#228;tze einbezogen.  Eine Aufteilung der Teilnehmer nach Studienjahr findet sich in Tabelle 4 <ImgLink imgNo="4" imgType="table"/>. Die 10 Situational-Judgement-Aufgaben der Jahre 2014-2017 waren nicht Gegenstand der Studie. </Pgraph><Pgraph>Die Teilnehmer am SKPT willigten vor Durchf&#252;hrung des Tests ein, dass ihre Daten in pseudoymisierter Form zur Qualit&#228;tssicherung und f&#252;r wissenschaftliche Zwecke verwendet werden d&#252;rfen. </Pgraph><SubHeadline2>2.2. Statistische Analysen</SubHeadline2><SubHeadline3>2.2.1. Bewertung der Aufgaben</SubHeadline3><Pgraph>Die nach dem Blueprint erstellten Aufgaben waren vom Typ A mit der zus&#228;tzliche Option &#8222;wei&#223; nicht&#8220;. Bei Wahl der zutreffenden Antwort, wurde ein Punkt vergeben. F&#252;r die hier dargestellte Analyse wurden falsche Antworten und &#8222;wei&#223; nicht&#8220; sowie fehlende Antworten gleich behandelt und 0 Punkte vergeben (f&#252;r alternative Bewertungsschemata, in denen &#8222;wei&#223; nicht&#8220; und Falschantworten unterschiedlich behandelt werden, s. <TextLink reference="22"></TextLink>). Nach Durchf&#252;hrung des Tests erfolgte auf Grundlage von Teilnehmerkommentaren und der statistischen Auswertung eine zweite Begutachtung der Aufgaben (Post-Review). Stellte sich dabei heraus, dass bei einer Aufgabe mehrere Antworten zutreffend waren, erhielten die Teilnehmerinnen und Teilnehmer einen Punkt, wenn eine der korrekten Antworten gew&#228;hlt wurde. Zwischen drei und acht Aufgaben in den SKPTs der Jahre 2013-2017 mussten nach dem Post-Review als fehlerhaft ausgeschlossen werden (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>).</Pgraph><SubHeadline3>2.2.2. Reliabilit&#228;t und Messgenauigkeit</SubHeadline3><Pgraph>Zur Absch&#228;tzung der Reliabilit&#228;t der Kompetenzbereiche wird die &#8222;greatest lower bound to reliability&#8220; (glb) verwendet <TextLink reference="7"></TextLink>, <TextLink reference="25"></TextLink>. Diese ist die algebraisch optimale Absch&#228;tzung der Reliabilit&#228;t auch bei nicht-homogenen Skalen (in diesen F&#228;llen liefert Cronbachs &#945; als Ma&#223; der internen Konsistenz eine Untersch&#228;tzung der Reliabilit&#228;t). </Pgraph><Pgraph>Die Reliabilit&#228;t ist ein auf die Teilnehmerpopulation bezogenes relatives Ma&#223; der Messgenauigkeit, als absolutes Ma&#223; der Messgenauigkeit dient der Standardmessfehler, welcher sich aus der Reliabilit&#228;t und der Standardabweichung der Skalenwerte der Teilnehmer errechnet <TextLink reference="9"></TextLink>. </Pgraph><Pgraph>F&#252;r den Vergleich mit Studierenden aus dem gleichen Studienjahr ist zus&#228;tzlich die Reliabilit&#228;t bezogen auf diese Teilpopulationen von Relevanz. Hier sind gegen&#252;ber der Gesamtreliabilit&#228;t niedrigere Werte zu erwarten, da (unter der Annahme ann&#228;hernd gleicher Messfehler) die Varianz der Zahl der korrekten Antworten innerhalb der Teilnehmer des gleichen Studienjahrs niedriger als die aller Teilnehmer &#252;ber die Studienjahre hinweg ist (vgl. hierzu <TextLink reference="33"></TextLink>).</Pgraph><SubHeadline3>2.2.3. Abgrenzung der Kompetenzbereiche (&#8222;Diskriminanzvalidit&#228;t&#8220;)</SubHeadline3><Pgraph>Die Pr&#252;fung der Frage, ob die verschiedenen Kompetenzbereiche auch empirisch Unterschiedliches bezeichnen, gestaltet sich auf Grund des Konstruktionsprinzips des Progresstests etwas komplex: Die einzelnen Aufgaben sind nicht nur jeweils einem Kompetenzbereich sondern auch einem Fach oder einer Fachgruppe zugeordnet. Damit &#252;berlagern sich schon durch die Testkonstruktion bedingt die durch die beiden Achsen des Blueprint definierten Konstrukte (&#8222;construct overlap&#8220;, n&#228;here Erl&#228;uterungen hierzu finden sich z. B. in <TextLink reference="35"></TextLink>). Daher ist nicht davon auszugehen, dass sich die Kompetenzbereiche mit faktoren-oder clusteranalytischen Verfahren direkt in den Daten abzeichnen (man vergleiche hierzu die faktoranalytische Untersuchung zur Validit&#228;t und Reliabilit&#228;t von Kompetenzkonstrukten in <TextLink reference="12"></TextLink>). </Pgraph><Pgraph>Als methodischer Ansatz wurde deshalb das Verfahren der linearen Diskriminanzanalyse nach Fisher gew&#228;hlt. Die Objekte sind in diesem Fall die einzelnen Aufgaben mit dem Kompetenzbereich als Gruppierungsvariable. Die erreichten Punktzahlen der teilnehmenden Personen bei den Aufgaben (&#8222;L&#246;sungsmuster&#8220;) sind die Pr&#228;diktoren. Dabei stellt sich das Problem, dass mehr Personen teilgenommen haben als Aufgaben vorhanden sind. Analog zum Vorgehen bei einer Hauptkomponentenregression wurde deshalb eine Datenreduktion durch die Bestimmung von Hauptkomponenten vorgenommen. Die linearen Diskriminanzanalysen wurden danach mit einer verminderten Zahl von Hauptkomponenten durchgef&#252;hrt. Diese &#8222;Diskriminanzanalyse der Hauptkomponenten&#8220; (&#8222;Discriminant analysis of principal components&#8222;&#8217;, DAPC) wird aus &#228;hnlichen Gr&#252;nden z. B. im Bereich genetischer Analysen eingesetzt, bei der die Zahl der Pr&#228;diktoren die der zu klassifizierenden Objekte &#252;bersteigt (<TextLink reference="8"></TextLink>, vgl. auch Anmerkung 2). </Pgraph><Pgraph>Der erste Schritt der Auswertung (Bestimmung der Hauptkomponenten) beinhaltet keine Verteilungsannahmen. Die Extraktion der Hauptkomponenten dient zur Reduktion der Originaldaten auf wenige Komponenten in den Antwortmustern, die die Daten nach dem Kleinst-Quadrate-Kriterium bestm&#246;glich approximieren. Die lineare Diskriminanzanalyse nach Fisher ist ein Spezialfall der linearen Diskriminanzanalyse, bei der die a priori-Gruppengr&#246;&#223;en als gleich angenommen werden. In diesem Spezialfall wird keine Normalverteilungsannahme f&#252;r die Daten getroffen. Die Bestimmung der p-Werte f&#252;r die Gruppenvergleiche (s. u.) erfolgt mittels t-Tests, die zwar im Prinzip auf Normalverteilungsannahmen beruhen, jedoch bekanntlich robust gegen&#252;ber deren Verletzung sind (eine nicht-parametrische Testung mittels eines Randomisierungstests wurde ebenfalls durchgef&#252;hrt, deren Ergebnisse sind substantiell mit den hier dargestellten t-Tests identisch und werden deshalb aus Gr&#252;nden der &#220;berschaubarkeit hier nicht berichtet).</Pgraph><Pgraph>Eine aus der Faktorenanalyse bekannte und allgemein nicht zufriedenstellend zu beantwortende Frage ist die nach der Bestimmung der Zahl der zu verwendenden Hauptkomponenten. F&#252;r die hier untersuchten Progresstests ergab sich weder aus dem Scree-Test <TextLink reference="21"></TextLink> oder dem Verfahren von Onatski <TextLink reference="19"></TextLink> &#252;ber die Jahre ein konsistenter Wert, weshalb zehn Hauptkomponenten, also doppelt so viele Komponenten wie Kompetenzbereiche, extrahiert wurden (die nachfolgend berichteten Ergebnisse sind wenig sensitiv gegen&#252;ber der Zahl der extrahierten Komponenten, es ergeben sich nahezu identische Resultate bei Analysen mit mehr als sechs Komponenten). </Pgraph><Pgraph>Zur Beantwortung der Frage, ob die einzelnen Kompetenzbereiche sich vom Gesamt aller anderen Bereiche abheben, wurde eine Analyse &#8222;one against the rest&#8220; sowie eine paarweise Klassifikation aller Kompetenzbereiche gegeneinander (&#8222;one against one&#8220;) durchgef&#252;hrt <TextLink reference="10"></TextLink>, <TextLink reference="27"></TextLink>. Signifikanztestungen erfolgten jeweils durch Kombination der einzelnen p-Werte aus den f&#252;nf Progresstests der Jahre 2013&#8211;2017 mittels der Methode von Fisher (&#8222;Fisher&#8217;s combined probability test&#8220;). Als Signifikanzniveau wurde &#945;&#61;0.05 gew&#228;hlt. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Results">
      <MainHeadline>3. Results</MainHeadline><SubHeadline2>3.1. Reliability and measurement precision</SubHeadline2><Pgraph>The number of questions, reliability coefficients glb, and the corresponding standard error of measurements (sem) are listed in table 5 <ImgLink imgNo="5" imgType="table"/>; a visual depiction of glb and sem over the years is presented in figure 1 <ImgLink imgNo="1" imgType="figure"/>.</Pgraph><Pgraph>Practical clinical competence (CP) and theoretical clinical competence (CT) are measured as nearly stable with a high reliability (more than 0.90); (one notes that the number of the questions in these two competency domains is higher than in the other competency domains, see the blueprint). Scientific competence (SC) is likewise stable over time with a reliability of around 0.80-0.85. For professional decision-making competence (PR) and communicative competence (CO), a decrease to a reliability below 0.80 is seen for the last two years, most distinctly for communicative competence (CO) with a reliability of 0.73 for the 2017 progress test (see figure 1 <ImgLink imgNo="1" imgType="figure"/>, left diagram).</Pgraph><Pgraph>For the standard error of measurement (see figure 1 <ImgLink imgNo="1" imgType="figure"/>, right diagram), a distinct reduction in 2014 is visible that can be traced to the fewer number of questions in comparison to the SKPT for 2013. Afterward, the standard error of measurements for all competency domains remain virtually the same since 2015. Here, too, varying numbers of questions in the competency domains must be taken into account; longer scales also have a larger absolute sem. This is also reflected in figure 1 <ImgLink imgNo="1" imgType="figure"/> (left): practical clinical competence (CP) and theoretical clinical competence (CT) are the longest scales (with 30 questions each on the blueprint), and scientific competence (SC) has the shortest scale with only 18 questions.</Pgraph><Pgraph>The median values for the reliabilities in the subpopulations at the same semester level are presented in <TextGroup><PlainText>table 6 </PlainText></TextGroup><ImgLink imgNo="6" imgType="table"/> according to both year of study and competency domain. In addition, figure 2 <ImgLink imgNo="2" imgType="figure"/> shows the distribution of these 30 individual reliabilities for the different competency domains. While the measurement reliabilities for the majority of reliabilities for the practical clinical, theoretical clinical, and scientific competency domains (CP, CT, SC) are above 0.7 (CP 83&#37;, SC 80&#37;, CT 90&#37;), these percentages are distinctly lower for communicative competence (CO) with 37&#37; and for professional decision-making (PR) with 47&#37;. In particular, for these individual SKPTs and semester levels it must be established that there are low reliabilities under 0.4 (see figure 2 <ImgLink imgNo="2" imgType="figure"/>). Low measurement reliabilities appear to be especially frequent for sixth-year students (percentages of the reliabilities over 0.7 for the first through fifth years of study: CO 44&#37;, CP 84&#37;, SC 84&#37;, PR 56&#37;, CT 96&#37; (see table 6 <ImgLink imgNo="6" imgType="table"/>).</Pgraph><SubHeadline2>3.2. Delineation of the competency domains (&#8220;discriminant validity&#8221;)</SubHeadline2><SubHeadline3>3.2.1. Delineation of each competency domain in relation to all other domains</SubHeadline3><Pgraph>To provide examples, the results of the two-class discriminant analyses of a competency domain in relation to every other competency domain are presented in <TextGroup><PlainText>figure 3 </PlainText></TextGroup><ImgLink imgNo="3" imgType="figure"/> and figure 4 <ImgLink imgNo="4" imgType="figure"/> for the progress tests given in 2013 and 2017 (the results for 2014 to 2016 are very similar). On the ordinate axes are the values of the discriminant function of the individual questions in the form of a box plot. Clear overlapping in the box plots of two competency domains points to construct overlapping in the associated questions. When the boxes are clearly separated this indicates that the two groups of questions, and hence the two competency domains, are distinct from each other.</Pgraph><Pgraph>Thus, the questions belonging to scientific competence (SC) in all years form a clearly delineated cluster: it is highly probable that whoever answers one question from this competency domain correctly, also answers the other questions in this domain correctly (see figure 3 <ImgLink imgNo="3" imgType="figure"/>, diagram c and figure 4 <ImgLink imgNo="4" imgType="figure"/>, diagram c). In contrast, there is a high degree of overlapping between practical clinical competence (CP) and theoretical clinical competence (CT) (see figure 3 <ImgLink imgNo="3" imgType="figure"/>, diagrams b, e; and figure 4 <ImgLink imgNo="4" imgType="figure"/>, diagrams b, e).</Pgraph><Pgraph>For inferential statistical testing to see if the individual competency domains differ from the entirety of all other domains, the individual p-values for 2013 through 2017 were combined in Fisher&#8217;s probability test (one notes that the individual p-values are not used for significance testing). There are significant values for all five domains (see table 7 <ImgLink imgNo="7" imgType="table"/>).</Pgraph><SubHeadline3>3.2.2. Pairwise delineation of the competency domains</SubHeadline3><Pgraph>To provide examples of the ten possible paired comparisons, we present the values of the discriminant function of the questions for the comparison between practical clinical competence (CP) and theoretical clinical competence (CT) in figure 5 <ImgLink imgNo="5" imgType="figure"/>, and the values comparing scientific competence (SC) and theoretical clinical competence (CT) in figure 6 <ImgLink imgNo="6" imgType="figure"/>.</Pgraph><Pgraph>We present the p-values, combined from the individual values for the different SKPTs, for all paired comparisons in table 8 <ImgLink imgNo="8" imgType="table"/>. All of these pairwise comparisons are significant, with the exception of the comparison between the practical clinical (CP) and the theoretical clinical (CT) competency domains.</Pgraph><Pgraph>These significant differences remain even after applying the Bonferroni-Holm method to adjust the ten tests: for this, the individual p-values of the tests are ordered in ascending order according to size (p<Subscript>&#91;1&#93;</Subscript>&#8804;p<Subscript>&#91;2&#93;</Subscript>&#8804;&#8230;&#8804;&#91;<Subscript>10&#93;</Subscript>). Significant are precisely those p<Subscript>&#91;k&#93;</Subscript> for which the inequalities p<Subscript>&#91;i&#93;</Subscript>&#8804;&#945;&#47;(11 &#8211; i) are fulfilled for <Mark3>all</Mark3> i&#8804;k. If an inequality is not achieved for any smaller p&#91;i&#93;, then no larger p&#91;k&#93; can still be considered significant.</Pgraph><Pgraph>For eight of the tests the result is p&#60;0.001, making these significant based on p<Subscript>&#91;1&#93;</Subscript>&#8804;0.05&#47;10, p<Subscript>&#91;2&#93;</Subscript>&#8804;0.05&#47;9, &#8230; p<Subscript>&#91;8&#93;</Subscript>&#8804;0.05&#47;3; in addition, p<Subscript>&#91;9&#93;</Subscript>&#61;0.002&#8804;0.05&#47;2&#61;0.025 is also significant. Only the p-value for the comparison between the competency domains CP and CT, which is p<Subscript>&#91;10&#93;</Subscript>&#61;0.091, does not fulfill the condition p<Subscript>&#91;10&#93;</Subscript>&#8804;0.05&#47;1.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Ergebnisse">
      <MainHeadline>3. Ergebnisse</MainHeadline><SubHeadline2>3.1. Reliabilit&#228;t und Messgenauigkeit</SubHeadline2><Pgraph>In Tabelle 5 <ImgLink imgNo="5" imgType="table"/> sind Aufgabenzahlen, Reliabilit&#228;tskoeffizienten glb und zugeh&#246;rige Standardmessfehler sem aufgef&#252;hrt, eine graphische Darstellung von glb und sem &#252;ber die Jahre hinweg findet sich in Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>.</Pgraph><Pgraph>&#8222;Klinisch-praktische Kompetenz&#8220; (KP) und &#8222;Klinisch-theoretische Kompetenz&#8220; (KT) werden ann&#228;hernd stabil mit einer hohen Reliabilit&#228;t (&#252;ber 0.90) erfasst (man beachte dabei, dass die Zahl der Aufgaben in diesen beiden Kompetenzbereichen h&#246;her ist als in den anderen Kompetenzbereichen, s. Blueprint). Die &#8222;Wissenschaftskompetenz&#8220; (WI) ist mit einer Reliabilit&#228;t von etwa 0.80-0.85 ebenfalls &#252;ber die Zeit hinweg stabil erhoben. Bei der &#8222;Professionellen Handlungskompetenz&#8220; (PH) und der &#8222;Kommunikativen Kompetenz&#8220; (KO) ist in den beiden letzten Jahren ein Abfall unter 0.80 festzustellen, am deutlichsten bei der &#8222;Kommunikativen Kompetenz&#8220; (KO) mit einer Reliabilit&#228;t von 0.73 im Progresstest 2017 (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, linke Abbildung). </Pgraph><Pgraph>Bei den Standardmessfehlern (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>, rechte Abbildung) ist eine deutliche Verringerung mit dem Jahr 2014 sichtbar, die auf die geringere Zahl der Aufgaben gegen&#252;ber dem SKPT 2013 zur&#252;ckzuf&#252;hren ist. Danach bleiben die Standardmessfehler f&#252;r alle Kompetenzbereiche seit 2015 jeweils nahezu gleich. Auch hier sind die unterschiedlichen Zahlen von Aufgaben in den Kompetenzbereichen zu ber&#252;cksichtigen, l&#228;ngere Skalen haben auch einen absolut gr&#246;&#223;eren Standardmessfehler. Diese Reihenfolge bildet sich auch in der Abbildung ab, &#8222;Klinisch-praktische Kompetenz&#8220; (KP) und &#8222;Klinisch-theoretische Kompetenz&#8220; (KT) sind die l&#228;ngsten Skalen (im Blueprint jeweils 30 Aufgaben), die &#8222;Wissenschaftskompetenz&#8220; (WI) ist mit lediglich 18 Aufgaben die k&#252;rzeste Skala.</Pgraph><Pgraph>In Tabelle 6 <ImgLink imgNo="6" imgType="table"/> sind je Studienjahr und Kompetenzbereich die Mediane der Reliabilit&#228;ten in den Teilpopulationen mit gleicher Studiendauer aufgef&#252;hrt. Zus&#228;tzlich zeigt Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> die Verteilungen dieser jeweils 30 Einzelreliabilit&#228;ten getrennt f&#252;r die Kompetenzbereiche. W&#228;hrend f&#252;r die Kompetenzbereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT bzw. WI) die Messzuverl&#228;ssigkeiten in der Mehrzahl die Reliabilit&#228;ten &#252;ber 0.7 liegen (KP 83&#37;, WI 80&#37;, KT 90&#37;), sind diese Anteile bei der kommunikativen Kompetenz (KO) mit 37&#37; und professionellem Handeln (PH) mit 47&#37; deutlich niedriger. Insbesondere gibt es bei diesen einzelne SKPTs und Studienjahre, f&#252;r die niedrige Reliabilit&#228;ten unter 0.4 zu konstatieren sind (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Insbesondere scheinen in der Gruppe des 6. Studienjahres geh&#228;uft niedrige Messzuverl&#228;ssigkeiten aufzutreten (Anteile der Reliabilit&#228;ten &#252;ber 0.7 f&#252;r die Studienjahre 1-5: KO 44&#37;, KP 84&#37;, WI 84&#37;, PH 56&#37;, KT 96&#37;, siehe Tabelle 6 <ImgLink imgNo="6" imgType="table"/>).</Pgraph><SubHeadline2>3.2. Abgrenzung der Kompetenzbereiche (&#8222;Diskriminanzvalidit&#228;t&#8220;)</SubHeadline2><SubHeadline3>3.2.1. Abgrenzung der Kompetenzbereiche gegen&#252;ber jeweils allen anderen Bereichen</SubHeadline3><Pgraph>In Abbildung 3 <ImgLink imgNo="3" imgType="figure"/> und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/> sind als Beispiele f&#252;r die Progresstests der Jahre 2013 und 2017 die Ergebnisse der Zwei-Klassen-Diskriminanzanalysen eines Kompetenzbereichs jeweils gegen&#252;ber allen anderen Kompetenzbereichen dargestellt (die Ergebnisse der Jahre 2014 bis 2016 sind diesen sehr &#228;hnlich). Auf der Ordinate sind die Werte der Diskriminanzfunktion der Einzelaufgaben als Boxplot abgetragen. Deutliche &#220;berlagerungen der Boxplots zweier Kompetenzbereiche weisen auf Konstrukt&#252;berlappung bei den Aufgaben hin, bei deutlich separierten Boxen sind die Aufgabengruppen des zugeh&#246;rigen Kompetenzbereichs von den anderen Aufgaben abzugrenzen. </Pgraph><Pgraph>So bilden die Aufgaben zur &#8222;Wissenschaftskompetenz&#8220; (WI) in allen Jahren ein deutlich abgegrenztes Cluster, wer eine Aufgabe aus diesem Kompetenzbereich gel&#246;st hat, hat auch mit h&#246;herer Wahrscheinlichkeit andere Aufgaben des Bereichs korrekt beantwortet (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>, Punkt c und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>, Punkt c). Hingegen ist bei der &#8222;Klinisch-praktischen Kompetenz&#8220; (KP) und &#8222;Klinisch-theoretischen Kompetenz&#8220; (KT) eine deutliche Konstrukt&#252;berlappung festzustellen (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>, Punkte b, e und Abbildung 4 <ImgLink imgNo="4" imgType="figure"/>, Punkte b, e). </Pgraph><Pgraph>Zur inferenzstatistischen Testung, ob sich die einzelnen Kompetenzbereiche vom Gesamt aller anderen Bereiche unterscheiden, wurden die einzelnen p-Werte der Jahre 2013&#8211;2017 mit dem Gesamttest nach Fisher kombiniert (man beachte, dass die einzelnen p-Werte nicht zu einer Signifikanztestung verwendet werden). F&#252;r alle f&#252;nf Bereiche ergeben sich signifikante Werte (siehe Tabelle 7 <ImgLink imgNo="7" imgType="table"/>). </Pgraph><SubHeadline3>3.2.2. Paarweise Abgrenzung der Kompetenzbereiche</SubHeadline3><Pgraph>Exemplarisch f&#252;r die insgesamt 10 m&#246;glichen Paarvergleiche sind in Abbildung 5 <ImgLink imgNo="5" imgType="figure"/> die Werte der Diskriminanzfunktion der Aufgaben f&#252;r den Vergleich der &#8222;Klinisch-praktischen Kompetenz&#8220; (KP) mit der &#8222;Klinisch-theoretischen Kompetenz&#8220; (KT) sowie in Abbildung 6 <ImgLink imgNo="6" imgType="figure"/> die der &#8222;Wissenschaftskompetenz&#8220; (WI) mit der &#8222;Klinisch-theoretischen Kompetenz&#8220; (KT) dargestellt.</Pgraph><Pgraph>Die aus den Einzelwerten der verschiedenen Durchg&#228;nge des SKPT kombinierten Signifikanzwerte aller Paarvergleiche sind in Tabelle 8 <ImgLink imgNo="8" imgType="table"/> aufgef&#252;hrt. Mit Ausnahme des klinisch-praktischen (KP) und des klinisch-theoretischen Kompetenzbereichs (KT) sind alle Paarvergleiche signifikant. </Pgraph><Pgraph>Die Signifikanzen bleiben auch nach Bonferroni-Holm-Adjustierung der zehn Tests erhalten:Hierzu werden die einzelnen p-Werte der Tests ihrer Gr&#246;&#223;e nach aufsteigend angeordnet (p<Subscript>&#91;1&#93;</Subscript>&#8804;p<Subscript>&#91;2&#93;</Subscript>&#8804;,&#8230;&#8804;p<Subscript>&#91;10&#93;</Subscript>). Als signifikant gelten genau die p &#91;k&#93; , bei denen f&#252;r alle i&#8804;k die Ungleichungen p<Subscript>&#91;i&#93;</Subscript>&#8804;&#945;&#47;(11 &#8211; i) erf&#252;llt sind. Ist nur f&#252;r ein einziges kleineres p<Subscript>&#91;i&#93;</Subscript> die Ungleichung nicht erf&#252;llt, kann kein gr&#246;&#223;eres p<Subscript>&#91;k&#93;</Subscript> noch als signifikant gelten.</Pgraph><Pgraph>Bei acht der Tests ist p&#60;0.001, somit sind diese wegen p<Subscript>&#91;1&#93;</Subscript>&#8804;0.05&#47;10, p<Subscript>&#91;2&#93;</Subscript>&#8804;0.05&#47;9, &#8230; p<Subscript>&#91;8&#93;</Subscript>&#8804;0.05&#47;3  signifikant, weiter ist p<Subscript>&#91;9&#93;</Subscript>&#61;0.002&#8804;0.05&#47;2&#61;0.025 ebenfalls signifikant. Lediglich der dem Vergleich der Kompetenzbereiche KP und KT zugeordnete p-Wert p<Subscript>&#91;10&#93;</Subscript>&#61;0.091 erf&#252;llt nicht die Bedingung p<Subscript>&#91;10&#93;</Subscript>&#61;0.05&#47;1.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Summary and discussion">
      <MainHeadline>4. Summary and discussion</MainHeadline><Pgraph>The competency domains of practical clinical competence (CP), theoretical clinical competence (CT) and scientific competence (SC) have been reliably measured by five SKPTs over the years (reliability over 0.80). Not quite so satisfactory are the questions covering the domains of communicative competence (CO) and professional decision-making competence (PR), with reliabilities still over 0.73. The questions for the different competency domains also represent empirically different domains. One exception is seen in the groups of questions covering practical clinical and theoretical clinical competence, between which no delineation can be empirically demonstrated (p&#61;0.091).</Pgraph><Pgraph>With few exceptions, the measurement reliabilities within the student cohorts by year of study show satisfactory values for the practical clinical, theoretical clinical and scientific competency domains (CP, CT, SC). Limitations are seen in the reliabilities of the domains communication and professional decision making (CO, PR), which frequently still do not reach 0.7. However, it must be noted that these domains are covered by only 22 and 20 questions, respectively, numbers that are generally inadequate for achieving a sufficiently high reliability using Type A MCQs even on the well-prepared summative, subject-specific tests given at medical schools.</Pgraph><Pgraph>It is thus shown that on competency-based knowledge tests the generation of questions to measure practically relevant knowledge is also possible with a limited number of questions and &#8211; using the terminology of Cronbach and Meehl <TextLink reference="2"></TextLink> &#8211; represent the different constructs in the blueprint intended for the competency domains.</Pgraph><Pgraph>The exceptions to this are the practical clinical and theoretical clinical competency domains (CP&#47;CT), which, although they differ significantly from the other competency domains, do not differ from each other. Because the discriminant analysis applied here explicitly allows construct overlap, the fact that no delineation can be drawn between these two domains cannot serve as an explanation. The reason for this non-separability could be rules that are too vague to clearly assign a question to only one of the two domains. An alternative explanation could be that within the context of medical expertise these two domains are very strongly connected in terms of content and that this knowledge is largely acquired by students at parallel points in time. Despite the semantic differences of each domain, this would lead to no detection of an empirical difference in the test question responses: whoever has the knowledge to answer the questions in one domain also has the knowledge to answer the questions in the other.</Pgraph><Pgraph>Discriminant analysis of the principal components (DAPC) proved itself to be methodically suitable for empirically tracing the underlying structure of the blueprint axis for the competency domains.</Pgraph><Pgraph>One consequence arising from these results for future progress tests should be an attempt to improve the measurement reliability for competence in communicative (CO) and professional decision-making (PR). This could be achieved by increasing the number of questions for each domain. To avoid enlarging the scope of the SKPT, it would be conceivable to reduce the number of questions asked in the domains of practical clinical competence (CP) and theoretical clinical competence (CT). Delineation of the content of these two domains should also be verified. If empirical discrimination remains impossible to determine, then these two domains could be combined in the feedback given to students.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Zusammenfassung und Diskussion">
      <MainHeadline>4. Zusammenfassung und Diskussion</MainHeadline><Pgraph>Die Kompetenzbereiche &#8222;Klinisch-praktische Kompetenz&#8220; (KP), &#8222;Klinisch-theoretische Kompetenz&#8220; (KT)  und &#8222;Wissenschaftskompetenz&#8220; (WI) wurden mit den f&#252;nf SKPTs &#252;ber die Jahre hinweg reliabel erfasst (Reliabilit&#228;t &#252;ber 0.80) Nicht ganz so zufriedenstellend sind die Aufgaben zu den Bereichen &#8222;Kommunikative Kompetenz&#8220; (KO) und &#8222;Professionelle Handlungskompetenz&#8220; (PH) mit Reliabilit&#228;ten noch &#252;ber 0.73. Die Aufgaben zu den verschiedenen Kompetenzbereichen repr&#228;sentieren auch empirisch unterschiedliche Bereiche. Eine Ausnahme bilden die Aufgabengruppen zum klinisch-praktischen und klinisch-theoretischen Kompetenzbereich, f&#252;r die keine Abgrenzung voneinander empirisch nachzuweisen ist (p&#61;0.091). </Pgraph><Pgraph>Die Messzuverl&#228;ssigkeiten innerhalb der Jahrgangskohorten weisen, von wenigen Ausnahmen abgesehen, f&#252;r die Bereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT, WI) zufriedenstellende Werte auf. Einschr&#228;nkungen sind wie oben bei den Bereichen Kommunikation und professionellem Handeln (KO, PH) festzustellen, bei denen die Reliabilit&#228;ten doch h&#228;ufig 0.7 nicht erreicht. Dabei muss jedoch ber&#252;cksichtigt werden, dass diese Bereiche lediglich mit 22 bzw. 20 Aufgaben abgedeckt werden, was auch bei gut vorbereiteten summativen Fachpr&#252;fungen an den Fakult&#228;ten im Allgemeinen nicht ausreicht, mit Fragen des Typs A eine hinreichend hohe Reliabilit&#228;t zu erreichen.</Pgraph><Pgraph>Damit ist gezeigt, dass in kompetenzorientierten Wissenstests die Erstellung von Aufgaben zur Erfassung von handlungsrelevantem Wissen auch bei begrenzter Zahl von Aufgaben m&#246;glich ist und &#8211; in der Terminologie von Cronbach und Meehl <TextLink reference="2"></TextLink> &#8211; die im Blueprint intendierten unterschiedlichen Konstrukte f&#252;r die Kompetenzbereiche abbilden. </Pgraph><Pgraph>Ausnahme hiervon sind der klinisch-praktische und der klinisch-theoretische Kompetenzbereich (KP&#47;KT), die sich zwar signifikant von den anderen Kompetenzbereichen, nicht aber untereinander unterscheiden. Die Tatsache, dass die beiden Bereiche nicht voneinander abzugrenzen sind, kann auf Grund des verwendeten Verfahrens der Diskriminanzanalyse, das explizit ein &#8222;construct overlap&#8220; erlaubt, nicht als Erkl&#228;rung dienen. Grund f&#252;r die Nichtseparierbarkeit k&#246;nnte eine zu wenig eindeutige Vorgabe f&#252;r die Klassierung der Aufgaben in die beiden Bereiche sein. Eine alternative Erkl&#228;rungsm&#246;glichkeit best&#252;nde darin, dass diese im Sinn einer fachlichen Kompetenz st&#228;rker inhaltlich zusammenh&#228;ngen und dass bei den teilnehmenden Studierenden die Kenntnisse in beiden Bereichen zum gro&#223;en Teil zeitlich parallel erworben werden. Dies w&#252;rde dazu f&#252;hren, dass trotz semantischer Verschiedenheit der beiden Bereiche, kein empirischer Unterschied bei den L&#246;sungsmustern nachweisbar ist: wer bei den Aufgaben eines Bereichs gute Kenntnisse besitzt, besitzt sie auch bei denen des anderen. </Pgraph><Pgraph>Methodisch hat sich die Diskriminanzanalyse der Hauptkomponenten (DAPC) als geeignet erwiesen, die zugrundeliegende Struktur der Achse &#8222;Kompetenzbereiche&#8220; des Blueprints empirisch nachzuzeichnen. </Pgraph><Pgraph>Als Konsequenz aus den Ergebnissen sollte f&#252;r zuk&#252;nftige Progresstests eine Verbesserung der Messzuverl&#228;ssigkeit der Kompetenzbereiche &#8222;kommunikative&#8220; (KO) und &#8222;professionelle Handlungskompetenz&#8220; (PH) angestrebt werden. Dies k&#246;nnte etwa mit einer Erh&#246;hung der zugeh&#246;rigen Zahl von Aufgaben erreicht werden. Um den Umfang des SKPT nicht zu vergr&#246;&#223;ern, w&#228;re eine Verminderung der Aufgabenzahl f&#252;r den &#8222;klinisch-praktischen&#8220; (KP) und &#8222;klinisch-theoretischen&#8220; (KT) Bereich denkbar. Die inhaltliche Abgrenzung dieser beiden Bereiche sollte ebenfalls gepr&#252;ft werden. L&#228;sst sich auch hier keine empirische Trennung erreichen, k&#246;nnten diese f&#252;r die R&#252;ckmeldung an die teilnehmenden Studierenden auch zusammengefasst werden. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Notes">
      <MainHeadline>Notes</MainHeadline><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Parts of the study concerning the 2013 and 2014 progress tests were reported at the 2014 GMA conference in Hamburg and at RIME 2015 in Munich <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>.</ListItem><ListItem level="1" levelPosition="2" numString="2.">The authors are unaware of an original source on discriminant analysis of principal components; the earliest mention we found is in a paper on the distribution of larger mammals in a national park in Tanzania <TextLink reference="16"></TextLink>.</ListItem></OrderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Teile des Inhalts der Studie f&#252;r die Progresstests 2013 und 2014 wurden auf der Tagung der GMA 2014 in Hamburg und der RIME 2015 in M&#252;nchen berichtet <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. </ListItem><ListItem level="1" levelPosition="2" numString="2.">Eine Originalquelle zur Diskriminanzanalyse von Hauptkomponenten ist den Autoren nicht bekannt, die &#228;lteste von uns gefundene Erw&#228;hnung findet sich in einer Arbeit zur Verteilung gro&#223;er S&#228;ugetiere in einem Nationalpark in Tansania <TextLink reference="16"></TextLink>. </ListItem></OrderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Funding">
      <MainHeadline>Funding</MainHeadline><Pgraph>This study was undertaken within the scope of the MERLIN II project that is funded by the Federal Ministry of Education and Research (01PL17011C).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="F&#246;rderung">
      <MainHeadline>F&#246;rderung</MainHeadline><Pgraph>Die Arbeit entstand im Rahmen des vom Bundesministerium f&#252;r Bildung und Forschung gef&#246;rderten Projekts MERLIN II (01PL17011C).</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Campbell DT</RefAuthor>
        <RefAuthor>Fiske DW</RefAuthor>
        <RefTitle>Convergent and discriminant validation by the multitrait-multimethod matrix</RefTitle>
        <RefYear>1959</RefYear>
        <RefJournal>Psychol Bull</RefJournal>
        <RefPage>81-105</RefPage>
        <RefTotal>Campbell DT, Fiske DW. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol Bull. 1959;56(2):81-105. DOI: 10.1037&#47;h0046016</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1037&#47;h0046016</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Cronbach LJ</RefAuthor>
        <RefAuthor>Meehl P E</RefAuthor>
        <RefTitle>Construct validity in psychological tests</RefTitle>
        <RefYear>1955</RefYear>
        <RefJournal>Psychol Bull</RefJournal>
        <RefPage>281-302</RefPage>
        <RefTotal>Cronbach LJ, Meehl P E. Construct validity in psychological tests. Psychol Bull. 1955;52(4):281-302. DOI: 10.1037&#47;h0040957</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1037&#47;h0040957</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Frank JR</RefAuthor>
        <RefAuthor>Snell LS</RefAuthor>
        <RefAuthor>Cate OT</RefAuthor>
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefAuthor>Carraccio C</RefAuthor>
        <RefAuthor>Swing SR</RefAuthor>
        <RefAuthor>Harris P</RefAuthor>
        <RefAuthor>Glasgow NJ</RefAuthor>
        <RefAuthor>Campbell C</RefAuthor>
        <RefAuthor>Dath D</RefAuthor>
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor>Iobst W</RefAuthor>
        <RefAuthor>Long DM</RefAuthor>
        <RefAuthor>Mungroo R</RefAuthor>
        <RefAuthor>Richardson DL</RefAuthor>
        <RefAuthor>Sherbino J</RefAuthor>
        <RefAuthor>Silver I</RefAuthor>
        <RefAuthor>Taber S</RefAuthor>
        <RefAuthor>Talbot M</RefAuthor>
        <RefAuthor>Harris KA</RefAuthor>
        <RefTitle>Competency-based medical education: theory to practice</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>638-645</RefPage>
        <RefTotal>Frank JR, Snell LS, Cate OT, Holmboe ES, Carraccio C, Swing SR, Harris P, Glasgow NJ, Campbell C, Dath D, Harden RM, Iobst W, Long DM, Mungroo R, Richardson DL, Sherbino J, Silver I, Taber S, Talbot M, Harris KA. Competency-based medical education: theory to practice. Med Teach. 2010;32(8):638-645. DOI: 10.3109&#47;0142159X.2010.501190</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2010.501190</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Hahn EG</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>Nationaler Kompetenzbasierter Lernzielkatalog Medizin (NKLM) f&#252;r Deutschland: Zusammenarbeit der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Medizinischen Fakult&#228;tentages (MFT)</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc35</RefPage>
        <RefTotal>Hahn EG, Fischer MR. Nationaler Kompetenzbasierter Lernzielkatalog Medizin (NKLM) f&#252;r Deutschland: Zusammenarbeit der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Medizinischen Fakult&#228;tentages (MFT). GMS Z Med Ausbild. 2009;26(3):Doc35. DOI: 10.3205&#47;zma000627</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;zma000627</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Holmboe ES</RefAuthor>
        <RefAuthor>Sherbino J</RefAuthor>
        <RefAuthor>Long DM</RefAuthor>
        <RefAuthor>Swing SR</RefAuthor>
        <RefAuthor>Frank JR</RefAuthor>
        <RefTitle>The role of assessment in competency based medical education</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>676-682</RefPage>
        <RefTotal>Holmboe ES, Sherbino J, Long DM, Swing SR, Frank JR.The role of assessment in competency based medical education. Med Teach. 2010;32(8):676-682. DOI: 10.3109&#47;0142159X.2010.500704</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2010.500704</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Hughes DJ</RefAuthor>
        <RefTitle>Psychometric validity: Establishing the accuracy and appropriateness of psychometric measures</RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Wiley handbook of psychometric testing: A multidisciplinary approach to survey, scale, and test development</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hughes DJ. Psychometric validity: Establishing the accuracy and appropriateness of psychometric measures. In: Irwing P, Booth T,Hughes DJ, editors. Wiley handbook of psychometric testing: A multidisciplinary approach to survey, scale, and test development. Hoboken, NJ: Wiley; 2018. DOI: 10.1002&#47;9781118489772.ch24</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;9781118489772.ch24</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Jackson</RefAuthor>
        <RefAuthor>P</RefAuthor>
        <RefAuthor>Agunwamba</RefAuthor>
        <RefAuthor>C</RefAuthor>
        <RefTitle>Lower bounds for the reliability of the total score on a test composed of non-homogeneous items I: Algebraic lower bounds</RefTitle>
        <RefYear>1977</RefYear>
        <RefJournal>Psychomet</RefJournal>
        <RefPage>567-578</RefPage>
        <RefTotal>Jackson, P, Agunwamba, C. Lower bounds for the reliability of the total score on a test composed of non-homogeneous items I: Algebraic lower bounds. Psychomet. 1977;42(4):567-578. DOI: 10.1007&#47;BF02295979</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;BF02295979</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Jombart T</RefAuthor>
        <RefAuthor>Devillard S</RefAuthor>
        <RefAuthor>Balloux F</RefAuthor>
        <RefTitle>Discriminant analysis of principal components: a new method for the analysis of genetically structured populations</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>BMC Gen</RefJournal>
        <RefPage>94</RefPage>
        <RefTotal>Jombart T, Devillard S, Balloux F. Discriminant analysis of principal components: a new method for the analysis of genetically structured populations. BMC Gen. 2010;11:94. DOI: 10.1186&#47;1471-2156-11-94</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;1471-2156-11-94</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Lord FM</RefAuthor>
        <RefAuthor>Novick MR</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1968</RefYear>
        <RefBookTitle>Statistical theories of mental test scores</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Lord FM, Novick MR. Statistical theories of mental test scores. Reading, Mass.: Addison-Welsey; 1968.</RefTotal>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Lotte F</RefAuthor>
        <RefAuthor>Bougrain L</RefAuthor>
        <RefAuthor>Cichocki A</RefAuthor>
        <RefAuthor>Clerc M</RefAuthor>
        <RefAuthor>Congedo M</RefAuthor>
        <RefAuthor>Rakotomamonjy A</RefAuthor>
        <RefAuthor>Yger F</RefAuthor>
        <RefTitle>A Review of Classification Algorithms for EEG-based Brain-Computer Interfaces: A 10-year Update</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>J Neural Eng</RefJournal>
        <RefPage>031005</RefPage>
        <RefTotal>Lotte F, Bougrain L, Cichocki A, Clerc M, Congedo M, Rakotomamonjy A, Yger F. A Review of Classification Algorithms for EEG-based Brain-Computer Interfaces: A 10-year Update. J Neural Eng. 2018;15(3):031005. DOI: 10.1088&#47;1741-2552&#47;aab2f2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1088&#47;1741-2552&#47;aab2f2</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Lurie</RefAuthor>
        <RefAuthor>SJ</RefAuthor>
        <RefTitle>History and practice of competency-based assessment</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>49-57</RefPage>
        <RefTotal>Lurie, SJ. History and practice of competency-based assessment. Med Educ. 2012;46(1):49-57. DOI: 10.1111&#47;j.1365-2923.2011.04142.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2923.2011.04142.x</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>McGill DA</RefAuthor>
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefAuthor>Clarke MJ</RefAuthor>
        <RefTitle>A critical evaluation of the validity and the reliability of global competency constructs for supervisor assessment of junior medical trainees</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>701-725</RefPage>
        <RefTotal>McGill DA, van der Vleuten CP, Clarke MJ. A critical evaluation of the validity and the reliability of global competency constructs for supervisor assessment of junior medical trainees. Adv Health Sci Educ Theory Pract. 2013;18(4):701-725. DOI: 10.1007&#47;s10459-012-9410-z</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-012-9410-z</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>McHarg J</RefAuthor>
        <RefAuthor>Bradley P</RefAuthor>
        <RefAuthor>Chamberlain S</RefAuthor>
        <RefAuthor>Ricketts C</RefAuthor>
        <RefAuthor>Searle J</RefAuthor>
        <RefAuthor>McLachlan JC</RefAuthor>
        <RefTitle>Assessment of progress tests</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>221-227</RefPage>
        <RefTotal>McHarg J, Bradley P, Chamberlain S, Ricketts C, Searle J, McLachlan JC. Assessment of progress tests. Med Educ. 2005;39(2):221-227. DOI: 10.1111&#47;j.1365-2929.2004.02060.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2929.2004.02060.x</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Empirische Struktur des kompetenzbasierten studentischen Progresstests: Reliabilit&#228;t und diskriminante Validit&#228;t von Kompetenzbereichen</RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Hamburg, 25.-27.09.2014</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>M&#246;ltner A, Wagener S, J&#252;nger J. Empirische Struktur des kompetenzbasierten studentischen Progresstests: Reliabilit&#228;t und diskriminante Validit&#228;t von Kompetenzbereichen. In: Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Hamburg, 25.-27.09.2014. D&#252;sseldorf: German Medical Science GMS Publishing House; 2014. DocV443. DOI: 10.3205&#47;14gma308</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;14gma308</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>Timbil S</RefAuthor>
        <RefAuthor>Gornostayeva M</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Empirical Structure of a Competency-Based Progress Test</RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>4th Research in Medical Education (RIME) Symposium 2015. M&#252;nchen, 19.-21.03.2015</RefBookTitle>
        <RefPage>DocS1B3</RefPage>
        <RefTotal>M&#246;ltner A, Wagener S, Timbil S, Gornostayeva M, J&#252;nger J. Empirical Structure of a Competency-Based Progress Test. In: 4th Research in Medical Education (RIME) Symposium 2015. M&#252;nchen, 19.-21.03.2015. D&#252;sseldorf: German Medical Science GMS Publishing House; 2015. DocS1B3. DOI: 10.3205&#47;15rime14</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;15rime14</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Morton-Griffiths M</RefAuthor>
        <RefTitle>The numbers and distribution of large mammaly in Ruaha National Park, Tanzania</RefTitle>
        <RefYear>1975</RefYear>
        <RefJournal>E Afr Wildl J</RefJournal>
        <RefPage>121-140</RefPage>
        <RefTotal>Morton-Griffiths M. The numbers and distribution of large mammaly in Ruaha National Park, Tanzania. E Afr Wildl J. 1975;13:121-140. DOI: 10.1111&#47;j.1365-2028.1975.tb00127.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;j.1365-2028.1975.tb00127.x</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Newton PE</RefAuthor>
        <RefAuthor>Shaw SD</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Validity in educational and psychological assessment</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Newton PE, Shaw SD. Validity in educational and psychological assessment. Los Angeles: Sage; 2014. DOI: 10.4135&#47;9781446288856</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.4135&#47;9781446288856</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Nouns ZM</RefAuthor>
        <RefAuthor>Georg W</RefAuthor>
        <RefTitle>Progress testing in German speaking countries</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>467-470</RefPage>
        <RefTotal>Nouns ZM, Georg W. Progress testing in German speaking countries. Med Teach. 2010;32(6):467-470. DOI: 10.3109&#47;0142159X.2010.485656</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2010.485656</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Onatski A</RefAuthor>
        <RefTitle>Testing hypotheses about the number of factors in large factor models</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Econometr</RefJournal>
        <RefPage>1447-1479</RefPage>
        <RefTotal>Onatski A. Testing hypotheses about the number of factors in large factor models. Econometr. 2009;77(5):1447-1479. DOI: 10.3982&#47;ECTA6964</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3982&#47;ECTA6964</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Patterson F</RefAuthor>
        <RefAuthor>Zibarras L</RefAuthor>
        <RefAuthor>&#38; Ashworth V</RefAuthor>
        <RefTitle>Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>3-17</RefPage>
        <RefTotal>Patterson F, Zibarras L, &#38; Ashworth V. Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100. Med Teach. 2016;38(1):3-17. DOI: 10.3109&#47;0142159X.2015.1072619</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2015.1072619</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Ra&#238;che G</RefAuthor>
        <RefAuthor>Walls TA</RefAuthor>
        <RefAuthor>Magis D</RefAuthor>
        <RefAuthor>Riopel M</RefAuthor>
        <RefAuthor>Blais JG</RefAuthor>
        <RefTitle>Non-graphical solutions for Cattell&#39;s scree test</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Methodol</RefJournal>
        <RefPage>23-29</RefPage>
        <RefTotal>Ra&#238;che G, Walls TA, Magis D, Riopel M, Blais JG. Non-graphical solutions for Cattell&#39;s scree test. Methodol. 2013;9(1):23-29. DOI: 10.1027&#47;1614-2241&#47;a000051</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1027&#47;1614-2241&#47;a000051</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Ravesloot CJ</RefAuthor>
        <RefAuthor>Van der Schaaf MF</RefAuthor>
        <RefAuthor>Muijtjens AMM</RefAuthor>
        <RefAuthor>Haaring C</RefAuthor>
        <RefAuthor>Kruitwagen CL</RefAuthor>
        <RefAuthor>Beek FJ</RefAuthor>
        <RefAuthor>Bakker J</RefAuthor>
        <RefAuthor>Van Schaik JP</RefAuthor>
        <RefAuthor>Ten Cate TJ</RefAuthor>
        <RefTitle>The don&#39;t know option in progress testing</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>Adv Health Sci Educ</RefJournal>
        <RefPage>1325-1338</RefPage>
        <RefTotal>Ravesloot CJ, Van der Schaaf MF, Muijtjens AMM, Haaring C, Kruitwagen CL, Beek FJ, Bakker J, Van Schaik JP, Ten Cate TJ. The don&#39;t know option in progress testing. Adv Health Sci Educ. 2015;20(5):1325-1338. DOI: 10.1007&#47;s10459-015-9604-2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-015-9604-2</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Schindler C</RefAuthor>
        <RefAuthor>Bauer J</RefAuthor>
        <RefAuthor>Strasser A</RefAuthor>
        <RefAuthor>Schlomske-Bodenstein N</RefAuthor>
        <RefAuthor>Seidel T</RefAuthor>
        <RefAuthor>Prenzel M</RefAuthor>
        <RefTitle>Pr&#252;fungen als Indikator f&#252;r den Studienerfolg</RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Handbuch Studienerfolg</RefBookTitle>
        <RefPage>62-79</RefPage>
        <RefTotal>Schindler C, Bauer J, Strasser A, Schlomske-Bodenstein N,Seidel T, Prenzel M. Pr&#252;fungen als Indikator f&#252;r den Studienerfolg. In: Berthold C, Jorzik B, Meyer-Guckel V, editors. Handbuch Studienerfolg. Essen: Edition Stifterverband; 2015. p.62-79.</RefTotal>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Schuwirth LW</RefAuthor>
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefTitle>The use of progress testing</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Perspect Med Educ</RefJournal>
        <RefPage>24-30</RefPage>
        <RefTotal>Schuwirth LW, van der Vleuten CP. The use of progress testing. Perspect Med Educ. 2012;1(1):24-30. DOI: 10.1007&#47;s40037-012-0007-2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s40037-012-0007-2</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Sijtsma K</RefAuthor>
        <RefTitle>On the use, the misuse, and the very limited usefulness of Cronbach&#39;s alpha</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Psychometrika</RefJournal>
        <RefPage>107-120</RefPage>
        <RefTotal>Sijtsma K. On the use, the misuse, and the very limited usefulness of Cronbach&#39;s alpha. Psychometrika. 2009;74(1):107-120. DOI: 10.1007&#47;s11336-008-9101-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s11336-008-9101-0</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Steinhaeuser J</RefAuthor>
        <RefAuthor>Chenot JF</RefAuthor>
        <RefAuthor>Roos M</RefAuthor>
        <RefAuthor>Ledig T</RefAuthor>
        <RefAuthor>Joos S</RefAuthor>
        <RefTitle>Competence-based curriculum development for general practice in Germany: a stepwise peer-based approach instead of reinventing the wheel</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>BMC Res Notes</RefJournal>
        <RefPage>314</RefPage>
        <RefTotal>Steinhaeuser J, Chenot JF, Roos M, Ledig T, Joos S. Competence-based curriculum development for general practice in Germany: a stepwise peer-based approach instead of reinventing the wheel. BMC Res Notes. 2013;6(1):314. DOI: 10.1186&#47;1756-0500-6-314</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;1756-0500-6-314</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Tax DM</RefAuthor>
        <RefAuthor>Duin RP</RefAuthor>
        <RefTitle>Using two-class classifiers for multiclass classification</RefTitle>
        <RefYear>2002</RefYear>
        <RefBookTitle>Proceedings of the 16th International Conference on Pattern Recognitions. Vol. 2; 2002 Aug 11-15; Quebec, Kanada</RefBookTitle>
        <RefPage>124-127</RefPage>
        <RefTotal>Tax DM, Duin RP. Using two-class classifiers for multiclass classification. In: Proceedings of the 16th International Conference on Pattern Recognitions. Vol. 2; 2002 Aug 11-15; Quebec, Kanada. IEEE Press; 2002. p.124-127. DOI:10.1109&#47;ICPR.2002.1048253</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1109&#47;ICPR.2002.1048253</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Van der Vleuten CP</RefAuthor>
        <RefAuthor>Verwijnen GM</RefAuthor>
        <RefAuthor>Wijnen WH</RefAuthor>
        <RefTitle>Fifteen years of experience with progress testing in a problem-based learning curriculum</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>103-109</RefPage>
        <RefTotal>Van der Vleuten CP, Verwijnen GM, Wijnen WH. Fifteen years of experience with progress testing in a problem-based learning curriculum. Med Teach. 1996;18(2):103-109. DOI: 10.3109&#47;01421599609034142</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;01421599609034142</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Timbil S</RefAuthor>
        <RefAuthor>Gornostayeva M</RefAuthor>
        <RefAuthor>Schultz JH</RefAuthor>
        <RefAuthor>Br&#252;stle P</RefAuthor>
        <RefAuthor>Mohr D</RefAuthor>
        <RefAuthor>Van der Beken A</RefAuthor>
        <RefAuthor>Better J</RefAuthor>
        <RefAuthor>Fries M</RefAuthor>
        <RefAuthor>Gottschalk M</RefAuthor>
        <RefAuthor>G&#252;nther J</RefAuthor>
        <RefAuthor>Herrmann L</RefAuthor>
        <RefAuthor>Kreisel C</RefAuthor>
        <RefAuthor>Moczko T</RefAuthor>
        <RefAuthor>Illg C</RefAuthor>
        <RefAuthor>Jassowicz A</RefAuthor>
        <RefAuthor>M&#252;ller A</RefAuthor>
        <RefAuthor>Niesert M</RefAuthor>
        <RefAuthor>Str&#252;bing F</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Development of a competencybased formative progress test with student-generated MCQs: Results from a multi-centre pilot study</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc46</RefPage>
        <RefTotal>Wagener S, M&#246;ltner A, Timbil S, Gornostayeva M, Schultz JH, Br&#252;stle P, Mohr D, Van der Beken A, Better J, Fries M, Gottschalk M, G&#252;nther J, Herrmann L, Kreisel C, Moczko T, Illg C, Jassowicz A, M&#252;ller A, Niesert M, Str&#252;bing F, J&#252;nger J. Development of a competencybased formative progress test with student-generated MCQs: Results from a multi-centre pilot study. GMS Z Med Ausbild. 2015;32(4):Doc46. DOI: 10.3205&#47;zma000988</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;zma000988</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>Fleig A</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefTitle>Warum sind im studentischen kompetenzorientierten Progresstest in jedem Studienjahr etwa 25&#37; derAntworten falsch&#63;</RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>Gemeinsame Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). M&#252;nster, 20.-23.09.2017</RefBookTitle>
        <RefPage>Doc157</RefPage>
        <RefTotal>Wagener S, Fleig A, M&#246;ltner A. Warum sind im studentischen kompetenzorientierten Progresstest in jedem Studienjahr etwa 25&#37; derAntworten falsch&#63; In: Gemeinsame Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). M&#252;nster, 20.-23.09.2017. D&#252;sseldorf: German Medical Science GMS Publishing House; 2017. Doc157. DOI: 10.3205&#47;17gma157</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;17gma157</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>Gaitzsch E</RefAuthor>
        <RefAuthor>Brass K</RefAuthor>
        <RefAuthor>Heid J</RefAuthor>
        <RefAuthor>Herrmann L</RefAuthor>
        <RefAuthor>G&#252;nther J</RefAuthor>
        <RefAuthor>Ney S</RefAuthor>
        <RefAuthor>M&#252;ller A</RefAuthor>
        <RefAuthor>Dikmen HO</RefAuthor>
        <RefAuthor>Zimmermann K</RefAuthor>
        <RefAuthor>Yilmaz OK</RefAuthor>
        <RefAuthor>Wittstock F</RefAuthor>
        <RefAuthor>Alhalabi O</RefAuthor>
        <RefAuthor>Park J</RefAuthor>
        <RefAuthor>Harapan BN</RefAuthor>
        <RefAuthor>Kollmeier B</RefAuthor>
        <RefAuthor>Ronellenfitsch L</RefAuthor>
        <RefAuthor>Mayer J</RefAuthor>
        <RefAuthor>Baumann T</RefAuthor>
        <RefAuthor>Daunert L</RefAuthor>
        <RefAuthor>Br&#252;stle P</RefAuthor>
        <RefAuthor>Mohr D</RefAuthor>
        <RefAuthor>Sch&#252;ttpelz-Brauns K</RefAuthor>
        <RefAuthor>Van der Beken A</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefTitle>Videofragen im studentischen kompetenzorientierten Progresstest</RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>Gemeinsame Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). M&#252;nster, 20.-23.09.2017</RefBookTitle>
        <RefPage>Doc110</RefPage>
        <RefTotal>Wagener S, Gaitzsch E, Brass K, Heid J, Herrmann L, G&#252;nther J, Ney S, M&#252;ller A, Dikmen HO, Zimmermann K, Yilmaz OK, Wittstock F, Alhalabi O, Park J, Harapan BN, Kollmeier B, Ronellenfitsch L, Mayer J, Baumann T, Daunert L, Br&#252;stle P, Mohr D, Sch&#252;ttpelz-Brauns K, Van der Beken A, J&#252;nger J, M&#246;ltner A. Videofragen im studentischen kompetenzorientierten Progresstest. In: Gemeinsame Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). M&#252;nster, 20.-23.09.2017. D&#252;sseldorf: German Medical Science GMS Publishing House; 2017. Doc110. DOI: 10.3205&#47;17gma110</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;17gma110</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Fleig A</RefAuthor>
        <RefAuthor>Feistner L</RefAuthor>
        <RefAuthor>Heid J</RefAuthor>
        <RefAuthor>Brass K</RefAuthor>
        <RefAuthor>Holz T</RefAuthor>
        <RefAuthor>Weber M</RefAuthor>
        <RefAuthor>Pflaum P</RefAuthor>
        <RefAuthor>Rogg D</RefAuthor>
        <RefAuthor>Kellermann F</RefAuthor>
        <RefAuthor>Berg L</RefAuthor>
        <RefAuthor>Breithaupt MH</RefAuthor>
        <RefAuthor>Dehmel L</RefAuthor>
        <RefAuthor>Grad A</RefAuthor>
        <RefAuthor>Xiang Jin J</RefAuthor>
        <RefAuthor>Hai-Ning Lu K</RefAuthor>
        <RefAuthor>M&#252;ller A</RefAuthor>
        <RefAuthor>Rinawi T</RefAuthor>
        <RefAuthor>Shang V</RefAuthor>
        <RefAuthor>Zimmermann K</RefAuthor>
        <RefAuthor>Alhalabi O</RefAuthor>
        <RefAuthor>Park J</RefAuthor>
        <RefAuthor>Grupp M</RefAuthor>
        <RefAuthor>Klauth A</RefAuthor>
        <RefAuthor>Lepper A</RefAuthor>
        <RefAuthor>Lichnock Z</RefAuthor>
        <RefAuthor>Mayer J</RefAuthor>
        <RefAuthor>Hollmann A</RefAuthor>
        <RefAuthor>Meuth C</RefAuthor>
        <RefAuthor>Siegel F</RefAuthor>
        <RefAuthor>Peitz N</RefAuthor>
        <RefAuthor>Br&#252;stle P</RefAuthor>
        <RefAuthor>Mohr D</RefAuthor>
        <RefAuthor>Sch&#252;ttpelz-Brauns K</RefAuthor>
        <RefAuthor>W&#252;rth G</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>Burkert M</RefAuthor>
        <RefTitle>&#34;Was will ich pr&#252;fen&#63;&#34; - Erweiterung des Blueprints im studentischen kompetenzorientierten Progresstest</RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018</RefBookTitle>
        <RefPage>Doc19.5</RefPage>
        <RefTotal>Wagener S, M&#246;ltner A, Fleig A, Feistner L, Heid J, Brass K, Holz T, Weber M, Pflaum P, Rogg D, Kellermann F, Berg L, Breithaupt MH, Dehmel L, Grad A, Xiang Jin J, Hai-Ning Lu K, M&#252;ller A, Rinawi T, Shang V, Zimmermann K, Alhalabi O, Park J, Grupp M, Klauth A, Lepper A, Lichnock Z, Mayer J, Hollmann A, Meuth C, Siegel F, Peitz N, Br&#252;stle P, Mohr D, Sch&#252;ttpelz-Brauns K, W&#252;rth G, J&#252;nger J, Burkert M. &#34;Was will ich pr&#252;fen&#63;&#34; - Erweiterung des Blueprints im studentischen kompetenzorientierten Progresstest. In: Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. D&#252;sseldorf: German Medical Science GMS Publishing House; 2018. Doc19.5. DOI: 10.3205&#47;18gma338</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;18gma338</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Wagener S</RefAuthor>
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Timbil S</RefAuthor>
        <RefAuthor>Fleig A</RefAuthor>
        <RefAuthor>Feistner L</RefAuthor>
        <RefAuthor>Heid J</RefAuthor>
        <RefAuthor>Brass K</RefAuthor>
        <RefAuthor>Burkert M</RefAuthor>
        <RefTitle>&#34;Da bin ich mir sicher&#34; -Confidence rating im studentischen kompetenzorientierten Progresstest</RefTitle>
        <RefYear>2018</RefYear>
        <RefBookTitle>Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018</RefBookTitle>
        <RefPage>Doc15.2</RefPage>
        <RefTotal>Wagener S, M&#246;ltner A, Timbil S, Fleig A, Feistner L, Heid J, Brass K, Burkert M. &#34;Da bin ich mir sicher&#34; -Confidence rating im studentischen kompetenzorientierten Progresstest &#91;Bericht &#252;ber Forschungsergebnisse&#93;. In: Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. D&#252;sseldorf: German Medical Science GMS Publishing House; 2018. Doc15.2. DOI: 10.3205&#47;18gma067</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;18gma067</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Wrigley W</RefAuthor>
        <RefAuthor>van der Vleuten CP</RefAuthor>
        <RefAuthor>Freeman A</RefAuthor>
        <RefAuthor>Muijtjens A</RefAuthor>
        <RefTitle>A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>683-697</RefPage>
        <RefTotal>Wrigley W, van der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71. Med Teach. 2012;34(9):683-697. DOI: 10.3109&#47;0142159X.2012.704437</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2012.704437</RefLink>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Zmud RW</RefAuthor>
        <RefAuthor>Sampson JP</RefAuthor>
        <RefAuthor>Reardon RC</RefAuthor>
        <RefAuthor>Lenz JG</RefAuthor>
        <RefAuthor>Byrd TA</RefAuthor>
        <RefTitle>Confounding Effects of Construct Overlap: An Example from IS User Satisfaction Theory</RefTitle>
        <RefYear>1994</RefYear>
        <RefJournal>Inform Technol People</RefJournal>
        <RefPage>29-45</RefPage>
        <RefTotal>Zmud RW, Sampson JP, Reardon RC, Lenz JG, Byrd TA. Confounding Effects of Construct Overlap: An Example from IS User Satisfaction Theory. Inform Technol People. 1994;7(2):29-45. DOI: 10.1108&#47;09593849410074061</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1108&#47;09593849410074061</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Blueprint axes for the SKPT: assignment of the individual competencies in the National Competency-based Catalogue of Learning Objectives in Undergraduate Medicine (NKLM) to the competency domains of the competency-oriented student progress test (SKPT) and assignment of the subjects contained in the German medical licensing regulations (&#196;AppO) to the subject groups.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Blueprintachsen des SKPT: Zuordnung der Einzelkompetenzen des &#8222;Nationalen Kompetenzbasierten Lernzielkatalogs Medizin&#8220; (NKLM) zu den Kompetenzbereichen des studentischen kompetenzbasierten Progresstests und Zuordnung der F&#228;cher der &#196;AppO zu den F&#228;chergruppen.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Blueprint of the competency- oriented student progress test 2014-2017 (see tab. 1 for explanation of the competency domains and subject groups).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Blueprint des studentischen kompetenzbasierten Progresstests 2014-2017 (zur Erl&#228;uterung der Kompetenzbereiche und F&#228;chergruppen siehe Tab. 1).</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Format, number of items and number of test-takers for the SKPTs (excluding Krems medical school) in the present study. The datasets for examinees who answered at least 100 questions were included in the analysis. The number in parentheses in the last column indicates the number of examinees who answered all questions.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Format, Zahl der Items und Teilnehmerzahlen der SKPTs (ohne die Fakult&#228;t Krems) in der vorliegenden Untersuchung. In die Analyse wurden die Datens&#228;tze der Teilnehmer aufgenommen, die mindestens 100 Aufgaben beantwortet haben. In der letzten Spalte ist in Klammern die Zahl der Teilnehmer aufgef&#252;hrt, die alle Aufgaben bearbeitet haben.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Number of participants in the analysis by year of study</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Aufteilung der Teilnehmer in der vorliegenden Untersuchung nach Studienjahren.</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 5: Number of questions (n</Mark1><Mark1><Subscript>A</Subscript></Mark1><Mark1>), reliability (coefficient glb) and standard error of measurement (sem) for the competency domains in the SKPTs for 201 &#8211;2017. Due to the exclusion of individual questions in the post-review, the numbers of questions per domain are sometimes less than intended in the blueprint (see table 2).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 5: Anzahl der Aufgaben (n</Mark1><Mark1><Subscript>A</Subscript></Mark1><Mark1>), Reliabilit&#228;t (Koeffizient glb) und Standardmessfehler (sem) der Kompetenzbereiche in den SKPTs der Jahre 2013&#8211;2017. Durch die Streichung einzelner Aufgaben im Post-Reviewverfahren sind die Anzahlen der Aufgaben je Bereich teilweise geringer als im Blueprint vorgesehen (siehe Tabelle 2).</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 6: Median values of the reliabilities for each year of study and competency domain from each of the five SKPTs for 2013-2017.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 6: Mediane der Reliabilit&#228;ten je Studienjahr und Kompetenzbereich aus den jeweils f&#252;nf SKPTs der Jahre 2013-2017. </Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>7</MediaNo>
          <MediaID language="en">7en</MediaID>
          <MediaID language="de">7de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 7: p-values for the tests for difference between the values of the discriminant function of the questions in a competency domain of the progress tests 2013-2017 in relation to the questions for all other domains and for Fisher&#8217;s combined probability test (FCPT).</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 7: p-Werte der Tests auf Unterschied zwischen den Werten der Diskriminanzfunktion der Aufgaben eines Kompetenzbereichs der Progresstests 2013-2017 gegen&#252;ber den Aufgaben aller anderen Bereiche und kombinierter Gesamttest nach Fisher (Fisher&#8217;s combined probability test, FCPT). </Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>8</MediaNo>
          <MediaID language="en">8en</MediaID>
          <MediaID language="de">8de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 8: Fisher&#8217;s combined probability test (FCPT) of the pairwise tests for difference in the values of the discriminant function between the questions of two competency domains.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 8: Kombinierte Signifikanztests nach Fisher (FCPT) der paarweisen Tests auf Unterschied der Werte der Diskriminanzfunktion zwischen den Aufgaben zweier Kompetenzbereiche.</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>8</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="324" width="735">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Reliability glb (left) and standard error of measurement sem (right) for the competency domains in the progress tests 2013&#8211;2017.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Reliabilit&#228;t (links) und Standardmessfehler (rechts) der Kompetenzbereiche in den Progresstests 2013&#8211;2017.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="324" width="355">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Reliabilities within year of study for the individual competency domains. Each box represents the 30 individual reliabilities of the five progress tests and six levels of study reflected in years of study.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Reliabilit&#228;ten innerhalb der Studienjahre f&#252;r die einzelnen Kompetenzbereiche. Jede &#8222;Box&#8220; repr&#228;sentiert die 30 Einzelreliabilit&#228;ten der 5 Progresstests und 6 Studienjahre.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="481" width="749">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Distributions of the discriminant function values for the questions in the competency domains after performing two-class discriminant analysis for each domain in relation to all other domains (one-against-the-rest) for the 2013 progress test.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche nach Durchf&#252;hrung einer Zwei-Klassen Diskriminanzanalyse jedes Bereichs gegen&#252;ber allen anderen (&#8222;one against the rest&#8220;) f&#252;r den Progresstest 2013.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="481" width="749">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 4: Distributions of the discriminant function values for the questions in the competency domains after performing two-class discriminant analysis for each domain in relation to all other domains (one-against-the-rest) for the 2017 progress test.</Mark1></Pgraph><Pgraph> </Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 4: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche nach Durchf&#252;hrung einer Zwei-Klassen Diskriminanzanalyse jedes Bereichs gegen&#252;ber alle anderen (&#8222;one against the rest&#8220;) f&#252;r den Progresstest 2017.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="481" width="749">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 5: Distributions of the discriminant function values for the questions in the practical clinical competency domain and the theoretical clinical competency domain after performing two-class discriminant analysis for the progress tests 2013&#8211;2017.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 5: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche &#8222;klinisch-praktisch&#8220; und &#8222;klinisch-theoretisch&#8220; nach Durchf&#252;hrung einer Zwei-Klassen-Diskriminanzanalyse f&#252;r die Progresstests 2013&#8211;2017.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="481" width="749">
          <MediaNo>6</MediaNo>
          <MediaID language="en">6en</MediaID>
          <MediaID language="de">6de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure 6: Distributions of the discriminant function values for the questions in the scientific competence domain and the theoretical clinical competence domain after performing two-class discriminant analysis for the progress tests 2013&#8211;2017.</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 6: Verteilungen der Diskriminanzfunktionswerte der Aufgaben der Kompetenzbereiche &#8222;Wissenschaftskompetenz&#8220; und &#8222;klinisch-theoretische Kompetenz&#8220; nach Durchf&#252;hrung einer Zwei-Klassen-Diskriminanzanalyse f&#252;r die Progresstests 2013&#8211;2017.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>6</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="zma001299.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;1.pdf" size="259811" url="">1en</MediaID>
          <MediaID filename="zma001299.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;1.pdf" size="390326" url="">1de</MediaID>
          <AttachmentTitle language="en">Examples of competency-specific questions from the 2017 competency-based progress test</AttachmentTitle>
          <AttachmentTitle language="de">Beispiele f&#252;r Fragen aus den Kompetenzbereichen des studentischen kompetenzorientierten Progresstests 2017</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>1</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>