<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001685</Identifier>
    <IdentifierDoi>10.3205/zma001685</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0016855</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">Measuring personal characteristics in applicants to German medical schools: Piloting an online Situational Judgement Test with an open-ended response format</Title>
      <TitleTranslated language="de">Erfassung von pers&#246;nlichen Eigenschaften von Medizinstudiumbewerber&#42;innen in Deutschland: Pilotierung eines Online Situational Judgement Tests mit Freitextformat</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Knorr</Lastname>
          <LastnameHeading>Knorr</LastnameHeading>
          <Firstname>Mirjana</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address language="en">University Medical Center Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Martinistr. 52, D-20251 Hamburg, Germany<Affiliation>University Medical Center Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Germany</Affiliation></Address>
        <Address language="de">Universit&#228;tsklinikum Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Martinistr. 52, 20251 Hamburg, Deutschland<Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Deutschland</Affiliation></Address>
        <Email>m.knorr&#64;uke.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Mielke</Lastname>
          <LastnameHeading>Mielke</LastnameHeading>
          <Firstname>Ina</Firstname>
          <Initials>I</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medical Center Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Deutschland</Affiliation>
        </Address>
        <Email>i.mielke&#64;uke.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Amelung</Lastname>
          <LastnameHeading>Amelung</LastnameHeading>
          <Firstname>Dorothee</Firstname>
          <Initials>D</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University of Heidelberg, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>Dorothee.Amelung&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Safari</Lastname>
          <LastnameHeading>Safari</LastnameHeading>
          <Firstname>Mahla</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University of Heidelberg, Heidelberg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Heidelberg, Heidelberg, Deutschland</Affiliation>
        </Address>
        <Email>mahla.safari&#64;med.uni-heidelberg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Gr&#246;ne</Lastname>
          <LastnameHeading>Gr&#246;ne</LastnameHeading>
          <Firstname>Oana R.</Firstname>
          <Initials>OR</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Medical Center Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Arbeitsgruppe Auswahlverfahren, Hamburg, Deutschland</Affiliation>
        </Address>
        <Email>o.groene&#64;uke.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Breil</Lastname>
          <LastnameHeading>Breil</LastnameHeading>
          <Firstname>Simon M.</Firstname>
          <Initials>SM</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University of M&#252;nster, M&#252;nster, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t M&#252;nster, M&#252;nster, Deutschland</Affiliation>
        </Address>
        <Email>simon.breil&#64;uni-muenster.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>MacIntosh</Lastname>
          <LastnameHeading>MacIntosh</LastnameHeading>
          <Firstname>Alexander</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Acuity Insights, Toronto, Canada</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Acuity Insights, Toronto, Kanada</Affiliation>
        </Address>
        <Email>amacintosh&#64;acuityinsights.com</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">admission</Keyword>
      <Keyword language="en">situational judgement test</Keyword>
      <Keyword language="en">personal characteristics</Keyword>
      <Keyword language="en">Casper</Keyword>
      <Keyword language="de">Studierendenauswahl</Keyword>
      <Keyword language="de">Situational Judgement Test</Keyword>
      <Keyword language="de">pers&#246;nliche Eigenschaften</Keyword>
      <Keyword language="de">Casper</Keyword>
      <SectionHeading language="en">student selection</SectionHeading>
      <SectionHeading language="de">Studierendenauswahl</SectionHeading>
    </SubjectGroup>
    <DateReceived>20231103</DateReceived>
    <DateRevised>20240319</DateRevised>
    <DateAccepted>20240417</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20240617</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>41</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>30</ArticleNo>
    <Fundings>
      <Funding fundId="01GK1801A-F">Bundesministerium f&#252;r Bildung und Forschung</Funding>
      <Funding>Universit&#228;tsklinikum Hamburg-Eppendorf, Open-Access-Publikationsfond</Funding>
    </Fundings>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Ziele: </Mark1>Situational Judgement Tests (SJTs) sind eine kosteneffiziente Methode zur Beurteilung von pers&#246;nlichen Eigenschaften (z.B. Empathie, Professionalit&#228;t, ethisches Denken) bei der Zulassung zum Medizinstudium. Die Durchf&#252;hrung komplexer SJTs mit offenem Antwortformat ist in j&#252;ngster Zeit einfacher geworden. Es fehlen jedoch Untersuchungen zu ihrer Anwendbarkeit im deutschen Kontext. Diese Pilotstudie testet die Akzeptanz, Reliabilit&#228;t, Subgruppenunterschiede und Validit&#228;t eines in Kanada entwickelten Online-SJTs mit offenem Antwortformat (&#8222;Casper&#8220;).</Pgraph><Pgraph><Mark1>Methoden: </Mark1>Studienbewerber&#42;innen aus Deutschland und Medizinstudierende aus Hamburg wurden eingeladen, Casper in den Jahren 2020 und 2021 zu absolvieren. Der Test bestand aus 12 video- und textbasierten Szenarien, auf die jeweils drei offene Fragen folgten. Die Teilnehmenden bewerteten anschlie&#223;end ihre Testerfahrung in einer Online-Umfrage. Daten zu soziodemografischen Merkmalen, weiteren Zulassungskriterien (Abitur, TMS, HAM-Nat, HAM-SJT) und zum Studienerfolg (OSCE) waren in einer zentralen Forschungsdatenbank (stav) verf&#252;gbar.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Gesamtstichprobe bestand aus 582 Teilnehmenden. Die allgemeine Wahrnehmung von Casper durch die Testteilnehmenden war positiv. Die interne Konsistenz war in beiden Jahren zufriedenstellend (<Mark2>&#945;</Mark2>&#61;0,73; 0,82), w&#228;hrend die Interrater-&#220;bereinstimmung m&#228;&#223;ig war (<Mark2>ICC</Mark2>(1,2)&#61;0,54). Weibliche Teilnehmerinnen (<Mark2>d</Mark2>&#61;0,37) oder Teilnehmende ohne Migrationshintergrund (<Mark2>d</Mark2>&#61;0,40) erzielten h&#246;here Testwerte. Die Casper Testwerte korrelierten mit dem HAM-SJT (<Mark2>r</Mark2>&#61;.18), aber nicht mit der Leistung in OSCE-Kommunikationsstationen. Der Test zeigte auch Zusammenh&#228;nge mit der Abiturnote (<Mark2>r</Mark2>&#61;-.15), dem TMS (<Mark2>r</Mark2>&#61;.18) und dem HAM-Nat-Subtest f&#252;r logisches Denken (<Mark2>r</Mark2>&#61;.23).</Pgraph><Pgraph><Mark1>Schlussfolgerungen: </Mark1>Die Studie liefert positive Belege f&#252;r die Akzeptanz, interne Konsistenz und konvergente Validit&#228;t von Casper. Die Auswahl und Schulung der Beurteiler&#42;innen sowie die Inhalte der Szenarien bed&#252;rfen weiterer Untersuchungen und Anpassungen an den deutschen Kontext, um die Interrater-Reliabilit&#228;t und pr&#228;diktive Validit&#228;t zu verbessern.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Objectives: </Mark1>Situational Judgement Tests (SJT) are a cost-efficient method for the assessment of personal characteristics (e.g., empathy, professionalism, ethical thinking) in medical school admission. Recently, complex open-ended response format SJTs have become more feasible to conduct. However, research on their applicability to a German context is missing. This pilot study tests the acceptability, reliability, subgroup differences, and validity of an online SJT with open-ended response format developed in Canada (&#8220;Casper&#8221;).</Pgraph><Pgraph><Mark1>Methods:</Mark1> German medical school applicants and students from Hamburg were invited to take Casper in 2020 and 2021. The test consisted of 12 video- and text-based scenarios, each followed by three open-ended questions. Participants subsequently evaluated their test experience in an online survey. Data on sociodemographic characteristics, other admission criteria (Abitur, TMS, HAM-Nat, HAM-SJT) and study success (OSCE) was available in a central research database (stav). </Pgraph><Pgraph><Mark1>Results: </Mark1>The full sample consisted of 582 participants. Test-takers&#8217; global perception of Casper was positive. Internal consistency was satisfactory in both years (<Mark2>&#945;</Mark2>&#61;0.73; 0.82) while interrater agreement was moderate (ICC(1,2)&#61;0.54). Participants who were female (<Mark2>d</Mark2>&#61;0.37) or did not have a migration background (<Mark2>d</Mark2>&#61;0.40) received higher scores. Casper scores correlated with HAM-SJT (<Mark2>r</Mark2>&#61;.18) but not with OSCE communication stations performance. The test was also related to Abitur grades (<Mark2>r</Mark2>&#61;-.15), the TMS (<Mark2>r</Mark2>&#61;.18), and HAM-Nat logical reasoning scores (<Mark2>r</Mark2>&#61;.23). </Pgraph><Pgraph><Mark1>Conclusion: </Mark1>This study provides positive evidence for the acceptability, internal consistency, and convergent validity of Casper. The selection and training of raters as well as the scenario content require further observation and adjustments to a German context to improve interrater reliability and predictive validity.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="1. Introduction">
      <MainHeadline>1. Introduction</MainHeadline><SubHeadline>1.1. Background</SubHeadline><Pgraph>Personal characteristics of future physicians such as ethical thinking, professionalism, and social skills, have gained increased importance in competency frameworks for medical education <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Likewise, these characteristics were emphasized in the &#8220;Masterplan Medizinstudium 2020&#8221;, a 2017 resolution by the federal and regional governments of Germany to regulate the reformation of medical curricula <TextLink reference="4"></TextLink>. One of the directives in the resolution was to not exclusively focus on high-school grades or results of aptitude tests <TextLink reference="5"></TextLink> but to attach more importance to personal characteristics in the admission process <TextLink reference="4"></TextLink>. The current main methods used to evaluate such characteristics are traditional or multiple mini-interviews (MMIs) <TextLink reference="6"></TextLink> and professional pre-qualifications (i.e. completed vocational training, volunteer work). However, both methods have limitations. Interviews are considered inefficient and resource-intensive for the assessment of an entire pool of multiple thousand applicants, especially considering the amount of interviewer time needed <TextLink reference="7"></TextLink>. Although preliminary supporting evidence exists that (when controlling for Abitur grade and cognitive test performance) a vocational training can predict study success <TextLink reference="8"></TextLink> it is yet unclear to what extent professional pre-qualifications are indicative of personal characteristics or clinical skills <TextLink reference="9"></TextLink>. The fairness of professional pre-qualifications as selection criteria can also be questioned as not every applicant has the opportunity to volunteer or to complete a three-year vocational training.</Pgraph><Pgraph>Therefore, we suggest Situational Judgement Tests <TextLink reference="10"></TextLink> as promising cost-efficient and evidence-based alternatives to interviews and professional pre-qualifications. SJTs present candidates with several short situation descriptions (scenarios) in a text or video format followed by instructions to identify what one would or should do in the described situation. Internationally, SJTs used for medical selection demonstrate good psychometric properties <TextLink reference="11"></TextLink> with a recent meta-analysis reporting a pooled estimate of <Mark2>r</Mark2>&#61;.32 for predicting interpersonal performance evaluations <TextLink reference="12"></TextLink>. Traditionally, SJTs use a closed-ended response format (i.e., choosing from, rating, or ranking a list of response alternatives). Due to technological advances, open-ended response format SJTs (i.e., applicants provide their response to an SJT scenario in a written text or in an audio&#47;video format) have recently become more feasible <TextLink reference="13"></TextLink>. Research indicates that these types of response formats might reduce minority-majority differences (i.e., performance differences between natives and immigrants) because multiple choice formats require more cognitive resources to understand and compare each of the provided response options whereas open-ended questions can be responded to when the core dilemma of a scenario is understood <TextLink reference="13"></TextLink>. In addition, it is assumed that open-ended response formats are less prone to faking <TextLink reference="14"></TextLink>. In health-care selection, research on open-ended response format SJTs has focused on Casper (formerly known as: Computer-based Assessment for Sampling Personal Characteristics), a digitally administered SJT which is currently offered in English and French. In these studies, Casper demonstrated good acceptability and reliability <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, fewer minority-majority performance differences compared to cognitive tests <TextLink reference="17"></TextLink>, and a correlation with later performance at licensure exam subtests which focus on communicational and ethical aspects <TextLink reference="18"></TextLink>. </Pgraph><Pgraph>Despite their potential benefits compared to interviews or professional pre-qualifications, SJTs currently play a minor role in German medical admission and supporting evidence is limited. The University of Heidelberg developed a video-based SJT for self-assessment purposes <TextLink reference="19"></TextLink> and the University of Hamburg recently introduced a paper-pencil SJT (Hamburger Situational Judgement Test, HAM-SJT) for their undergraduate admission process <TextLink reference="20"></TextLink>. Both SJTs use a closed-ended response format and to our knowledge, an SJT with an open-ended format has not yet been tested in a medical selection process in Germany.</Pgraph><SubHeadline>1.2. Aim of the study</SubHeadline><Pgraph>In this study, we piloted Casper as an online-SJT with an open-ended response format that could potentially be administered for high-stakes testing in Germany in the future. Our goal was to analyze the acceptability, reliability, subgroup performance differences as well as the convergent (i.e., relationship to other measures of personal characteristics) and discriminant (i.e., relationship to cognitive admission criteria) validity in comparison to the international evidence on Casper.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="1. Einleitung">
      <MainHeadline>1. Einleitung</MainHeadline><SubHeadline>1.1. Hintergrund</SubHeadline><Pgraph>Pers&#246;nliche Eigenschaften zuk&#252;nftiger &#196;rzt&#42;innen, wie beispielsweise ethisches Denken, Professionalit&#228;t und soziale Kompetenz, haben in den Kompetenzrahmenwerken f&#252;r die medizinische Ausbildung zunehmend an Bedeutung gewonnen <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Diese Eigenschaften wurden auch im &#34;Masterplan Medizinstudium 2020&#34; hervorgehoben, einem Beschluss von Bund und L&#228;ndern aus dem Jahr 2017, der die Reform der medizinischen Curricula regelt <TextLink reference="4"></TextLink>. Eine der Richtlinien des Beschlusses war, sich nicht ausschlie&#223;lich auf Schulnoten oder Ergebnisse von Eignungstests <TextLink reference="5"></TextLink> zu konzentrieren, sondern den pers&#246;nlichen Eigenschaften im Zulassungsverfahren mehr Bedeutung beizumessen <TextLink reference="4"></TextLink>. Die derzeit wichtigsten Methoden zur Bewertung solcher Merkmale sind traditionelle oder multiple Mini-Interviews (MMI) <TextLink reference="6"></TextLink> und berufspraktische Vorerfahrungen (z. B. abgeschlossene Berufsausbildung, Dienst). Beide Methoden haben jedoch ihre Grenzen. Interviews gelten als ineffizient und ressourcenintensiv f&#252;r die Beurteilung von mehreren tausend Bewerber&#42;innen, insbesondere, wenn man den Zeitaufwand f&#252;r Interviewer&#42;innen ber&#252;cksichtigt <TextLink reference="7"></TextLink>. Obwohl es vorl&#228;ufige Belege daf&#252;r gibt, dass (bei Kontrolle der Abiturnote und der kognitiven Testleistungen) eine Berufsausbildung den Studienerfolg vorhersagen kann <TextLink reference="8"></TextLink>, ist noch unklar, inwieweit berufspraktische Vorerfahrungen auf pers&#246;nliche Eigenschaften oder klinische Kompetenzen schlie&#223;en lassen <TextLink reference="9"></TextLink>. Auch die Fairness berufspraktischer Vorerfahrungen als Auswahlkriterium kann in Frage gestellt werden, da nicht jede&#42;r Bewerber&#42;in die M&#246;glichkeit hat, einen Freiwilligendienst oder eine dreij&#228;hrige Berufsausbildung zu absolvieren.</Pgraph><Pgraph>Vor diesem Hintergrund schlagen wir Situational Judgement Tests <TextLink reference="10"></TextLink> als vielversprechende kosteneffiziente und evidenzbasierte Alternative zu Interviews und berufspraktischen Vorerfahrungen vor. Bei SJTs werden den Bewerber:innen mehrere kurze Situationsbeschreibungen (Szenarien) in einem Text- oder Videoformat gezeigt, gefolgt von der Aufgabe, zu beschreiben, was man in der Situation tun w&#252;rde oder sollte. International zeigen SJTs zur medizinischen Auswahl gute psychometrische Eigenschaften <TextLink reference="11"></TextLink>, wobei eine aktuelle Metaanalyse einen gepoolten Sch&#228;tzwert von <Mark2>r</Mark2>&#61;.32 f&#252;r die Vorhersage von Leistungen in interpersonellen Kriterien ergab <TextLink reference="12"></TextLink>. Typischerweise verwenden SJTs ein geschlossenes Antwortformat (d.h. vorgegebene Antwortalternativen werden ausgew&#228;hlt, bewertet oder in eine Rangreihe gebracht). Aufgrund des technologischen Fortschritts sind SJTs mit offenem Antwortformat (d.h. Bewerber&#42;innen antworten auf ein SJT-Szenario mit einem schriftlichen Text oder einer Audio-&#47;Videoaufnahme) mittlerweile einfacher durchf&#252;hrbar <TextLink reference="13"></TextLink>. Forschungsergebnisse deuten darauf hin, dass diese Art von Antwortformaten Subgruppenunterschiede (d.h. Leistungsunterschiede zwischen Personen mit und ohne Migrationshintergrund) verringern k&#246;nnten, da Multiple-Choice-Formate mehr kognitive Ressourcen erfordern, um jede der angebotenen Antwortm&#246;glichkeiten zu verstehen und zu vergleichen, w&#228;hrend offene Fragen beantwortet werden k&#246;nnen, wenn das Kerndilemma eines Szenarios verstanden wurde <TextLink reference="13"></TextLink>. Dar&#252;ber hinaus wird angenommen, dass offene Antwortformate weniger anf&#228;llig f&#252;r Verf&#228;lschungen sind <TextLink reference="14"></TextLink>. Bei der Auswahl von Bewerber&#42;innen im Gesundheitswesen konzentrierte sich die Forschung zu SJTs mit offenem Antwortformat bisher auf Casper (Name urspr&#252;nglich abgeleitet von: Computer-based Assessment for Sampling Personal Characteristics), einem digital durchgef&#252;hrten SJT, der derzeit in englischer und franz&#246;sischer Sprache angeboten wird. In den bisherigen Studien zeigte Casper eine gute Akzeptanz und Reliabilit&#228;t <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>, geringere Subgruppenunterschiede im Vergleich zu kognitiven Tests <TextLink reference="17"></TextLink>, und eine Korrelation mit der sp&#228;teren Leistung in Untertests von Approbationspr&#252;fungen, welche den Schwerpunkt auf kommunikative und ethische Aspekte legen <TextLink reference="18"></TextLink>. </Pgraph><Pgraph>Trotz ihrer potenziellen Vorteile im Vergleich zu Interviews oder beruflichen Qualifikationen spielen SJTs derzeit eine untergeordnete Rolle bei der Zulassung zum Medizinstudium in Deutschland, und es gibt nur wenig wissenschaftliche Evidenz. Die Universit&#228;t Heidelberg hat einen videobasierten SJT zur Selbsteinsch&#228;tzung entwickelt <TextLink reference="19"></TextLink> und die Universit&#228;t Hamburg hat k&#252;rzlich einen Papier-Bleistift-SJT (Hamburger Situational Judgement Test, HAM-SJT) f&#252;r ihr Auswahlverfahren eingef&#252;hrt <TextLink reference="20"></TextLink>. Beide SJTs verwenden ein geschlossenes Antwortformat und unseres Wissens nach wurde ein SJT mit einem offenen Format noch nicht in einem medizinischen Auswahlverfahren in Deutschland getestet.</Pgraph><SubHeadline>1.2. Ziele der Studie</SubHeadline><Pgraph>In dieser Studie haben wir Casper als Online-SJT mit einem offenen Antwortformat pilotiert, welcher potentiell zuk&#252;nftig in Deutschland als Auswahltests eingesetzt werden k&#246;nnte. Unser Ziel war die Analyse der Akzeptanz, Reliabilit&#228;t, Leistungsunterschiede zwischen Subgruppen sowie konvergenten (d.h. Beziehung zu anderen Instrumenten zur Messung pers&#246;nlicher Eigenschaften) und diskriminanten (d.h. Beziehung zu kognitiven Zulassungskriterien) Validit&#228;t im Vergleich zu bisherigen internationalen Forschungsergebnissen zu Casper.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="2. Methods">
      <MainHeadline>2. Methods</MainHeadline><SubHeadline>2.1. Procedure</SubHeadline><Pgraph>This study took place on five test dates over the summers of 2020 and 2021. Applicants were invited to sign up for one of the test dates if they had registered for any of the major German medical school admission tests (Test f&#252;r medizinische Studieng&#228;nge (TMS), Hamburger Naturwissenschaftstest (HAM-Nat), Hamburger Situational Judgement Test (HAM-SJT), see table 1 <ImgLink imgNo="1" imgType="table"/>) and had indicated their interest to participate in research studies on student selection. In addition, all medical students at the University of Hamburg, irrespective of study year, received an invitation to take part in this study via an electronic student newsletter. To incentivize study participation, all participants received feedback on their Casper performance and had the chance to win vouchers over 50&#8364; for an online store. Test fees were not charged in this study but can roughly be estimated to range between 46 and 95 EUR based on the current pricing (2024) in North-America.   </Pgraph><SubHeadline>2.2. Casper</SubHeadline><Pgraph>Casper focuses on assessing inter-individual differences in ten personal characteristics including collaboration, communication, empathy, equity, ethics, motivation, problem solving, professionalism, resilience, and self-awareness. Each scenario is usually designed to measure more than one characteristic and for each participant the composition of different scenarios ensures all ten characteristics are covered. In line with findings that such characteristics cannot be reliably discriminated within SJTs <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, Casper only provides one overall score. </Pgraph><Pgraph>In this study, the assessment consisted of eight video and four text scenarios. Each scenario was accompanied by three questions and participants were asked to provide their responses in an open text format within a 5-minute time limit per scenario. English language scenarios were selected from an existing pool of which six were used both in 2020 and 2021 while the six other scenarios varied between years to include a broader variety of scenarios. Video dialogues and questions were translated into German by the German research team: A linguist and public health scientist fluent in English wrote the transcripts of the video dialogues, which then were translated into German by a German-native psychologist. This translation was reviewed by a third person (German-native psychologist). Discrepancies were discussed and solved within the team. Videos were either subtitled (2020) or provided with a voice-over (2021). Participants took the test via the Casper online-platform. English language examples of typical Casper scenarios and questions can be found on the official website &#91;<Hyperlink href="https:&#47;&#47;acuityinsights.app&#47;test-prep-casper&#47;">https:&#47;&#47;acuityinsights.app&#47;test-prep-casper&#47;</Hyperlink>&#93;.</Pgraph><Pgraph>In 2020, 52 faculty staff members and student assistants from different German universities rated participants&#8217; responses. Of these, 15 provided their ratings again the following year. In line with widening participation policies it is recommended to include raters that reflect patient diversity and promote inclusivity in medicine within rater-based selection tools <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink> in order to reduce bias and enhance fairness by considering different perspectives and backgrounds in the evaluation process. Thus, to diversify the rater pool for the 2021 study, we recruited 11 additional community raters via online platforms for temporary job offers and e-mail lists of associations for people with a migration background. All raters completed an online on-demand training offered in English (2020) or German (2021) language. On average, raters needed 46.19 seconds (<Mark2>SD</Mark2>&#61;22.72) for the rating of one response with a mean count of 125.60 words (<Mark2>SD</Mark2>&#61;38.05). Faculty raters completed their ratings within their working hours while community raters were compensated with a voucher for an online store (0.50 EUR per rated response). After completing their ratings, raters in the 2021 study were asked to provide sociodemographic data in a voluntary survey.</Pgraph><Pgraph>Each response to a scenario was evaluated by one (2020) or two raters (2021) on a 9-point global rating scale ranging from 1&#61;&#8220;poor&#8221; to 9&#61;&#8220;excellent&#8221; with no specific behavioral anchors. For each scenario, raters received guidelines on how to consider the specific construct(s) the scenario was designed to measure in their ratings. They were instructed to rate the quality of each response relative to the corresponding ones provided by other participants. </Pgraph><Pgraph>Raters were assigned responses through an online rating platform. After a certain number of ratings, they were able to switch to a new scenario to avoid fatigue. For each individual candidate, an algorithm of the online platform ensured that each scenario was rated by a different rater. In case of two raters, both ratings were averaged to generate a scenario score. The overall Casper score is delivered as a mean over twelve scenarios z-standardized within a cohort.</Pgraph><SubHeadline>2.3. Other measures</SubHeadline><Pgraph>All study participants had previously agreed to take part in an ongoing research project (Studierendenauswahlverbund, &#8220;stav&#8221;, &#91;<Hyperlink href="https:&#47;&#47;www.projekt-stav.de&#47;index.php">https:&#47;&#47;www.projekt-stav.de&#47;index.php</Hyperlink>&#93; where admission data, study performance data of admitted students, and data from other research studies and a sociodemographic questionnaire (see attachment 1 <AttachmentLink attachmentNo="1"/>) are matched and stored in a central database. Casper data could thereby be matched to the following data sources available in this database. A summary of all instruments can also be found in table 1 <ImgLink imgNo="1" imgType="table"/>. </Pgraph><SubHeadline2>2.3.1. Acceptability</SubHeadline2><Pgraph>Upon completion of the Casper test, participants were directed to an online survey about their test experience. In addition to an overall evaluation of Casper on a 10-point scale, candidates were asked, for example, to indicate their perception of the fairness and difficulty of Casper on 7-point scales (the higher the evaluation, the more favorable; see attachment 2 <AttachmentLink attachmentNo="2"/>). Survey data was only available for the 2020 test dates.</Pgraph><SubHeadline2>2.3.2. Sociodemographic characteristics</SubHeadline2><Pgraph>To compare this study to previous findings on subgroup differences in SJTs <TextLink reference="17"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, we included gender, parents&#8217; highest level of education (i.e., at least one of the parents holds an academic degree) as indicator for socio-economic status (SES) as well as &#8220;migration background&#8221; as indicator for ethnicity&#47;nationality. Following the definition of the German census <TextLink reference="28"></TextLink> a migration background was considered if at least one of the following was true: the person was not born in Germany, has a non-German citizenship, or one of the parents was not born in Germany.</Pgraph><SubHeadline2>2.3.2. Validity</SubHeadline2><Pgraph>To study convergent validity, two additional measures were included: the <Mark2>HAM-SJT</Mark2> and communication performance in an Objective Structured Clinical Exam (<Mark2>OSCE</Mark2>). The <Mark2>HAM-SJT</Mark2> is a paper-pencil SJT with a closed-ended response format that was added to the admissions process to medical school at the University of Hamburg in 2020 <TextLink reference="20"></TextLink>, <TextLink reference="29"></TextLink>. Students at the University of Hamburg typically take their first OSCE, an exam that consists of several short standardized interactions (stations) evaluated by raters <TextLink reference="30"></TextLink>, after one and a half years of studies. Since medical students from all cohorts were invited to take part in this study, our participants took this OSCE between 2016 and 2022. Between these years the twelve stations of this OSCE were comparable in terms of content and rating checklists. We used the results (in percent) of two stations with simulated patients designed to target communication skills (communication skills station, history taking station) <TextLink reference="31"></TextLink>. Data for the communication skills station was only available for students who took the OSCE before the summer of 2020 because this station could not take place during the COVID-19 pandemic. </Pgraph><Pgraph>For the analysis of discriminant validity we compared the Casper results to cognitive admission criteria including the German <Mark2>Abitur grade</Mark2> (equivalent to school-leaving grade point average), performance at the cognitive admission test <Mark2>HAM-Nat</Mark2>, a multiple-choice test with subtests on knowledge in natural sciences <TextLink reference="32"></TextLink>, arithmetic problem solving, and logical reasoning, and performance at the <Mark2>Test f&#252;r medizinische Studieng&#228;nge (TMS)</Mark2>, a subject-specific admission test for medicine and other healthcare studies <TextLink reference="33"></TextLink>. </Pgraph><SubHeadline>2.4. Data analysis</SubHeadline><Pgraph>All analyses were conducted in R-4.2.1 &#91;<Hyperlink href="https:&#47;&#47;www.r-project.org&#47;">https:&#47;&#47;www.r-project.org&#47;</Hyperlink>&#93;. For the analysis of participants&#8217; responses to the acceptability questionnaire, we calculated basic descriptive statistics for quantitative evaluations and counted the frequencies of commonly mentioned topics in open text format questions using MAXQDA 2022 &#91;<Hyperlink href="https:&#47;&#47;www.maxqda.com&#47;de&#47;">https:&#47;&#47;www.maxqda.com&#47;de&#47;</Hyperlink>&#93;. Reliability of Casper was analyzed in terms of internal consistency over 12 scenarios (Cronbach&#8217;s alpha). For responses that were rated by two independent raters (2021 sample), we analyzed interrater agreement by means of intra class correlation (ICC(1,2)). We investigated individual subgroup differences in mean performance with Welch <Mark2>t</Mark2>-tests for independent samples; effect sizes were reported as Cohen&#8217;s <Mark2>d</Mark2>. Convergent and discriminant validity was analyzed using Pearson correlations. </Pgraph><Pgraph>We based analyses of subgroup differences and validity on the overall sample. For cases in which participants took part in both years, the z-score of the more recent Casper date (2021) was used. Unpaired Welch <Mark2>t</Mark2>-Tests and Mann-Whitney-U-Tests were conducted to ensure that performance on study variables was comparable between study cohorts. The level of significance for all analyses was <Mark2>&#945;</Mark2>&#61;.05. The R code, a full data analysis report, all appendices, and information on how to request the original data can be found at &#91;<Hyperlink href="https:&#47;&#47;osf.io&#47;9daz3&#47;">https:&#47;&#47;osf.io&#47;9daz3&#47;</Hyperlink>&#93;. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="2. Methoden">
      <MainHeadline>2. Methoden</MainHeadline><SubHeadline>2.1. Vorgehen</SubHeadline><Pgraph>Die Studie fand an f&#252;nf Testterminen im Sommer 2020 und Sommer 2021 statt. Studienbewerber&#42;innen wurden eingeladen, sich f&#252;r einen der Testtermine zu registrieren, wenn sie sich f&#252;r einen der gro&#223;en deutschen Zulassungstests f&#252;r medizinische Studieng&#228;nge (Test f&#252;r medizinische Studieng&#228;nge (TMS), Hamburger Naturwissenschaftstest (HAM-Nat), Hamburger Situational Judgement Test (HAM-SJT), siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>) angemeldet und ihr Interesse an der Teilnahme von Forschungsstudien zur Studierendenauswahl angegeben hatten. Dar&#252;ber hinaus wurden alle Medizinstudierenden der Universit&#228;t Hamburg, unabh&#228;ngig vom Studienjahr, &#252;ber einen elektronischen Studierenden-Newsletter zur Teilnahme an der Studie eingeladen. Um Anreize f&#252;r die Studienteilnahme zu schaffen, erhielten alle Teilnehmer&#42;innen Feedback zu ihrer Casper-Leistung und hatten die Chance, 50 &#8364;-Gutscheine f&#252;r einen Online-Shop zu gewinnen. Testgeb&#252;hren wurden in dieser Studie nicht erhoben, k&#246;nnen aber basierend auf den aktuellen Preisen (2024) in Nordamerika grob auf 46 bis 95 EUR gesch&#228;tzt werden.</Pgraph><SubHeadline>2.2. Casper</SubHeadline><Pgraph>Casper konzentriert sich auf die Beurteilung interindividueller Unterschiede in zehn pers&#246;nlichen Eigenschaften, darunter Zusammenarbeit, Kommunikation, Empathie, Gerechtigkeit, Ethik, Motivation, Probleml&#246;sung, Professionalit&#228;t, Resilienz und Selbstbewusstsein. Jedes Szenario ist in der Regel darauf ausgelegt, mehr als ein Merkmal zu messen, und bei der Zusammenstellung verschiedener Szenarien ist f&#252;r jede&#42;n Teilnehmer&#42;in sichergestellt, dass alle zehn Merkmale abgedeckt werden. Im Einklang mit den Erkenntnissen, dass diese Eigenschaften innerhalb von SJTs nicht zuverl&#228;ssig unterschieden werden k&#246;nnen <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, liefert Casper nur eine Gesamtbewertung.</Pgraph><Pgraph>In dieser Studie bestand der Test aus acht Video- und vier Textszenarien. Auf jedes Szenario folgten drei Fragen und die Teilnehmer&#42;innen wurden gebeten, ihre Antworten in einem offenen Textformat innerhalb von 5 Minuten pro Szenario einzugeben. Aus einem bestehenden Pool wurden englischsprachige Szenarien ausgew&#228;hlt, von denen sechs sowohl im Jahr 2020 als auch im Jahr 2021 verwendet wurden, w&#228;hrend die anderen sechs Szenarien zwischen den Jahren variierten, um eine breitere Vielfalt an Szenarien abzudecken. Die Videodialoge und Fragen wurden vom deutschen Forschungsteam ins Deutsche &#252;bersetzt: Eine Linguistin und Gesundheitswissenschaftlerin, die flie&#223;end Englisch spricht, verfasste die Transkripte der Videodialoge, die dann von einer deutschsprachigen Psychologin ins Deutsche &#252;bersetzt wurden. Diese &#220;bersetzung wurde von einer dritten Person (deutschsprachige Psychologin) &#252;berpr&#252;ft. Unstimmigkeiten wurden im Team besprochen und gel&#246;st. Die Videos wurden entweder mit Untertiteln (2020) oder mit einem Voice-Over versehen (2021). Die Teilnehmer&#42;innen absolvierten den Test &#252;ber die Online-Plattform von Casper. Englischsprachige Beispiele typischer Casper-Szenarien und Fragen sind &#252;ber die offizielle Website verf&#252;gbar &#91;<Hyperlink href="https:&#47;&#47;acuityinsights.app&#47;test-prep-casper&#47;">https:&#47;&#47;acuityinsights.app&#47;test-prep-casper&#47;</Hyperlink>&#93;.</Pgraph><Pgraph>Im Jahr 2020 bewerteten 52 Fakult&#228;tsangeh&#246;rige und studentische Hilfskr&#228;fte verschiedener deutscher Hochschulen die Antworten der Teilnehmer&#42;innen. Davon beteiligten sich 15 Personen im darauffolgenden Jahr erneut bei der Bewertung. Im Einklang mit Strategien zur Erh&#246;hung der Chancengerechtigkeit in der Hochschulzulassung wird empfohlen, Beurteiler&#42;innen einzubeziehen, die die Vielfalt der Patient&#42;innen widerspiegeln und die Inklusivit&#228;t in beurteilerbasierten Auswahlinstrumenten in der Medizin f&#246;rdern <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, um Voreingenommenheit zu reduzieren und die Fairness durch die Ber&#252;cksichtigung unterschiedlicher Perspektiven und Hintergr&#252;nde im Bewertungsprozess zu erh&#246;hen. Mit dem Ziel, den Beurteiler&#42;innenpool f&#252;r die Studie 2021 zu diversifizieren, haben wir daher 11 zus&#228;tzliche Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung &#252;ber Online-Plattformen f&#252;r befristete Stellenangebote und E-Mail-Listen von Vereinen f&#252;r Menschen mit Migrationshintergrund rekrutiert. Alle Beurteiler&#42;innen absolvierten eine Online-On-Demand-Schulung, die in englischer (2020) oder deutscher (2021) Sprache angeboten wurde. Im Durchschnitt ben&#246;tigten die Beurteiler&#42;innen 46,19 Sekunden (SD&#61;22,72) f&#252;r die Bewertung einer Antwort mit einer durchschnittlichen Anzahl von 125,60 W&#246;rtern (SD&#61;38,05). Die Beurteiler&#42;innen der Fakult&#228;t gaben ihre Bewertungen innerhalb ihrer Arbeitszeit ab, w&#228;hrend die Beurteiler&#42;innen der Allgemeinbev&#246;lkerung einen Gutschein f&#252;r einen Online-Shop als Aufwandsentsch&#228;digung erhielten (0,50 EUR pro bewerteter Antwort). Nach Abschluss ihrer Bewertungen wurden die Beurteiler&#42;innen im Jahr 2021 gebeten, im Rahmen einer freiwilligen Umfrage soziodemografische Daten anzugeben.</Pgraph><Pgraph>Jede Antwort auf ein Szenario wurde von einem&#42;r (2020) oder zwei Beurteiler&#42;innen (2021) auf einer 9-stufigen globalen Bewertungsskala von 1&#61;&#8222;schlecht&#8220; bis 9&#61;&#8222;ausgezeichnet&#8220; ohne spezifische Verhaltensanker bewertet. F&#252;r jedes Szenario erhielten die Beurteiler&#42;innen einen Leitfaden, wie sie die spezifischen Konstrukte, die das Szenario messen sollte, in ihren Bewertungen ber&#252;cksichtigen sollten. Die Instruktion lautete, die Qualit&#228;t jeder Antwort im Vergleich zu den entsprechenden Antworten anderer Teilnehmer&#42;innen zu bewerten. Den Beurteiler&#42;innen wurden die Textantworten &#252;ber eine Online-Bewertungsplattform zugewiesen. Nach einer bestimmten Anzahl an Bewertungen konnten sie auf ein neues Szenario umsteigen, um Erm&#252;dungserscheinungen vorzubeugen. &#220;ber einen Algorithmus der Online-Plattform wurde f&#252;r jede&#42;n Teilnehmer&#42;in sichergestellt, dass jedes Szenario von einem&#42;r anderen Beurteiler&#42;in bewertet wurde. Im Falle von zwei Beurteiler&#42;innen wurden beide Bewertungen zur Berechnung eines Szenariowertes gemittelt. Der vom Anbieter &#252;bermittelte Casper-Gesamtwert ist der innerhalb einer Kohorte z-standardisierte Mittelwert &#252;ber zw&#246;lf Szenarien.</Pgraph><SubHeadline>2.3. Weitere Variablen</SubHeadline><Pgraph>Alle Studienteilnehmer&#42;innen hatten sich zuvor bereit erkl&#228;rt, an einem laufenden Forschungsprojekt (Studierendenauswahlverbund, &#8222;stav&#8220;, &#91;<Hyperlink href="https:&#47;&#47;www.projekt-stav.de&#47;index.php">https:&#47;&#47;www.projekt-stav.de&#47;index.php</Hyperlink>&#93; teilzunehmen, in dem Zulassungsdaten, Studienleistungsdaten der zugelassenen Studierenden sowie Daten aus anderen Forschungsstudien und einem soziodemografischen Fragebogen (siehe Anhang 1 <AttachmentLink attachmentNo="1"/>) abgeglichen und in einer zentralen Datenbank gespeichert werden. Casper-Daten konnten dadurch mit den folgenden verf&#252;gbaren Datenquellen verkn&#252;pft werden. Eine &#220;bersicht aller Instrumente befindet sich zudem in Tabelle 1 <ImgLink imgNo="1" imgType="table"/>.</Pgraph><SubHeadline2>2.3.1. Akzeptanz</SubHeadline2><Pgraph>Nach Abschluss des Casper-Tests wurden die Teilnehmer&#42;innen zu einer Online-Umfrage &#252;ber ihre Testerfahrung weitergeleitet. Zus&#228;tzlich zu einer Gesamteinsch&#228;tzung von Casper auf einer 10-Punkte-Skala wurden die Teilnehmer&#42;innen beispielsweise gebeten, ihre Wahrnehmung der Fairness und Schwierigkeit von Casper auf einer 7-Punkte-Skala anzugeben (je h&#246;her die Einsch&#228;tzung, desto positiver; siehe Anhang 2 <AttachmentLink attachmentNo="2"/>). Daten aus dieser Umfrage waren nur f&#252;r die Testtermine in 2020 verf&#252;gbar.</Pgraph><SubHeadline2>2.3.2. Soziodemographische Merkmale</SubHeadline2><Pgraph>Um diese Studie mit fr&#252;heren Ergebnissen zu Subgruppenunterschieden bei SJTs vergleichen zu k&#246;nnen <TextLink reference="17"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, haben wir das Geschlecht, den h&#246;chsten Bildungsabschluss der Eltern (d. h. mindestens einer der Eltern hat einen akademischen Abschluss) als Indikator f&#252;r den sozio&#246;konomischen Status (SES) sowie Migrationshintergrund als Indikator f&#252;r Ethnizit&#228;t&#47;Nationalit&#228;t einbezogen. In Anlehnung an die Definition des Statistischen Bundesamtes <TextLink reference="28"></TextLink> wurde von einem Migrationshintergrund ausgegangen, wenn mindestens eine der folgenden Bedingungen zutraf: die Person wurde nicht in Deutschland geboren, hatte eine nichtdeutsche Staatsangeh&#246;rigkeit oder ein Elternteil wurde nicht in Deutschland geboren.</Pgraph><SubHeadline2>2.3.3. Validit&#228;t</SubHeadline2><Pgraph>Um die konvergente Validit&#228;t zu untersuchen, wurden zwei zus&#228;tzliche Messinstrumente einbezogen: der HAM-SJT sowie die Kommunikationsleistung in einer objektiven strukturierten klinischen Pr&#252;fung (OSCE). Der HAM-SJT ist ein Papier-Bleistift-SJT mit geschlossenem Antwortformat, der seit 2020 im Zulassungsverfahren f&#252;r das Medizinstudium an der Universit&#228;t Hamburg eingesetzt wird <TextLink reference="20"></TextLink>, <TextLink reference="29"></TextLink>. Studierende der Universit&#228;t Hamburg legen &#252;blicherweise ihre erste OSCE-Pr&#252;fung nach eineinhalb Jahren Studium ab. Die Pr&#252;fung besteht aus mehreren kurzen standardisierten Interaktionen (Stationen), die von Beurteiler&#42;innen bewertet werden <TextLink reference="30"></TextLink>. Da Medizinstudierende aller Kohorten zur Studienteilnahme eingeladen wurden, absolvierten die Teilnehmer&#42;innen ihre OSCE-Pr&#252;fung zwischen 2016 und 2022. Zwischen diesen Jahren waren die zw&#246;lf Stationen der OSCE-Pr&#252;fung hinsichtlich des Inhaltes und der Bewertungschecklisten vergleichbar. Wir haben die Ergebnisse (in Prozent) von zwei Stationen mit simulierten Patienten genutzt, die speziell auf Kommunikationsf&#228;higkeiten abzielten (Kommunikationsstation, Anamnesestation) <TextLink reference="31"></TextLink>. Daten zur Kommunikationsstation waren nur f&#252;r Studierende verf&#252;gbar, die vor dem Sommer 2020 an der OSCE-Pr&#252;fung teilgenommen haben, da diese Station w&#228;hrend der COVID-19-Pandemie nicht stattfinden konnte.</Pgraph><Pgraph>F&#252;r die Analyse der diskriminanten Validit&#228;t haben wir die Casper-Ergebnisse mit kognitiven Zulassungskriterien verglichen, einschlie&#223;lich der Abiturnote (entspricht dem Notendurchschnitt beim Schulabschluss), der Leistung beim Zulassungstest HAM-Nat, einem Multiple-Choice-Test mit Untertests zu Naturwissenschaften <TextLink reference="32"></TextLink>, arithmetischem Probleml&#246;sen und relationalem Schlie&#223;en sowie der Leistung beim Test f&#252;r medizinische Studieng&#228;nge (TMS), einem fachspezifischen Studierf&#228;higkeitstest f&#252;r Medizin und andere Gesundheitsstudieng&#228;nge <TextLink reference="33"></TextLink>. </Pgraph><SubHeadline>2.4. Datenanalyse</SubHeadline><Pgraph>Alle Analysen wurden in R-4.2.1 durchgef&#252;hrt &#91;<Hyperlink href="https:&#47;&#47;www.r-project.org&#47;">https:&#47;&#47;www.r-project.org&#47;</Hyperlink>&#93;. F&#252;r die Analyse der Antworten der Teilnehmer&#42;innen in der Umfrage zur Akzeptanz haben wir f&#252;r quantitative Fragen deskriptive Statistiken berechnet und in offenen Fragen die H&#228;ufigkeit relevanter Themen mittels MAXQDA 2022 gez&#228;hlt &#91;<Hyperlink href="https:&#47;&#47;www.maxqda.com&#47;de&#47;">https:&#47;&#47;www.maxqda.com&#47;de&#47;</Hyperlink>&#93;. Die Reliabilit&#228;t von Casper wurde anhand der internen Konsistenz &#252;ber 12 Szenarien (Cronbachs Alpha) analysiert. F&#252;r Antworten, die von zwei unabh&#228;ngigen Beurteiler&#42;innen bewertet wurden (Stichprobe 2021), haben wir die Interrater-&#220;bereinstimmung mittels Intraklassenkorrelation (ICC(1,2)) analysiert. Mittelwertsunterschiede in der Leistung zwischen einzelnen Subgruppen haben wir mit Welch-<Mark2>t</Mark2>-Tests f&#252;r unabh&#228;ngige Stichproben untersucht. Die Effektst&#228;rken wurden als Cohens d angegeben. Die konvergente und diskriminante Validit&#228;t wurde mithilfe von Pearson-Korrelationen analysiert.</Pgraph><Pgraph>Analysen der Subgruppenunterschiede und der Reliabilit&#228;t basieren auf der Gesamtstichprobe. F&#252;r F&#228;lle, in denen Teilnehmer&#42;innen in beiden Jahren teilnahmen, wurde der z-Wert des neueren Casper-Testdatums (2021) verwendet. Um sicherzustellen, dass die Leistung in den untersuchten Variablen zwischen den Studienkohorten vergleichbar war, wurden ungepaarte Welch-t-Tests und Mann-Whitney-U-Tests durchgef&#252;hrt. Das Signifikanzniveau f&#252;r alle Analysen betrug <Mark2>&#945;</Mark2>&#61;.05. Der R-Code, ein vollst&#228;ndiger Datenanalysebericht, alle Anh&#228;nge und Informationen zum Anfordern der Originaldaten sind unter &#91;<Hyperlink href="https:&#47;&#47;osf.io&#47;9daz3&#47;">https:&#47;&#47;osf.io&#47;9daz3&#47;</Hyperlink>&#93; einsehbar. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="3. Results">
      <MainHeadline>3. Results</MainHeadline><SubHeadline>3.1. Participants and raters</SubHeadline><Pgraph>Overall, 582 individuals participated in this pilot study including 74 medical students and 508 applicants. Twenty participants took the Casper in both 2020 and 2021. Participants&#8217; mean age was 21 years (<Mark2>SD</Mark2>&#61;3.30). Further sociodemographic information was available for around 64&#37; of the participants. In this subsample, 19&#37; identified as male, 36&#37; had a migration background, and 71&#37; had at least one parent holding a university degree (see table 2 <ImgLink imgNo="2" imgType="table"/>). Age, performance on Casper and other study variables were largely comparable between study cohorts (see attachment 3 <AttachmentLink attachmentNo="3"/>, p.1-2). Only HAM-SJT performance was significantly better in the 2021 cohort compared to the 2020 cohort (<Mark2>W</Mark2>&#61;3773.5, <Mark2>p</Mark2>&#60;.001, <Mark2>d</Mark2>&#61;0.62). Applicants and medical students did not differ in their average Casper performance (<Mark2>t</Mark2>(91.226)&#61;-1.16, <Mark2>p</Mark2>&#61;0.25, <Mark2>d</Mark2>&#61;0.16). Average performance in six video scenarios that were used both in 2020 (subtitles) and 2021 (voice-over) did not differ between years (<Mark2>t</Mark2>(465.16)&#61;-0.48, <Mark2>p</Mark2>&#61;0.63, <Mark2>d</Mark2>&#61;0.04).</Pgraph><Pgraph>Of the 26 raters in 2021, 15 of the faculty and 6 of the community raters provided demographic data (see table 3 <ImgLink imgNo="3" imgType="table"/>). Most notably, community raters had a more diverse educational background as compared to faculty raters (33&#37; vs. 83&#37; holding a university degree).</Pgraph><SubHeadline>3.2. Acceptability</SubHeadline><Pgraph>Overall, participants of the 2020 study evaluated Casper favorably with a mean rating of 7.55 (<Mark2>SD</Mark2>&#61;1.64, <Mark2>n</Mark2>&#61;368) on a 10-point scale. On 7-point scales, participants indicated that they were satisfied with their overall test experience (<Mark2>M</Mark2>&#61;5.40, <Mark2>SD</Mark2>&#61;1.19, <Mark2>n</Mark2>&#61;367) and perceived Casper as rather fair (<Mark2>M</Mark2>&#61;5.24, <Mark2>SD</Mark2>&#61;1.26, <Mark2>n</Mark2>&#61;354). Participants evaluated Casper as a bit less stressful when asked to compare it to other exams in general (<Mark2>M</Mark2>&#61;3.24, <Mark2>SD</Mark2>&#61;1.50, <Mark2>n</Mark2>&#61;359) and perceived it as neither difficult nor easy (<Mark2>M</Mark2>&#61;4.08, <Mark2>SD</Mark2>&#61;1.21, <Mark2>n</Mark2>&#61;356). In the open text format questions, the most frequently criticized aspect regarding the test experience was the short response time which made some participants feel that the test could systematically disadvantage applicants with less typing experience <Mark2>(n</Mark2>&#61;24) (see attachment 2 <AttachmentLink attachmentNo="2"/> for full results).</Pgraph><SubHeadline>3.3. Reliability</SubHeadline><Pgraph>The internal consistency for Casper scenario scores was <Mark2>&#945;</Mark2>&#61;0.73, 95&#37; CI &#91;0.69, 0.77&#93; in 2020 and <Mark2>&#945;</Mark2>&#61;0.82, 95&#37; CI &#91;0.79, 0.86&#93; in 2021. For responses evaluated by two raters in 2021, overall interrater agreement was ICC(1,2)&#61;0.54. Re-test reliability for twenty participants who completed Casper in both years was <Mark2>&#961;</Mark2>&#61;0.29 (Spearman&#8217;s rank correlation).</Pgraph><SubHeadline>3.4. Subgroup differences</SubHeadline><Pgraph>Single group comparisons revealed that female participants (<Mark2>t</Mark2>(107.16)&#61;2.73, <Mark2>p</Mark2>&#61;0.01, <Mark2>d</Mark2>&#61;0.37) and participants without a migration background (<Mark2>t</Mark2>(263.09)&#61;3.65, <Mark2>p</Mark2>&#60;.001, <Mark2>d</Mark2>&#61;0.40) showed a better mean Casper performance compared to male participants and participants with a migration background, respectively. Casper performance did not significantly differ depending on parents&#8217; level of education (<Mark2>t</Mark2>(203.67)&#61;1.30, <Mark2>p</Mark2>&#61;0.19, <Mark2>d</Mark2>&#61;0.15). Follow-up regression analyses with Casper performance as outcome variable revealed that adding native language as predictor explained the effect of migration background while gender and language remained significant predictors when controlling for cognitive criteria (see table 4 <ImgLink imgNo="4" imgType="table"/>).</Pgraph><SubHeadline>3.5. Convergent and discriminant validity</SubHeadline><Pgraph>With respect to other measures of personal characteristics, Casper had a significant relationship with HAM-SJT performance (<Mark2>r</Mark2>&#61;.18, <Mark2>p</Mark2>&#61;.004, <Mark2>n</Mark2>&#61;263) but was neither related to performance at the OSCE history taking station (<Mark2>r</Mark2>&#61;-.09, <Mark2>p</Mark2>&#61;.37, <Mark2>n</Mark2>&#61;94) nor to the communication skills station (<Mark2>r</Mark2>&#61;.08, <Mark2>p</Mark2>&#61;.57, <Mark2>n</Mark2>&#61;55). </Pgraph><Pgraph>Regarding cognitive admission measures, Casper performance had significant correlations with the Abitur grade (<Mark2>r</Mark2>&#61;-.15, <Mark2>p</Mark2>&#61;.01, <Mark2>n</Mark2>&#61;354; i.e. the better the Abitur grade, the better Casper performance), TMS performance (<Mark2>r</Mark2>&#61;.18, <Mark2>p</Mark2>&#61;.001, <Mark2>n</Mark2>&#61;371), and the logical reasoning subtest of the HAM-Nat (<Mark2>r</Mark2>&#61;.23, <Mark2>p</Mark2>&#60;.001, <Mark2>n</Mark2>&#61;270). On the other hand, it did not correlate with the HAM-Nat science (<Mark2>r</Mark2>&#61;.04, <Mark2>p</Mark2>&#61;.46, <Mark2>n</Mark2>&#61;270) nor with the arithmetic problem solving subtest (<Mark2>r</Mark2>&#61;.08, <Mark2>p</Mark2>&#61;.18, <Mark2>n</Mark2>&#61;270) (see table 1 <ImgLink imgNo="1" imgType="table"/>). Attachment 3 <AttachmentLink attachmentNo="3"/> includes a full correlation table for all study variables.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="3. Ergebnisse">
      <MainHeadline>3. Ergebnisse</MainHeadline><SubHeadline>3.1. Teilnehmer&#42;innen und Beurteiler&#42;innen</SubHeadline><Pgraph>Insgesamt nahmen 582 Personen an dieser Pilotstudie teil, darunter 74 Medizinstudierende und 508 Bewerber&#42;innen. Zwanzig Teilnehmer&#42;innen nahmen sowohl 2020 als auch 2021 an Casper teil. Das Durchschnittsalter der Teilnehmer&#42;innen betrug 21 Jahre (<Mark2>SD</Mark2>&#61;3,30). F&#252;r rund 64&#37; der Teilnehmer&#42;innen lagen weitere soziodemografische Informationen vor. In dieser Teilstichprobe identifizierten sich 19&#37; als m&#228;nnlich, 36&#37; hatten einen Migrationshintergrund und 71&#37; hatten mindestens einen Elternteil mit einem Hochschulabschluss (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>). Das Alter, die Casper-Leistung und andere Studienvariablen waren zwischen den Studienkohorten weitgehend vergleichbar (siehe Anhang 3 <AttachmentLink attachmentNo="3"/>, S. 1-2). Lediglich die HAM-SJT-Leistung war in der Kohorte 2021 im Vergleich zur Kohorte 2020 signifikant besser (<Mark2>W</Mark2>&#61;3773,5, <Mark2>p</Mark2>&#60;.001, <Mark2>d</Mark2>&#61;0,62). Bewerber&#42;innen und Medizinstudierende unterschieden sich nicht in ihrer durchschnittlichen Casper-Leistung (<Mark2>t</Mark2>(91,226)&#61;-1,16, <Mark2>p</Mark2>&#61;0,25, <Mark2>d</Mark2>&#61;0,16). Die durchschnittliche Leistung in sechs Videoszenarien, die sowohl im Jahr 2020 (Untertitel) als auch im Jahr 2021 (Voice-Over) verwendet wurden, unterschied sich zwischen den Jahren nicht (<Mark2>t</Mark2>(465,16)&#61;-0,48, <Mark2>p</Mark2>&#61;0,63, <Mark2>d</Mark2>&#61;0,04).</Pgraph><Pgraph>Von den 26 Beurteiler&#42;innen im Jahr 2021 stellten 15 der Fakult&#228;tsangeh&#246;rigen und 6 der Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung demografische Daten zur Verf&#252;gung (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table"/>). Hierbei war am auff&#228;lligsten, dass die Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung im Vergleich zu Beurteiler&#42;innen der Fakult&#228;t einen vielf&#228;ltigeren Bildungshintergrund hatten (33&#37; gegen&#252;ber 83&#37; mit Universit&#228;tsabschluss).</Pgraph><SubHeadline>3.2. Akzeptanz</SubHeadline><Pgraph>Insgesamt beurteilten die Teilnehmer&#42;innen aus 2020 Casper positiv mit einer durchschnittlichen Bewertung von 7,55 (<Mark2>SD</Mark2>&#61;1,64, <Mark2>n</Mark2>&#61;368) auf einer 10-Punkte-Skala. Auf einer 7-Punkte-Skala gaben die Teilnehmer&#42;innen an, dass sie mit ihrer allgemeinen Testerfahrung zufrieden waren (<Mark2>M</Mark2>&#61;5,40, <Mark2>SD</Mark2>&#61;1,19, <Mark2>n</Mark2>&#61;367) und Casper als eher fair empfanden (<Mark2>M</Mark2>&#61;5,24, <Mark2>SD</Mark2>&#61;1,26, <Mark2>n</Mark2>&#61;354). Die Teilnehmer&#42;innen bewerteten Casper im Allgemeinen als etwas weniger stressig im Vergleich zu anderen Pr&#252;fungen (<Mark2>M</Mark2>&#61;3,24, <Mark2>SD</Mark2>&#61;1,50, <Mark2>n</Mark2>&#61;359) und empfanden den Test weder als schwierig noch als einfach (<Mark2>M</Mark2>&#61;4,08, <Mark2>SD</Mark2>&#61;1,21, <Mark2>n</Mark2>&#61;356). Bei den Fragen im offenen Textformat war der am h&#228;ufigsten kritisierte Aspekt der Testdurchf&#252;hrung die kurze Antwortzeit, die bei einigen Teilnehmern&#42;innen den Eindruck erweckte, dass Bewerber&#42;innen mit geringerer Tipperfahrung systematisch benachteiligt werden k&#246;nnten (<Mark2>n</Mark2>&#61;24) (vollst&#228;ndige Ergebnisse siehe Anhang 2 <AttachmentLink attachmentNo="2"/>). </Pgraph><SubHeadline>3.3. Reliabilit&#228;t</SubHeadline><Pgraph>Die interne Konsistenz f&#252;r die Casper-Szenarien betrug im Jahr 2020 <Mark2>&#945;</Mark2>&#61;0,73, 95&#37;-KI &#91;0,69, 0,77&#93; und im Jahr 2021 <Mark2>&#945;</Mark2>&#61;0,82, 95&#37;-KI &#91;0,79, 0,86&#93;. F&#252;r Antworten, die im Jahr 2021 von zwei Beurteiler&#42;innen bewertet wurden, betrug die Interrater-&#220;bereinstimmung <Mark2>ICC</Mark2>(1,2)&#61;0,54. Die Retest-Reliabilit&#228;t f&#252;r zwanzig Teilnehmer&#42;innen, die Casper in beiden Jahren absolviert hatten, betrug <Mark2>&#961;</Mark2>&#61;0,29 (Rangkorrelation nach Spearman).</Pgraph><SubHeadline>3.4. Subgruppenunterschiede</SubHeadline><Pgraph>Gruppenvergleiche ergaben, dass weibliche Teilnehmerinnen (<Mark2>t</Mark2>(107,16)&#61;2,73, <Mark2>p</Mark2>&#61;0,01, <Mark2>d</Mark2>&#61;0,37) und Teilnehmer&#42;innen ohne Migrationshintergrund (<Mark2>t</Mark2>(263,09)&#61;3,65, <Mark2>p</Mark2>&#60;.001, <Mark2>d</Mark2>&#61;0,40) im Mittel eine bessere Casper-Leistung hatten im Vergleich zu m&#228;nnlichen Teilnehmern bzw. Teilnehmer&#42;innen mit Migrationshintergrund. Die Casper-Leistung unterschied sich nicht signifikant je nach Bildungsniveau der Eltern (<Mark2>t</Mark2>(203,67)&#61;1,30, <Mark2>p</Mark2>&#61;0,19, <Mark2>d</Mark2>&#61;0,15). Nachfolgende Regressionsanalysen mit der Casper-Leistung als abh&#228;ngige Variable ergaben, dass die Hinzunahme von Muttersprache als Pr&#228;diktor den Effekt des Migrationshintergrunds erkl&#228;rte, w&#228;hrend Geschlecht und Sprache bei der Kontrolle kognitiver Kriterien weiterhin signifikante Pr&#228;diktoren blieben (siehe Tabelle 4 <ImgLink imgNo="4" imgType="table"/>).</Pgraph><SubHeadline>3.5. Konvergente und diskriminante Validit&#228;t</SubHeadline><Pgraph>In Hinblick auf andere Messinstrumente pers&#246;nlicher Eigenschaften hatte Casper einen signifikanten Zusammenhang mit der HAM-SJT-Leistung (<Mark2>r</Mark2>&#61;.18, <Mark2>p</Mark2>&#61;.004,<Mark2> n</Mark2>&#61;263), jedoch keinen Zusammenhang mit der Leistung an der OSCE-Anamnesestation (<Mark2>r</Mark2>&#61;-.09, <Mark2>p</Mark2>&#61;.37, <Mark2>n</Mark2>&#61;94) oder der Kommunikationsstation (<Mark2>r</Mark2>&#61;.08, <Mark2>p</Mark2>&#61;.57, <Mark2>n</Mark2>&#61;55).</Pgraph><Pgraph>In Bezug auf kognitive Zulassungskriterien wies die Casper-Leistung signifikante Korrelationen auf mit der Abiturnote (<Mark2>r</Mark2>&#61;-.15, <Mark2>p</Mark2>&#61;.01, <Mark2>n</Mark2>&#61;354; d. h. je besser die Abiturnote, desto besser die Casper-Leistung), der Leistung im TMS (<Mark2>r</Mark2>&#61;.18, <Mark2>p</Mark2>&#61;.001, <Mark2>n</Mark2>&#61;371) und dem Untertest zum relationalen Schlie&#223;en im HAM-Nat (<Mark2>r</Mark2>&#61;.23, <Mark2>p</Mark2>&#60;.001, <Mark2>n</Mark2>&#61;270). Andererseits korrelierte er weder mit der HAM-Nat Untertest zur Naturwissenschaft (<Mark2>r</Mark2>&#61;0,04, <Mark2>p</Mark2>&#61;0,46, <Mark2>n</Mark2>&#61;270) noch mit dem Untertest zum arithmetischen Probleml&#246;sen (<Mark2>r</Mark2>&#61;0,08, <Mark2>p</Mark2>&#61;0,18, <Mark2>n</Mark2>&#61;270) (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Anhang 3 <AttachmentLink attachmentNo="3"/> enth&#228;lt eine vollst&#228;ndige Korrelationstabelle f&#252;r alle Studienvariablen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="4. Discussion">
      <MainHeadline>4. Discussion</MainHeadline><Pgraph>In German medical education, text-based and video-based SJTs have been developed and suggested for the (self-)assessment, teaching and monitoring of relevant skills such as communication or professional behavior of medical school applicants and students <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>. While all these examples rely on a closed-ended response format, this is the first study piloting an online-SJT with open-ended response format in a German medical admission context. </Pgraph><Pgraph>Similar to Canadian reports on Casper <TextLink reference="16"></TextLink>, participants&#8217; perception of Casper was favorable and internal consistency was good. These results also align with positive perceptions as well as satisfactory internal consistency values for the Heidelberg video-SJT (0.81&#8804;<Mark2>&#945;</Mark2>&#8804;.83) <TextLink reference="19"></TextLink> and HAM-SJT (0.62&#8804;<Mark2>&#945;</Mark2>&#8804;.82) <TextLink reference="37"></TextLink>. On the other hand, interrater agreement in our study was only moderate and diverged from the high rater agreement (0.95) found in the Canadian pilot study of Casper <TextLink reference="15"></TextLink>. In the small subsample of participants who sat the test twice, test-retest reliability was low. This might be explained by individual differences in participants&#8217; personal development within the one-year time span between the two test applications but also by changes to the test format between both test applications (i.e. use of different scenarios, voice-over, inclusion of community raters). Nevertheless, the subsample in our study was too small (n&#61;20) to draw definite conclusions and a follow-up study with a targeted test-retest design would be necessary.</Pgraph><Pgraph>Our study revealed significant performance differences in favor of females and participants without a migration background that are in line with a North-American study on Casper <TextLink reference="17"></TextLink>. Our follow-up analyses suggest that native language rather than migration background was related to performance differences which diverges from findings in a U.S. study where differences in ethnicity remained when controlled for language use <TextLink reference="38"></TextLink>. The open-ended response format did therefore not provide an advantage over the HAM-SJT which similarly showed performance differences depending on native language (<Mark2>d</Mark2>&#61;0.24) <TextLink reference="37"></TextLink> or the Heidelberg video-SJT which did not show any significant differences <TextLink reference="19"></TextLink>.</Pgraph><Pgraph>In support of the convergent and discriminant validity of the test, Casper performance was related to HAM-SJT performance but not to the HAM-Nat science and arithmetic problem solving subtests. Likewise, the Canadian Casper had not been found to be related to the MCAT science subtests <TextLink reference="15"></TextLink>. On the other hand, we found weak correlations with the Abitur grade, TMS performance, and the HAM-Nat logical reasoning subtests. The weak reliability values of the HAM-Nat logical reasoning and arithmetic problem solving subtests might have affected the significance and magnitude of the correlation with Casper. Nevertheless, we found a similarly small significant correlation between TMS and Casper pointing in a similar direction and results are also in line with findings that Casper correlates with the verbal reasoning part of the MCAT <TextLink reference="15"></TextLink>. This suggests that the cognitive but also non-cognitive competencies reflected in these measures (such as motivation, flexibility, or self-management in Abitur grades <TextLink reference="39"></TextLink>) could be beneficial for Casper performance. The results also point to a somewhat higher cognitive load in Casper compared to the HAM-SJT or Heidelberg video-SJT which were either negatively related to Abitur grade, TMS and HAM-Nat or not at all <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>Finally, we did not find any relationship between Casper and two OSCE stations that address communication skills. Thus, we could not replicate positive evidence of predictive validity for the North-American Casper where Casper was related to MMI performance as well as to national licensure exams <TextLink reference="15"></TextLink>, <TextLink reference="18"></TextLink>. HAM-SJT pilot studies, on the other hand, could demonstrate small but significant correlations with subsequent MMI (<Mark2>r</Mark2>&#61;0.22) <TextLink reference="20"></TextLink> and OSCE performance (<Mark2>r</Mark2>&#61;0.20) <TextLink reference="37"></TextLink>.</Pgraph><SubHeadline>Limitations</SubHeadline><Pgraph>We applied different measures of quality assurance during rater training and the rating process including repeated training rounds if statistics from test ratings fall below pre-determined benchmarks, or temporary retention of raters if they submit their ratings within less time than it needs to read a candidate&#8217;s response. However, in this pilot these measures were not employed to the same degree as they are in the high-stakes application of Casper. The moderate interrater agreement found in this study highlights the importance of continuously monitoring the rating process and providing feedback to raters.</Pgraph><Pgraph>In the 2021 study, we recruited additional community raters with the aim to diversify the rater pool. Although demographic data somewhat suggest that community raters differed from faculty raters in terms of their level of education, the lower participation rate of community raters in the follow-up survey (55&#37;) makes it difficult to draw definite conclusions about the diversity of our rater pool. Future studies on rater-based selection tools would benefit from a systematic assessment and variation of raters&#8217; sociodemographic characteristics to be able to explore how diverse rater backgrounds impact outcomes of high-stakes selection.</Pgraph><Pgraph>For this pilot, we used scenarios that were developed and previously tested in a North-American high-stakes context. However, it remains unclear whether any cultural differences related to scenario content had an impact on study results. In addition, the participants in our study were volunteers and their motivation to perform will differ from that in a high-stakes selection context. Lastly, we only invited applicants to this study who registered for the TMS and&#47;or HAM-Nat and aimed at improving their chances of gaining a study place. Our sample is therefore not representative of the population of all those interested in studying medicine and likely excludes applicants with a high Abitur grade as well as those who are discouraged by the current selection system and do not apply. However, the latter group might potentially benefit from a non-cognitive test like Casper. For future assessments, it is advised to develop the test content in the culture and language where the test is administered and to confirm the psychometric properties within an actual selection procedure.</Pgraph><SubHeadline>Implications for practice and research</SubHeadline><Pgraph>A recent study revealed that physicians and medical students in Hamburg do not represent the general population especially in terms of their socio-economic and ethnic background <TextLink reference="40"></TextLink>. Medical schools that adopt a widening participation policy need to pay attention to how underrepresented groups perform on a selection criterion when compiling and weighting their selection criteria to minimize adverse impact. Participants&#8217; performance in our study did not differ depending on socio-economic background. However, we could only use parents&#8217; level of education as indicator. The use of additional indicators such as parents&#8217; income or living conditions <TextLink reference="40"></TextLink> in future studies might provide a more comprehensive picture. Although our results suggest a potential disadvantage for applicants whose first language is not German, it has been argued internationally that SJTs like Casper can mitigate the often more severe subgroup differences in cognitive tests and thereby potentially widen access to medical school <TextLink reference="17"></TextLink>, <TextLink reference="27"></TextLink>. While preliminary data on the HAM-Nat suggests that applicants without a migration background perform better on the two reasoning subtests (0.24&#8804;<Mark2>d</Mark2>&#8804;0.32) and applicants with a higher socio-economic background perform better on all three HAM-Nat subtest (0.06&#8804;<Mark2>d</Mark2>&#8804;0.25), the magnitude of the effects is small <TextLink reference="41"></TextLink>. Currently, to our knowledge, no such data is published for the TMS. Large education studies and reports regularly point to weaker secondary school performance <TextLink reference="42"></TextLink>, <TextLink reference="43"></TextLink> and Abitur grades among students with low socio-economic status (e.g. mean Abitur grade of 2.27 vs. 2.48 in students transitioning to university with a high vs. low socio-economic background <TextLink reference="44"></TextLink>) and a migration background (e.g. mean Abitur grade of 2.5 vs. 2.9 in students with a German vs. Turkish background <TextLink reference="45"></TextLink>). Nevertheless, the exact statistical magnitude of these subgroup differences in current Abitur grades for those interested in studying medicine is unclear. Systematic studies and comparisons of subgroup differences in German selection criteria depending on applicants&#8217; ethnicity and socio-economic background are therefore necessary to evaluate the potential of SJTs to increase or decrease access for these groups and to inform decision makers in their selection strategies. </Pgraph><Pgraph>Since some participants voiced concern that the 5-minute time frame might disadvantage non-native speakers and those with less typing experience, a study of systematic variation of the time limit might shed more light on whether it has the potential to minimize performance differences. An audiovisual response, which seems to further reduce subgroup differences <TextLink reference="13"></TextLink>, has recently been added to Casper and could be explored in follow-up studies in their potential for a German test version.</Pgraph><Pgraph>German medical schools are called to consider personal characteristics when selecting students <TextLink reference="4"></TextLink> and to use selection criteria that indicate their suitability for medical school and the medical profession <TextLink reference="46"></TextLink>. It is therefore essential to demonstrate construct and predictive validity. In our study, Casper correlated with non-cognitive selection criteria and cognitive selection criteria in similar magnitude. Thus, it seems that Casper does not merely measure the personal characteristics we aimed to assess but also cognitive characteristics. Therefore, the usefulness of Casper as a meaningful addition to existing selection criteria remains unclear. We could only consider two OSCE stations for a small subsample of study participants. The lack of reliability in a single OSCE station <TextLink reference="30"></TextLink> and range restriction in OSCE scores (i.e. students&#8217; OSCE performance ranged between 52.5&#37; and 100&#37; of achievable points) are potentially limiting factors in our analysis. Future research should aim to look at different outcome measures of personal characteristics such as, for example, supervisor and peer ratings or a combination of relevant OSCE stations over the course of medical school <TextLink reference="47"></TextLink>. Ideally, these should be compared to the predictive validity of other selection criteria that are currently used in conjunction with cognitive criteria: the completion of a vocational training, as well as work and volunteering experience <TextLink reference="8"></TextLink>. </Pgraph><Pgraph>Finally, from a practical point of view, medical schools need to weigh the costs of a test format like Casper in comparison to alternative selection tools and consider different stakeholders&#8217; perspectives. This study demonstrated that with an average rating time of 46 seconds per response, Casper requires less rater time in comparison to multiple mini-interviews with a station time of five to ten minutes <TextLink reference="6"></TextLink> and compared to traditional interviews that are less cost efficient in terms of person hours <TextLink reference="48"></TextLink>. Likewise, the estimated costs of a maximum of 95 EUR per applicant (2024) are much lower than 450 EUR per applicant (2014) in the Hamburg multiple mini-interview HAM-Int <TextLink reference="7"></TextLink>. However, if costs are covered by test fees, the introduction of Casper would come with an additional financial burden for applicants who already pay to take the TMS (100 EUR in 2024) and HAM-Nat (95 EUR in 2024). A vocational training, on the other hand, provides applicants with the opportunity to learn relevant skills and receive a salary but also requires applicants to invest three years into their training before being able to go to medical school. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="4. Diskussion">
      <MainHeadline>4. Diskussion</MainHeadline><Pgraph>In der deutschen medizinischen Ausbildung wurden textbasierte und videobasierte SJTs bereits f&#252;r <TextGroup><PlainText>die (Selbst-)</PlainText></TextGroup> Beurteilung, Vermittlung und Nachverfolgung relevanter F&#228;higkeiten wie Kommunikation oder professionellem Verhalten von Studienbewerber&#42;innen und Studierenden der Medizin entwickelt und vorgeschlagen <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>. W&#228;hrend alle diese Beispiele auf einem geschlossenen Antwortformat basieren, ist dies die erste Studie, die einen Online-SJT mit offenem Antwortformat in einem deutschen Zulassungskontext erprobt.</Pgraph><Pgraph>&#196;hnlich wie in kanadischen Berichten &#252;ber Casper <TextLink reference="16"></TextLink> war die Wahrnehmung von Casper durch die Teilnehmer&#42;innen positiv und die interne Konsistenz gut. Diese Ergebnisse stimmen auch mit positiven Wahrnehmungen sowie zufriedenstellenden internen Konsistenzwerten f&#252;r den Heidelberger Video-SJT (0,81&#8804;<Mark2>&#945;</Mark2>&#8804;0,83) <TextLink reference="19"></TextLink> und den HAM-SJT (0,62&#8804;<Mark2>&#945;</Mark2>&#8804;0,82) <TextLink reference="37"></TextLink> &#252;berein. Andererseits war die Interrater-&#220;bereinstimmung in unserer Studie nur m&#228;&#223;ig und weicht von der hohen &#220;bereinstimmung (0,95) ab, die in der kanadischen Pilotstudie von Casper gefunden wurde <TextLink reference="15"></TextLink>. In der kleinen Teilstichprobe von Teilnehmer&#42;innen, die den Test zweimal absolvierten, war die Retest-Reliabilit&#228;t gering. Dies k&#246;nnte durch individuelle Unterschiede in der pers&#246;nlichen Entwicklung der Teilnehmer&#42;innen innerhalb der einj&#228;hrigen Zeitspanne zwischen den beiden Testterminen erkl&#228;rt werden, aber auch durch &#196;nderungen im Format zwischen beiden Testungen (z. B. Verwendung unterschiedlicher Szenarien, Voice-Over, Einbeziehung der Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung). Dennoch war die Teilstichprobe in unserer Studie zu klein (<Mark2>n</Mark2>&#61;20), um eindeutige Schlussfolgerungen zu ziehen, und eine Folgestudie mit einem gezielten Test-Retest-Design w&#228;re erforderlich.</Pgraph><Pgraph>Unsere Studie ergab signifikante Leistungsunterschiede zugunsten von Frauen und Teilnehmer&#42;innen ohne Migrationshintergrund, die mit einer nordamerikanischen Studie zu Casper &#252;bereinstimmen <TextLink reference="17"></TextLink>. Unsere Folgeanalysen deuten darauf hin, dass eher die Muttersprache als der Migrationshintergrund mit Leistungsunterschieden zusammenh&#228;ngt, was von den Ergebnissen einer US-Studie abweicht, in der Unterschiede in Abh&#228;ngigkeit von der ethnischen Zugeh&#246;rigkeit nach Kontrolle der Sprache bestehen blieben <TextLink reference="38"></TextLink>. Das offene Antwortformat bot daher keinen Vorteil gegen&#252;ber dem HAM-SJT, der ebenfalls Leistungsunterschiede je nach Muttersprache aufwies (<Mark2>d</Mark2>&#61;0,24) <TextLink reference="37"></TextLink> oder dem Heidelberger Video-SJT, der keine signifikanten Unterschiede aufwies <TextLink reference="19"></TextLink>.</Pgraph><Pgraph>Die konvergente und diskriminante Validit&#228;t des Tests wird gest&#252;tzt durch den Zusammenhang von Casper mit der HAM-SJT-Leistung und fehlenden Zusammenh&#228;ngen mit den HAM-Nat-Untertests zu Naturwissenschaften und arithmetischem Probleml&#246;sen. Gleicherma&#223;en wurde kein Zusammenhang zwischen dem kanadischen Casper und dem MCAT-Naturwissenschaftsteil festgestellt <TextLink reference="15"></TextLink>. Andererseits fanden wir schwache Korrelationen mit der Abiturnote, der TMS-Leistung und dem HAM-Nat-Untertest zum relationalen Schlie&#223;en. Die schwachen Reliabilit&#228;tswerte der HAM-Nat-Untertests zum relationalen Schlie&#223;en und arithmetischem Probleml&#246;sen k&#246;nnten die Signifikanz und das Ausma&#223; der Korrelation mit Casper beeinflusst haben. Allerdings gab es eine kleine signifikante Korrelation zwischen TMS und Casper, die in eine &#228;hnliche Richtung weist, und die Ergebnisse stimmen auch mit den Erkenntnissen &#252;berein, dass Casper mit dem Untertest zum verbalen Schlussfolgern des MCAT korreliert <TextLink reference="15"></TextLink>. Dies deutet darauf hin, dass kognitive, aber auch nicht-kognitive Kompetenzen, die in diesen Auswahlkriterien erfasst werden (wie z.B. Motivation, Flexibilit&#228;t oder Selbstmanagement in Abiturnoten <TextLink reference="39"></TextLink>), vorteilhaft f&#252;r die Leistung bei Casper sein k&#246;nnten. Die Ergebnisse deuten auch auf eine etwas h&#246;here kognitive Belastung bei Casper hin im Vergleich zum HAM-SJT oder Heidelberger Video-SJT, welche entweder negativ oder gar nicht mit der Abiturnote, TMS und HAM-Nat zusammenhingen <TextLink reference="19"></TextLink>, <TextLink reference="20"></TextLink>.</Pgraph><Pgraph>Schlie&#223;lich konnten wir keinen Zusammenhang zwischen Casper und zwei OSCE-Stationen zur Kommunikationsf&#228;higkeit feststellen. Somit konnten wir die positiven Ergebnisse zur pr&#228;diktiven Validit&#228;t von Casper aus Nordamerika nicht replizieren. Hier gab es sowohl Zusammenh&#228;nge zwischen Casper und der MMI-Leistung sowie mit nationalen Approbationspr&#252;fungen <TextLink reference="15"></TextLink>, <TextLink reference="18"></TextLink>. HAM-SJT-Pilotstudien konnten dagegen kleine, aber signifikante Korrelationen mit den sp&#228;teren Leistungen in einem MMI (<Mark2>r</Mark2>&#61;0,22) <TextLink reference="20"></TextLink> und OSCE (<Mark2>r</Mark2>&#61;0.20) <TextLink reference="37"></TextLink> nachweisen.</Pgraph><SubHeadline>Limitationen</SubHeadline><Pgraph>Wir haben w&#228;hrend der Schulung der Beurteiler&#42;innen und des Bewertungsprozesses verschiedene Ma&#223;nahmen zur Qualit&#228;tssicherung angewendet. Dazu z&#228;hlen wiederholte Schulungsrunden, wenn die Statistiken von Probebewertungen nicht vorab festgelegten Richtwerten entsprechen oder die vor&#252;bergehenden Sperrung von Beurteiler&#42;innen, wenn sie ihre Bewertung in einer k&#252;rzeren Zeitspanne abgeben als die erforderliche Lesezeit f&#252;r die Antwort eines Bewerbers. Allerdings wurden diese Ma&#223;nahmen in dieser Pilotstudie nicht im gleichen Umfang umgesetzt wie bei einer Casper-Testung in einem tats&#228;chlichen Auswahlsetting. Die in dieser Studie beobachtete moderate Interrater-&#220;bereinstimmung unterstreicht, wie wichtig es ist, den Ratingprozess kontinuierlich zu &#252;berwachen und den Beurteiler&#42;innen eine R&#252;ckmeldung zu geben.</Pgraph><Pgraph>Im Jahr 2021 haben wir zus&#228;tzlich Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung rekrutiert mit dem Ziel, den Pool der Beurteiler&#42;innen diverser zusammenzusetzen. Obwohl demografische Daten teilweise darauf hindeuten, dass sich die Beurteiler&#42;innen aus der Allgemeinbev&#246;lkerung von Fakult&#228;tsangeh&#246;rigen hinsichtlich ihres Bildungsniveaus unterschieden, ist es aufgrund der geringeren Beteiligungsquote von Beurteiler&#42;innen der Allgemeinbev&#246;lkerung an der Folgebefragung (55&#37;) schwierig, eindeutige Schlussfolgerungen &#252;ber die Vielfalt unserer Beurteiler&#42;innen zu ziehen. Zuk&#252;nftige Studien zu urteilsbasierten Auswahlinstrumenten w&#252;rden von einer systematischen Erhebung und Variation der soziodemografischen Merkmale der Beurteiler&#42;innen profitieren, um untersuchen zu k&#246;nnen, wie sich unterschiedliche Hintergr&#252;nde der Beurteiler&#42;innen auf die Ergebnisse im Auswahlverfahren auswirken.</Pgraph><Pgraph>F&#252;r diese Pilotstudie haben wir Szenarien verwendet, die zuvor in einem nordamerikanischen Auswahlkontext entwickelt und getestet wurden. Es bleibt jedoch unklar, ob kulturelle Unterschiede im Zusammenhang mit den Inhalten der Szenarien einen Einfluss auf die Studienergebnisse hatten. Dar&#252;ber hinaus handelte es sich bei den Teilnehmer&#42;innen unserer Studie um Freiwillige, die sich in ihrer Leistungsmotivation wahrscheinlich zu Teilnehmer&#42;innen in einem tats&#228;chlichen Auswahlkontext unterscheiden. Schlie&#223;lich haben wir zu dieser Studie nur Bewerber&#42;innen eingeladen, die sich f&#252;r den TMS und&#47;oder HAM-Nat angemeldet haben und deren Ziel darin bestand, ihre Chancen auf einen Studienplatz zu verbessern. Unsere Stichprobe ist daher nicht repr&#228;sentativ f&#252;r die Grundgesamtheit aller an einem Medizinstudium Interessierten und schlie&#223;t vermutlich Bewerber&#42;innen mit einer guten Abiturnote aus sowie Personen, die durch das aktuelle Auswahlsystem entmutigt sind und sich nicht bewerben. Allerdings k&#246;nnte die letztgenannte Gruppe m&#246;glicherweise von einem nicht-kognitiven Test wie Casper profitieren. F&#252;r zuk&#252;nftige Testungen wird empfohlen, die Testinhalte innerhalb der Kultur und Sprache zu entwickeln, in denen der Test durchgef&#252;hrt werden soll, und die psychometrischen Eigenschaften im Rahmen eines tats&#228;chlichen Auswahlverfahrens zu best&#228;tigen.</Pgraph><SubHeadline>Implikationen f&#252;r Praxis und Forschung</SubHeadline><Pgraph>Eine aktuelle Studie ergab, dass &#196;rzt&#42;innen und Medizinstudierende in Hamburg insbesondere hinsichtlich ihres sozio&#246;konomischen und ethnischen Hintergrunds nicht die Gesamtbev&#246;lkerung repr&#228;sentieren <TextLink reference="40"></TextLink>. Medizinische Fakult&#228;ten, die eine Strategie der Chancengerechtigkeit verfolgen, m&#252;ssen bei der Zusammenstellung und Gewichtung ihrer Auswahlkriterien auch darauf achten, wie unterrepr&#228;sentierte Gruppen in einem Auswahlkriterium abschneiden, um nachteilige Auswirkungen zu minimieren. Die Leistung unserer Studienteilnehmer&#42;innen unterschied sich nicht in Abh&#228;ngigkeit vom sozio&#246;konomischen Hintergrund. Als Indikator konnten wir jedoch nur den Bildungsstand der Eltern heranziehen. Die Verwendung zus&#228;tzlicher Indikatoren wie etwa des Einkommens der Eltern oder der Lebensumst&#228;nde <TextLink reference="40"></TextLink> k&#246;nnte in zuk&#252;nftigen Studien ein umfassenderes Bild liefern. Obwohl unsere Ergebnisse auf einen potenziellen Nachteil f&#252;r Bewerber&#42;innen schlie&#223;en lassen, deren Muttersprache nicht Deutsch ist, wird international argumentiert, dass SJTs wie Casper die oft schwerwiegenderen Subgruppenunterschiede in kognitiven Tests abmildern und dadurch m&#246;glicherweise den Zugang zum Medizinstudium erweitern k&#246;nnen <TextLink reference="17"></TextLink>, <TextLink reference="27"></TextLink>. W&#228;hrend vorl&#228;ufige Daten zum HAM-Nat darauf hindeuten, dass Bewerber&#42;innen ohne Migrationshintergrund in den beiden Untertests zum logischen Denken besser abschneiden (0,24&#8804;<Mark2>d</Mark2>&#8804;0,32) und Bewerber&#42;innen mit einem h&#246;heren sozio&#246;konomischen Hintergrund in allen drei Untertests des HAM-Nat bessere Leistungen zeigen (0,06&#8804;<Mark2>d</Mark2>&#8804;0,25) ist die Gr&#246;&#223;e der Effekte gering <TextLink reference="41"></TextLink>. Aktuell gibt es unseres Wissens nach keine vergleichbaren ver&#246;ffentlichten Daten zum TMS. Gro&#223;e Bildungsstudien und Berichte weisen regelm&#228;&#223;ig auf schw&#228;chere Sekundarschulleistungen <TextLink reference="42"></TextLink>, <TextLink reference="43"></TextLink> und Abiturnoten bei Sch&#252;ler&#42;innen mit niedrigem sozio&#246;konomischen Status hin (z. B. mittlere Abiturnote von 2,27 vs. 2,48 bei Sch&#252;ler&#42;innen vor dem &#220;bergang zur Hochschule mit einem hohen vs. niedrigen sozio&#246;konomischer Hintergrund <TextLink reference="44"></TextLink>) und einem Migrationshintergrund (z. B. mittlere Abiturnote von 2,5 vs. 2,9 bei Sch&#252;ler&#42;innen mit deutschem vs. t&#252;rkischem Hintergrund <TextLink reference="45"></TextLink>). Nichtsdestotrotz ist das genaue statistische Ausma&#223; dieser Subgruppenunterschiede in den aktuellen Abiturnoten bei Interessierten an einem Medizinstudium unklar. Systematische Studien und Vergleiche der Subgruppenunterschiede f&#252;r die deutschen Auswahlkriterien in Abh&#228;ngigkeit von der ethnischen Zugeh&#246;rigkeit und dem sozio&#246;konomischen Hintergrund der Bewerber&#42;innen sind daher erforderlich, um das Potenzial von SJTs zur Verbesserung oder Verringerung des Zugangs f&#252;r diese Gruppen zu bewerten und Entscheidungstr&#228;ger&#42;innen mehr Informationen f&#252;r ihre Auswahlstrategien bereitzustellen.</Pgraph><Pgraph>Da einige Teilnehmer&#42;innen Bedenken &#228;u&#223;erten, dass der 5-Minuten-Zeitrahmen Nicht-Muttersprachler&#42;innen und Personen mit weniger Tipperfahrung potentiell benachteiligt, k&#246;nnte eine Studie zur systematischen Variation der Zeitbegrenzung mehr Aufschluss dar&#252;ber geben, ob eine solche &#196;nderung das Potenzial hat, Leistungsunterschiede zu minimieren. Ein audio-visuelles Antwortformat, welches Subgruppenunterschiede weiter zu reduzieren scheint <TextLink reference="13"></TextLink>, wurde k&#252;rzlich f&#252;r Casper eingef&#252;hrt und k&#246;nnte in Folgestudien auf das Potenzial f&#252;r eine deutsche Testversion untersucht werden.</Pgraph><Pgraph>Medizinische Fakult&#228;ten in Deutschland sind aufgerufen, bei der Auswahl der Studierenden pers&#246;nliche Eigenschaften zu ber&#252;cksichtigen <TextLink reference="4"></TextLink> und Auswahlkriterien zu verwenden, die die Eignung f&#252;r das Medizinstudium und den Arztberuf belegen <TextLink reference="46"></TextLink>. Aus diesem Grund ist es wichtig, die Konstrukt- und pr&#228;diktive Validit&#228;t nachzuweisen. In unserer Studie korrelierte Casper in einem &#228;hnlichen Ausma&#223; mit nicht-kognitiven und kognitiven Auswahlkriterien. Es scheint also, dass Casper nicht nur die pers&#246;nlichen Eigenschaften erfasst, die wir messen wollten, sondern auch kognitive F&#228;higkeiten. Daher bleibt der Nutzen von Casper als sinnvolle Erg&#228;nzung zu den bestehenden Auswahlkriterien unklar. Wir konnten nur zwei OSCE-Stationen f&#252;r eine kleine Teilstichprobe der Studienteilnehmer&#42;innen einbeziehen. Die mangelnde Reliabilit&#228;t einer einzelnen OSCE-Station <TextLink reference="30"></TextLink> und die eingeschr&#228;nkte Streuung bei den OSCE-Werten (d. h. die OSCE-Leistung der Studierenden lag zwischen 52,5&#37; und 100&#37; der erreichbaren Punkte) sind potenziell limitierende Faktoren in unserer Analyse. Zuk&#252;nftige Forschung sollte darauf abzielen, verschiedene Ergebniskriterien zu pers&#246;nlichen Eigenschaften zu untersuchen, wie beispielsweise Einsch&#228;tzungen durch Lehrende und Mitstudierende oder eine Kombination relevanter OSCE-Stationen im Verlauf des Medizinstudiums <TextLink reference="47"></TextLink>. Idealerweise sollten diese mit der pr&#228;diktiven Validit&#228;t anderer Auswahlkriterien verglichen werden, die derzeit in Verbindung mit kognitiven Kriterien verwendet werden: eine abgeschlossenen Berufsausbildung sowie Berufserfahrung und ein Freiwilligendienst <TextLink reference="8"></TextLink>. </Pgraph><Pgraph>Aus praktischer Sicht m&#252;ssen medizinische Fakult&#228;ten schlie&#223;lich die Kosten eines Testformats wie Casper im Vergleich zu alternativen Auswahlinstrumenten abw&#228;gen und die Perspektiven verschiedener Interessengruppen ber&#252;cksichtigen. Diese Studie konnte zeigen, dass Casper mit einer durchschnittlichen Bewertungszeit von 46 Sekunden pro Antwort weniger Beurteilungszeit ben&#246;tigt als multiple Mini-Interviews mit einer Stationszeit von f&#252;nf bis zehn Minuten <TextLink reference="6"></TextLink> und als klassische Interviews, die im Hinblick auf die Arbeitsstunden noch weniger kosteneffizient sind <TextLink reference="48"></TextLink>. Ebenso liegen die gesch&#228;tzten Kosten mit maximal 95 EUR pro Bewerber&#42;in (2024) deutlich unter den 450 EUR pro Bewerber&#42;in (2014) im Hamburger multiplen Mini-Interview HAM-Int <TextLink reference="7"></TextLink>. Wenn jedoch die Kosten durch Testgeb&#252;hren gedeckt werden, w&#228;re die Einf&#252;hrung von Casper mit einer zus&#228;tzlichen finanziellen Belastung f&#252;r Bewerber&#42;innen verbunden, die bereits f&#252;r die Teilnahme am TMS (100 EUR im Jahr 2024) und HAM-Nat (95 EUR im Jahr 2024) zahlen. Eine Berufsausbildung hingegen bietet Bewerber&#42;innen die M&#246;glichkeit, relevante F&#228;higkeiten zu erlernen und ein Gehalt zu beziehen, erfordert aber auch, dass Bewerber&#42;innen drei Jahre in ihre Ausbildung investieren, bevor sie ein Medizinstudium beginnen k&#246;nnen.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="5. Conclusions">
      <MainHeadline>5. Conclusions</MainHeadline><Pgraph>Positive evaluations by test-takers, good internal consistency, and evidence for discriminant and convergent validity in this study confirm that the test format used in Casper is applicable to a German context. Based on the moderate interrater agreement in our study, the number, background, and training of raters need to be considered and carefully monitored if the test is applied in high-stakes selection. The potential adverse impact on the diversity of students selected by Casper and the current lack of correlation to OSCE performance require potential adjustments to the test and further investigation into the predictive validity of Casper considering a broader range of outcome criteria. It is important to ensure that the test content is relatable to test takers and that it aligns with the goals of German medical education in order to make the test fit for purpose in German medical school selection. In terms of subgroup differences and validity, our current results do not suggest that an open-ended response SJT like Casper is superior to available German SJTs with a closed-ended response format.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="5. Schlussfolgerungen">
      <MainHeadline>5. Schlussfolgerungen</MainHeadline><Pgraph>Positive Bewertungen der Testteilnehmer&#42;innen, eine gute interne Konsistenz und Hinweise auf diskriminante und konvergente Validit&#228;t in dieser Studie best&#228;tigen, dass das in Casper verwendete Testformat auf einen deutschen Kontext anwendbar ist. Basierend auf der moderaten Interrater-&#220;bereinstimmung in unserer Studie m&#252;ssen die Anzahl, der Hintergrund und die Schulung der Beurteiler&#42;innen ber&#252;cksichtigt und sorgf&#228;ltig &#252;berpr&#252;ft werden, falls der Test zur tats&#228;chlichen Auswahl eingesetzt wird. Die potentiell negativen Auswirkungen auf die Vielfalt der von Casper ausgew&#228;hlten Studierenden und die derzeit fehlende Korrelation zur OSCE-Leistung erfordern m&#246;gliche Anpassungen des Tests sowie weitere Untersuchungen zur pr&#228;diktiven Validit&#228;t von Casper unter Ber&#252;cksichtigung eines breiteren Spektrums an Ergebniskriterien. Es ist wichtig sicherzustellen, dass der Testinhalt f&#252;r die Testteilnehmer&#42;innen nachvollziehbar und im Einklang mit den Zielen der deutschen medizinischen Ausbildung ist, damit der Test f&#252;r die Medizinstudierendenauswahl in Deutschland geeignet ist. Im Hinblick auf Subgruppenunterschiede und Validit&#228;t deuten unsere aktuellen Ergebnisse nicht darauf hin, dass ein SJT mit offenem Antwortformat wie Casper den verf&#252;gbaren deutschen SJTs mit einem geschlossenen Antwortformat &#252;berlegen ist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Ethics approval and informed consent">
      <MainHeadline>Ethics approval and informed consent</MainHeadline><Pgraph>All participants gave their informed consent to data collection, storage and matching of the data. This study as part of the stav research project was approved by the local ethics committee at the Department of Medical Psychology, University Medical Center Hamburg-Eppendorf (LPEK-0042). All data was handled in accordance with European data protection laws (GDPR).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ethikvotum und Einverst&#228;ndniserkl&#228;rung">
      <MainHeadline>Ethikvotum und Einverst&#228;ndniserkl&#228;rung</MainHeadline><Pgraph>Alle Teilnehmer&#42;innen gaben ihr Einverst&#228;ndnis zur Erhebung, Speicherung und Verkn&#252;pfung der Daten. Diese Studie wurde im Rahmen des stav-Forschungsprojekts von der &#246;rtlichen Ethikkommission der Abteilung f&#252;r Medizinische Psychologie des Universit&#228;tsklinikums Hamburg-Eppendorf (LPEK-0042) genehmigt. Alle Daten wurden im Einklang mit den europ&#228;ischen Datenschutzgesetzen (DSGVO) verarbeitet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>The authors would like to thank Dieter M&#252;nch-Harrach for creating the subtitles for the Casper videos. This study would not have been possible without the volunteer raters from the stav teams in Hamburg, Heidelberg, M&#252;nster, Saarbr&#252;cken, Berlin and G&#246;ttingen as well as members from the Eignung &#38; Auswahl Baden-Wuerttemberg network at the Karlsruhe Institute of Technology, Heidelberg University, DHBW Mannheim, University of Education Weingarten and Pforzheim University.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagungen">
      <MainHeadline>Danksagungen</MainHeadline><Pgraph>Die Autor&#42;innen danken Dieter M&#252;nch-Harrach f&#252;r die Erstellung der Untertitel f&#252;r die Casper-Videos. Diese Studie w&#228;re nicht m&#246;glich gewesen ohne die ehrenamtlichen Beurteiler&#42;innen der stav-Teams in Hamburg, Heidelberg, M&#252;nster, Saarbr&#252;cken, Berlin und G&#246;ttingen sowie der Mitglieder&#42;innen des Netzwerks Eignung &#38; Auswahl Baden-W&#252;rttemberg am Karlsruher Institut f&#252;r Technologie, an der Universit&#228;t Heidelberg, der DHBW Mannheim, der P&#228;dagogische Hochschule Weingarten und der Hochschule Pforzheim.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Funding">
      <MainHeadline>Funding</MainHeadline><Pgraph>This study was conducted as part of the larger stav research project funded by the Federal Ministry of Education and Research, Germany, project number: 01GK1801A-F.</Pgraph><Pgraph>We acknowledge financial support from the Open Access Publication Fund of UKE - Universit&#228;tsklinikum Hamburg-Eppendorf.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="F&#246;rderung">
      <MainHeadline>F&#246;rderung</MainHeadline><Pgraph>Diese Studie wurde im Rahmen des stav-Forschungsprojekts durchgef&#252;hrt, das vom Bundesministerium f&#252;r Bildung und Forschung gef&#246;rdert wurde, Projektnummer: 01GK1801A-F.</Pgraph><Pgraph>Wir danken f&#252;r die finanzielle Unterst&#252;tzung durch den Open-Access-Publikationsfonds des UKE - Universit&#228;tsklinikum Hamburg-Eppendorf.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Authors&#8217; ORCIDs">
      <MainHeadline>Authors&#8217; ORCIDs</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Mirjana Knorr: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-0996-9286">0000-0002-0996-9286</Hyperlink>&#93;</ListItem><ListItem level="1">Ina Mielke: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0003-1764-5553">0000-0003-1764-5553</Hyperlink>&#93;</ListItem><ListItem level="1">Dorothee Amelung: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-9946-9073">0000-0002-9946-9073</Hyperlink>&#93;</ListItem><ListItem level="1">Mahla Safari: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0003-0976-8094">0000-0003-0976-8094</Hyperlink>&#93;</ListItem><ListItem level="1">Oana R. Gr&#246;ne: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-6829-5365">0000-0002-6829-5365</Hyperlink>&#93;</ListItem><ListItem level="1">Simon M. Breil: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0001-5583-3884">0000-0001-5583-3884</Hyperlink>&#93;</ListItem><ListItem level="1">Alexander MacIntosh: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-5094-3774">0000-0002-5094-3774</Hyperlink>&#93;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="ORCIDs der Autor&#42;innen">
      <MainHeadline>ORCIDs der Autor&#42;innen</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Mirjana Knorr: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-0996-9286">0000-0002-0996-9286</Hyperlink>&#93;</ListItem><ListItem level="1">Ina Mielke: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0003-1764-5553">0000-0003-1764-5553</Hyperlink>&#93;</ListItem><ListItem level="1">Dorothee Amelung: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-9946-9073">0000-0002-9946-9073</Hyperlink>&#93;</ListItem><ListItem level="1">Mahla Safari: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0003-0976-8094">0000-0003-0976-8094</Hyperlink>&#93;</ListItem><ListItem level="1">Oana R. Gr&#246;ne: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-6829-5365">0000-0002-6829-5365</Hyperlink>&#93;</ListItem><ListItem level="1">Simon M. Breil: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0001-5583-3884">0000-0001-5583-3884</Hyperlink>&#93;</ListItem><ListItem level="1">Alexander MacIntosh: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-5094-3774">0000-0002-5094-3774</Hyperlink>&#93;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>Alexander MacIntosh is a data scientist at Acuity Insights, the company that develops and distributes Casper. The other authors have no competing interests to declare.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Alexander MacIntosh ist Data Scientist bei Acuity Insights, dem Unternehmen, das Casper entwickelt und vertreibt. Die anderen Autor&#42;innen haben keine zu erkl&#228;renden Interessenkonflikte.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Frank JR</RefAuthor>
        <RefAuthor>Snell L</RefAuthor>
        <RefAuthor>Sherbino J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Can Meds 2015 Physician Competency Framework</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Frank JR, Snell L, Sherbino J, editors. Can Meds 2015 Physician Competency Framework. Ottawa: Royal College of Physicians and Surgeons of Canada; 2015. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;canmeds.royalcollege.ca&#47;en&#47;framework</RefTotal>
        <RefLink>https:&#47;&#47;canmeds.royalcollege.ca&#47;en&#47;framework</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Medizinischer Fakult&#228;tentag</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2015</RefYear>
        <RefBookTitle>Nationaler Kompetenzbasierter Lernzielkatalog Medizin 2015</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Medizinischer Fakult&#228;tentag. Nationaler Kompetenzbasierter Lernzielkatalog Medizin 2015. Berlin: MFT Medizinischer Fakult&#228;tentag der Bundesrepublik Deutschland e. V.; 2015. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;medizinische-fakultaeten.de&#47;wp-content&#47;uploads&#47;2021&#47;06&#47;nklm&#95;final&#95;2015-12-04.pdf</RefTotal>
        <RefLink>https:&#47;&#47;medizinische-fakultaeten.de&#47;wp-content&#47;uploads&#47;2021&#47;06&#47;nklm&#95;final&#95;2015-12-04.pdf</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Association of American Medical Colleges</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2022</RefYear>
        <RefBookTitle>The Core Competencies for Entering Medical Students</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Association of American Medical Colleges. The Core Competencies for Entering Medical Students. Washington, DC: Association of American Medical Colleges; 2022. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;students-residents.aamc.org&#47;applying-medical-school&#47;article&#47;core-competencies</RefTotal>
        <RefLink>https:&#47;&#47;students-residents.aamc.org&#47;applying-medical-school&#47;article&#47;core-competencies</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Bundesministerium f&#252;r Gesundheit</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>Masterplan Medizinstudium 2020</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bundesministerium f&#252;r Gesundheit. Masterplan Medizinstudium 2020. Berlin: Bundesgesundheitsministerium; 2017. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.bmbf.de&#47;bmbf&#47;shareddocs&#47;kurzmeldungen&#47;de&#47;masterplan-medizinstudium-2020.html</RefTotal>
        <RefLink>https:&#47;&#47;www.bmbf.de&#47;bmbf&#47;shareddocs&#47;kurzmeldungen&#47;de&#47;masterplan-medizinstudium-2020.html</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Schult J</RefAuthor>
        <RefAuthor>Hofmann A</RefAuthor>
        <RefAuthor>Stegt SJ</RefAuthor>
        <RefTitle>Leisten fachspezifische Studierf&#228;higkeitstests im deutschsprachigen Raum eine valide Studienerfolgsprognose&#63;</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>Z Entwicklungspsychol P&#228;dagog Psychol</RefJournal>
        <RefPage>16-30</RefPage>
        <RefTotal>Schult J, Hofmann A, Stegt SJ. Leisten fachspezifische Studierf&#228;higkeitstests im deutschsprachigen Raum eine valide Studienerfolgsprognose&#63; Z Entwicklungspsychol P&#228;dagog Psychol. 2019;51(1):16-30. DOI: 10.1026&#47;0049-8637&#47;a000204</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1026&#47;0049-8637&#47;a000204</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Rees EL</RefAuthor>
        <RefAuthor>Hawarden AW</RefAuthor>
        <RefAuthor>Dent G</RefAuthor>
        <RefAuthor>Hays R</RefAuthor>
        <RefAuthor>Bates J</RefAuthor>
        <RefAuthor>Hassell AB</RefAuthor>
        <RefTitle>Evidence regarding the utility of multiple mini-interview (MMI) for selection to undergraduate health programs: A BEME systematic review: BEME Guide No. 37</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>443-455</RefPage>
        <RefTotal>Rees EL, Hawarden AW, Dent G, Hays R, Bates J, Hassell AB. Evidence regarding the utility of multiple mini-interview (MMI) for selection to undergraduate health programs: A BEME systematic review: BEME Guide No. 37. Med Teach. 2016;38(5):443-455. DOI: 10.3109&#47;0142159X.2016.1158799</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2016.1158799</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Hissbach JC</RefAuthor>
        <RefAuthor>Sehner S</RefAuthor>
        <RefAuthor>Harendza S</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefTitle>Cutting costs of multiple mini-interviews - changes in reliability and efficiency of the Hamburg medical school admission test between two applications</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>54</RefPage>
        <RefTotal>Hissbach JC, Sehner S, Harendza S, Hampe W. Cutting costs of multiple mini-interviews - changes in reliability and efficiency of the Hamburg medical school admission test between two applications. BMC Med Educ. 2014;14:54. DOI: 10.1186&#47;1472-6920-14-54</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;1472-6920-14-54</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Amelung D</RefAuthor>
        <RefAuthor>Zegota S</RefAuthor>
        <RefAuthor>Espe L</RefAuthor>
        <RefAuthor>Wittenberg T</RefAuthor>
        <RefAuthor>Raupach T</RefAuthor>
        <RefAuthor>Kadmon M</RefAuthor>
        <RefTitle>Considering vocational training as selection criterion for medical students: evidence for predictive validity</RefTitle>
        <RefYear>2022</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>933-948</RefPage>
        <RefTotal>Amelung D, Zegota S, Espe L, Wittenberg T, Raupach T, Kadmon M. Considering vocational training as selection criterion for medical students: evidence for predictive validity. Adv Health Sci Educ Theory Pract. 2022;27(4):933-948. DOI: 10.1007&#47;s10459-022-10120-y</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-022-10120-y</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Erschens R</RefAuthor>
        <RefAuthor>Herrmann-Werner A</RefAuthor>
        <RefAuthor>Schaffland TF</RefAuthor>
        <RefAuthor>Kelava A</RefAuthor>
        <RefAuthor>Ambiel D</RefAuthor>
        <RefAuthor>Zipfel S</RefAuthor>
        <RefAuthor>Loda T</RefAuthor>
        <RefTitle>Association of professional pre-qualifications, study success in medical school and the eligibility for becoming a physician: A scoping review</RefTitle>
        <RefYear>2021</RefYear>
        <RefJournal>PLoS One</RefJournal>
        <RefPage>e0258941</RefPage>
        <RefTotal>Erschens R, Herrmann-Werner A, Schaffland TF, Kelava A, Ambiel D, Zipfel S, Loda T. Association of professional pre-qualifications, study success in medical school and the eligibility for becoming a physician: A scoping review. PLoS One. 2021;16(11):e0258941. DOI: 10.1371&#47;journal.pone.0258941</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1371&#47;journal.pone.0258941</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Patterson F</RefAuthor>
        <RefAuthor>Zibarras L</RefAuthor>
        <RefAuthor>Ashworth V</RefAuthor>
        <RefTitle>Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>3-17</RefPage>
        <RefTotal>Patterson F, Zibarras L, Ashworth V. Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100. Med Teach. 2016;38(1):3-17. DOI: 10.3109&#47;0142159X.2015.1072619</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2015.1072619</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Patterson F</RefAuthor>
        <RefAuthor>Knight A</RefAuthor>
        <RefAuthor>Dowell J</RefAuthor>
        <RefAuthor>Nicholson S</RefAuthor>
        <RefAuthor>Cousans F</RefAuthor>
        <RefAuthor>Cleland J</RefAuthor>
        <RefTitle>How effective are selection methods in medical education&#63; A systematic review</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>36-60</RefPage>
        <RefTotal>Patterson F, Knight A, Dowell J, Nicholson S, Cousans F, Cleland J. How effective are selection methods in medical education&#63; A systematic review. Med Educ. 2016;50(1):36-60. DOI: 10.1111&#47;medu.12817</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.12817</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Webster ES</RefAuthor>
        <RefAuthor>Paton LW</RefAuthor>
        <RefAuthor>Crampton PES</RefAuthor>
        <RefAuthor>Tiffin PA</RefAuthor>
        <RefTitle>Situational judgement test validity for selection: A systematic review and meta-analysis</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>888-902</RefPage>
        <RefTotal>Webster ES, Paton LW, Crampton PES, Tiffin PA. Situational judgement test validity for selection: A systematic review and meta-analysis. Med Educ. 2020;54(10):888-902. DOI: 10.1111&#47;medu.14201</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.14201</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Lievens F</RefAuthor>
        <RefAuthor>Sackett PR</RefAuthor>
        <RefAuthor>Dahlke JA</RefAuthor>
        <RefAuthor>Oostrom JK</RefAuthor>
        <RefAuthor>De Soete B</RefAuthor>
        <RefTitle>Constructed response formats and their effects on minority&#8211;majority differences and validity</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>J Appl Psychol</RefJournal>
        <RefPage>715-726</RefPage>
        <RefTotal>Lievens F, Sackett PR, Dahlke JA, Oostrom JK, De Soete B. Constructed response formats and their effects on minority&#8211;majority differences and validity. J Appl Psychol. 2019;104(5):715-726. DOI: 10.1037&#47;apl0000367</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1037&#47;apl0000367</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Mortaz Hejri S</RefAuthor>
        <RefAuthor>Ho JL</RefAuthor>
        <RefAuthor>Pan X</RefAuthor>
        <RefAuthor>Park YS</RefAuthor>
        <RefAuthor>Sam AH</RefAuthor>
        <RefAuthor>Mangardich H</RefAuthor>
        <RefAuthor>MacIntosh A</RefAuthor>
        <RefTitle>Validity of constructed-response situational judgment tests in training programs for the health professions: A systematic review and meta-analysis protocol</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>PLoS One</RefJournal>
        <RefPage>e0280493</RefPage>
        <RefTotal>Mortaz Hejri S, Ho JL, Pan X, Park YS, Sam AH, Mangardich H, MacIntosh A. Validity of constructed-response situational judgment tests in training programs for the health professions: A systematic review and meta-analysis protocol. PLoS One. 2023;18(1):e0280493. DOI: 10.1371&#47;journal.pone.0280493</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1371&#47;journal.pone.0280493</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Dore KL</RefAuthor>
        <RefAuthor>Reiter HI</RefAuthor>
        <RefAuthor>Eva KW</RefAuthor>
        <RefAuthor>Krueger S</RefAuthor>
        <RefAuthor>Scriven E</RefAuthor>
        <RefAuthor>Siu E</RefAuthor>
        <RefAuthor>Hilsden S</RefAuthor>
        <RefAuthor>Thomas J</RefAuthor>
        <RefAuthor>Norman GR</RefAuthor>
        <RefTitle>Extending the interview to all medical school candidates-computer-based multiple sample evaluation of noncognitive skills (CMSENS)</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>S9-S12</RefPage>
        <RefTotal>Dore KL, Reiter HI, Eva KW, Krueger S, Scriven E, Siu E, Hilsden S, Thomas J, Norman GR. Extending the interview to all medical school candidates-computer-based multiple sample evaluation of noncognitive skills (CMSENS). Acad Med. 2009;84:S9-S12. DOI: 10.1097&#47;ACM.0b013e3181b3705a</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;ACM.0b013e3181b3705a</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Zou C</RefAuthor>
        <RefAuthor>McConnell M</RefAuthor>
        <RefAuthor>Leddy J</RefAuthor>
        <RefAuthor>Antonacci P</RefAuthor>
        <RefAuthor>Lemay G</RefAuthor>
        <RefTitle>Comparison of the English and French versions of the CASPer&#174; Test in a bilingual population, version 1</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>MedEdPublish</RefJournal>
        <RefPage>281</RefPage>
        <RefTotal>Zou C, McConnell M, Leddy J, Antonacci P, Lemay G. Comparison of the English and French versions of the CASPer&#174; Test in a bilingual population, version 1. MedEdPublish. 2018;7:281. DOI: 10.15694&#47;mep.2018.0000281.1</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.15694&#47;mep.2018.0000281.1</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Juster FR</RefAuthor>
        <RefAuthor>Baum RC</RefAuthor>
        <RefAuthor>Zou C</RefAuthor>
        <RefAuthor>Risucci D</RefAuthor>
        <RefAuthor>Ly A</RefAuthor>
        <RefAuthor>Reiter H</RefAuthor>
        <RefAuthor>Miller DD</RefAuthor>
        <RefAuthor>Dore KL</RefAuthor>
        <RefTitle>Addressing the diversity-validity dilemma using situational judgment tests</RefTitle>
        <RefYear>2019</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>1197-1203</RefPage>
        <RefTotal>Juster FR, Baum RC, Zou C, Risucci D, Ly A, Reiter H, Miller DD, Dore KL. Addressing the diversity-validity dilemma using situational judgment tests. Acad Med. 2019;94(8):1197-1203. DOI: 10.1097&#47;ACM.0000000000002769</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1097&#47;ACM.0000000000002769</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Dore KL</RefAuthor>
        <RefAuthor>Reiter HI</RefAuthor>
        <RefAuthor>Kreuger S</RefAuthor>
        <RefAuthor>Norman GR</RefAuthor>
        <RefTitle>CASPer, an online pre-interview screen for personal&#47;professional characteristics: prediction of national licensure scores</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>327-336</RefPage>
        <RefTotal>Dore KL, Reiter HI, Kreuger S, Norman GR. CASPer, an online pre-interview screen for personal&#47;professional characteristics: prediction of national licensure scores. Adv Health Sci Educ Theory Pract. 2017;22(2):327-336. DOI: 10.1007&#47;s10459-016-9739-9</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-016-9739-9</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Fr&#246;hlich M</RefAuthor>
        <RefAuthor>Kahmann J</RefAuthor>
        <RefAuthor>Kadmon M</RefAuthor>
        <RefTitle>Development and psychometric examination of a German video-based situational judgment test for social competencies in medical school applicants</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>Int J Sel Assess</RefJournal>
        <RefPage>94-110</RefPage>
        <RefTotal>Fr&#246;hlich M, Kahmann J, Kadmon M. Development and psychometric examination of a German video-based situational judgment test for social competencies in medical school applicants. Int J Sel Assess. 2017;25(1):94-110. DOI: 10.1111&#47;ijsa.12163</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;ijsa.12163</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Schwibbe A</RefAuthor>
        <RefAuthor>Lackamp J</RefAuthor>
        <RefAuthor>Knorr M</RefAuthor>
        <RefAuthor>Hissbach J</RefAuthor>
        <RefAuthor>Kadmon M</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefTitle>Medizinstudierendenauswahl in Deutschland: Messung kognitiver F&#228;higkeiten und psychosozialer Kompetenzen</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz</RefJournal>
        <RefPage>178-186</RefPage>
        <RefTotal>Schwibbe A, Lackamp J, Knorr M, Hissbach J, Kadmon M, Hampe W. Medizinstudierendenauswahl in Deutschland: Messung kognitiver F&#228;higkeiten und psychosozialer Kompetenzen &#91;Selection of medical students: Measurement of cognitive abilities and psychosocial competencies&#93;. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz. 2018;61(2):178-186. DOI: 10.1007&#47;s00103-017-2670-2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00103-017-2670-2</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Jackson DJ</RefAuthor>
        <RefAuthor>LoPilato AC</RefAuthor>
        <RefAuthor>Hughes D</RefAuthor>
        <RefAuthor>Guenole N</RefAuthor>
        <RefAuthor>Shalfrooshan A</RefAuthor>
        <RefTitle>The internal structure of situational judgement tests reflects candidate main effects: Not dimensions or situations</RefTitle>
        <RefYear>2017</RefYear>
        <RefJournal>J Occup Organ Psychol</RefJournal>
        <RefPage>1-27</RefPage>
        <RefTotal>Jackson DJ, LoPilato AC, Hughes D, Guenole N, Shalfrooshan A. The internal structure of situational judgement tests reflects candidate main effects: Not dimensions or situations. J Occup Organ Psychol. 2017;90(1):1-27. DOI: 10.1111&#47;joop.12151</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;joop.12151</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Mielke I</RefAuthor>
        <RefAuthor>Breil SM</RefAuthor>
        <RefAuthor>Amelung D</RefAuthor>
        <RefAuthor>Espe L</RefAuthor>
        <RefAuthor>Knorr M</RefAuthor>
        <RefTitle>Assessing distinguishable social skills in medical admission: does construct-driven development solve validity issues of situational judgment tests&#63;</RefTitle>
        <RefYear>2022</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>293</RefPage>
        <RefTotal>Mielke I, Breil SM, Amelung D, Espe L, Knorr M. Assessing distinguishable social skills in medical admission: does construct-driven development solve validity issues of situational judgment tests&#63; BMC Med Educ. 2022;22(1):293. DOI: 10.1186&#47;s12909-022-03305-x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-022-03305-x</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Melro CM</RefAuthor>
        <RefAuthor>Pack R</RefAuthor>
        <RefAuthor>MacLeod A</RefAuthor>
        <RefAuthor>Rideout A</RefAuthor>
        <RefAuthor>Watson-Creed G</RefAuthor>
        <RefAuthor>Burm S</RefAuthor>
        <RefTitle>Front row seat: The role MMI assessors play in widening access to medical school</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>1-8</RefPage>
        <RefTotal>Melro CM, Pack R, MacLeod A, Rideout A, Watson-Creed G, Burm S. Front row seat: The role MMI assessors play in widening access to medical school. Med Teach. 2023:1-8. DOI: 10.1080&#47;0142159X.2023.2289851</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;0142159X.2023.2289851</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Robinett K</RefAuthor>
        <RefAuthor>Kareem R</RefAuthor>
        <RefAuthor>Reavis K</RefAuthor>
        <RefAuthor>Quezada S</RefAuthor>
        <RefTitle>A multi-pronged, antiracist approach to optimize equity in medical school admissions</RefTitle>
        <RefYear>2021</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1376-1382</RefPage>
        <RefTotal>Robinett K, Kareem R, Reavis K, Quezada S. A multi-pronged, antiracist approach to optimize equity in medical school admissions. Med Educ. 2021;55(12):1376-1382. DOI: 10.1111&#47;medu.14589</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.14589</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>O&#39;Sullivan L</RefAuthor>
        <RefAuthor>Kagabo W</RefAuthor>
        <RefAuthor>Prasad N</RefAuthor>
        <RefAuthor>Laporte D</RefAuthor>
        <RefAuthor>Aiyer A</RefAuthor>
        <RefTitle>Racial and Ethnic Bias in Medical School Clinical Grading: A Review</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>J Surg Educ</RefJournal>
        <RefPage>806-816</RefPage>
        <RefTotal>O&#39;Sullivan L, Kagabo W, Prasad N, Laporte D, Aiyer A. Racial and Ethnic Bias in Medical School Clinical Grading: A Review. J Surg Educ. 2023;80(6):806-816. DOI: 10.1016&#47;j.jsurg.2023.03.004</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.jsurg.2023.03.004</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Herde CN</RefAuthor>
        <RefAuthor>Lievens F</RefAuthor>
        <RefAuthor>Jackson DJ</RefAuthor>
        <RefAuthor>Shalfrooshan A</RefAuthor>
        <RefAuthor>Roth PL</RefAuthor>
        <RefTitle>Subgroup differences in situational judgment test scores: Evidence from large applicant samples</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>Int J Sel Assess</RefJournal>
        <RefPage>45-54</RefPage>
        <RefTotal>Herde CN, Lievens F, Jackson DJ, Shalfrooshan A, Roth PL. Subgroup differences in situational judgment test scores: Evidence from large applicant samples. Int J Sel Assess. 2020;28(1):45-54. DOI: 10.1111&#47;ijsa.12269</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;ijsa.12269</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Lievens F</RefAuthor>
        <RefAuthor>Patterson F</RefAuthor>
        <RefAuthor>Corstjens J</RefAuthor>
        <RefAuthor>Martin S</RefAuthor>
        <RefAuthor>Nicholson S</RefAuthor>
        <RefTitle>Widening access in selection using situational judgement tests: evidence from the UKCAT</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>624-636</RefPage>
        <RefTotal>Lievens F, Patterson F, Corstjens J, Martin S, Nicholson S. Widening access in selection using situational judgement tests: evidence from the UKCAT. Med Educ. 2016;50(6):624-636. DOI: 10.1111&#47;medu.13060</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;medu.13060</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Statistisches Bundesamt</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2021</RefYear>
        <RefBookTitle>Migrationshintergrund</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Statistisches Bundesamt. Migrationshintergrund. Wiesbaden: Desatis; 2021. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.destatis.de&#47;DE&#47;Themen&#47;Gesellschaft-Umwelt&#47;Bevoelkerung&#47;Migration-Integration&#47;Glossar&#47;migrationshintergrund.html</RefTotal>
        <RefLink>https:&#47;&#47;www.destatis.de&#47;DE&#47;Themen&#47;Gesellschaft-Umwelt&#47;Bevoelkerung&#47;Migration-Integration&#47;Glossar&#47;migrationshintergrund.html</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Corstjens J</RefAuthor>
        <RefAuthor>Lievens F</RefAuthor>
        <RefAuthor>Krumm S</RefAuthor>
        <RefTitle>Situational judgement tests for selection</RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>The Wiley Blackwell handbook of the psychology of recruitment, selection and employee retention</RefBookTitle>
        <RefPage>226-246</RefPage>
        <RefTotal>Corstjens J, Lievens F, Krumm S. Situational judgement tests for selection. In: Goldstein HW, Pulakos ED, Passmore J, Semedo C, editors. The Wiley Blackwell handbook of the psychology of recruitment, selection and employee retention. Hoboken (NJ): Blackwell Publ; 2017. p.226-246. DOI: 10.1002&#47;9781118972472.ch11</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;9781118972472.ch11</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Khan KZ</RefAuthor>
        <RefAuthor>Ramachandran S</RefAuthor>
        <RefAuthor>Gaunt K</RefAuthor>
        <RefAuthor>Pushkar P</RefAuthor>
        <RefTitle>The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: An historical and theoretical perspective</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>e1437-e1446</RefPage>
        <RefTotal>Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: An historical and theoretical perspective. Med Teach. 2013;35(9):e1437-e1446. DOI: 10.3109&#47;0142159X.2013.818634</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3109&#47;0142159X.2013.818634</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Knorr M</RefAuthor>
        <RefAuthor>Schwibbe A</RefAuthor>
        <RefAuthor>Ehrhardt M</RefAuthor>
        <RefAuthor>Lackamp J</RefAuthor>
        <RefAuthor>Zimmermann S</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefTitle>Validity evidence for the Hamburg multiple mini-interview</RefTitle>
        <RefYear>2018</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>106</RefPage>
        <RefTotal>Knorr M, Schwibbe A, Ehrhardt M, Lackamp J, Zimmermann S, Hampe W. Validity evidence for the Hamburg multiple mini-interview. BMC Med Educ. 2018;18(1):106. DOI: 10.1186&#47;s12909-018-1208-0</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-018-1208-0</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Hissbach JC</RefAuthor>
        <RefAuthor>Klusmann D</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefTitle>Dimensionality and predictive validity of the HAM-Nat, a test of natural sciences for medical school admission</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>83</RefPage>
        <RefTotal>Hissbach JC, Klusmann D, Hampe W. Dimensionality and predictive validity of the HAM-Nat, a test of natural sciences for medical school admission. BMC Med Educ. 2011;11(1):83. DOI: 10.1186&#47;1472-6920-11-83</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;1472-6920-11-83</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Kadmon G</RefAuthor>
        <RefAuthor>Kadmon M</RefAuthor>
        <RefTitle>Academic performance of students with the highest and mediocre school-leaving grades: Does the aptitude test for medical studies (TMS) balance their prognoses&#63;</RefTitle>
        <RefYear>2016</RefYear>
        <RefJournal>GMS J Med Educ</RefJournal>
        <RefPage>Doc7</RefPage>
        <RefTotal>Kadmon G, Kadmon M. Academic performance of students with the highest and mediocre school-leaving grades: Does the aptitude test for medical studies (TMS) balance their prognoses&#63; GMS J Med Educ. 2016;33(1):Doc7. DOI: 10.3205&#47;zma001006</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;zma001006</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Schick K</RefAuthor>
        <RefAuthor>Reiser S</RefAuthor>
        <RefAuthor>Janssen L</RefAuthor>
        <RefAuthor>Schacht L</RefAuthor>
        <RefAuthor>Pittroff SID</RefAuthor>
        <RefAuthor>D&#246;rfler E</RefAuthor>
        <RefAuthor>Klein E</RefAuthor>
        <RefAuthor>Roenneberg C</RefAuthor>
        <RefAuthor>Dinkel A</RefAuthor>
        <RefAuthor>Fleischmann A</RefAuthor>
        <RefAuthor>Berberat PO</RefAuthor>
        <RefAuthor>Bauer J</RefAuthor>
        <RefAuthor>Gartmeier M</RefAuthor>
        <RefTitle>Training in medical communication competence through video-based e-learning: How effective are video modeling and video reflection&#63;</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Patient Educ Couns</RefJournal>
        <RefPage>108132</RefPage>
        <RefTotal>Schick K, Reiser S, Janssen L, Schacht L, Pittroff SID, D&#246;rfler E, Klein E, Roenneberg C, Dinkel A, Fleischmann A, Berberat PO, Bauer J, Gartmeier M. Training in medical communication competence through video-based e-learning: How effective are video modeling and video reflection&#63; Patient Educ Couns. 2024 Apr;121:108132. DOI: 10.1016&#47;j.pec.2023.108132</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.pec.2023.108132</RefLink>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Schubert S</RefAuthor>
        <RefAuthor>Ortwein H</RefAuthor>
        <RefAuthor>Dumitsch A</RefAuthor>
        <RefAuthor>Schwantes U</RefAuthor>
        <RefAuthor>Wilhelm O</RefAuthor>
        <RefAuthor>Kiessling C</RefAuthor>
        <RefTitle>A situational judgement test of professional behaviour: development and validation</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>528-533</RefPage>
        <RefTotal>Schubert S, Ortwein H, Dumitsch A, Schwantes U, Wilhelm O, Kiessling C. A situational judgement test of professional behaviour: development and validation. Med Teach. 2008;30(5):528-533. DOI: 10.1080&#47;01421590801952994</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;01421590801952994</RefLink>
      </Reference>
      <Reference refNo="36">
        <RefAuthor>Institut f&#252;r Kommunikations- und Pr&#252;fungsforschung gGmbH</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Studentischer kompetenzorientierter Progresstest 2024</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Institut f&#252;r Kommunikations- und Pr&#252;fungsforschung gGmbH. Studentischer kompetenzorientierter Progresstest 2024. Heidelberg: Institut f&#252;r Kommunikations- und Pr&#252;fungsforschung; 2024. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.komp-pt.de&#47;</RefTotal>
        <RefLink>https:&#47;&#47;www.komp-pt.de&#47;</RefLink>
      </Reference>
      <Reference refNo="37">
        <RefAuthor>Knorr M</RefAuthor>
        <RefAuthor>Rudloff A</RefAuthor>
        <RefAuthor>Breil SM</RefAuthor>
        <RefAuthor>Schwibbe A</RefAuthor>
        <RefTitle>Use of Situational Judgement Tests for Admission into Medical School: Experiences from the University Medical Centre Hamburg</RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>15th Conference of the Differential Psychology, Personality Psychology and Psychological Assessment (DPPD) of the German Psychological Society (DGPs); 2019 Sep 16-18; Dresden, Germany</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Knorr M, Rudloff A, Breil SM, Schwibbe A. Use of Situational Judgement Tests for Admission into Medical School: Experiences from the University Medical Centre Hamburg. In: 15th Conference of the Differential Psychology, Personality Psychology and Psychological Assessment (DPPD) of the German Psychological Society (DGPs); 2019 Sep 16-18; Dresden, Germany.</RefTotal>
      </Reference>
      <Reference refNo="38">
        <RefAuthor>Pan X</RefAuthor>
        <RefAuthor>Huang V</RefAuthor>
        <RefAuthor>Laumbach S</RefAuthor>
        <RefAuthor>Copeland HL</RefAuthor>
        <RefAuthor>Akinola M</RefAuthor>
        <RefAuthor>Rosenbaum D</RefAuthor>
        <RefAuthor>MacIntosh A</RefAuthor>
        <RefTitle>Impact of patterns of language use and socio-economic status on a constructed response Situational Judgment Test (SJT)</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>PLoS One</RefJournal>
        <RefPage>e0289420</RefPage>
        <RefTotal>Pan X, Huang V, Laumbach S, Copeland HL, Akinola M, Rosenbaum D, MacIntosh A. Impact of patterns of language use and socio-economic status on a constructed response Situational Judgment Test (SJT). PLoS One. 2023;18(8):e0289420. DOI: 10.1371&#47;journal.pone.0289420</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1371&#47;journal.pone.0289420</RefLink>
      </Reference>
      <Reference refNo="39">
        <RefAuthor>Rindermann H</RefAuthor>
        <RefAuthor>Oubaid V</RefAuthor>
        <RefTitle>Auswahl von Studienanf&#228;ngern durch Universit&#228;ten - Kriterien, Verfahren und Prognostizierbarkeit des Studienerfolgs</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>J Individ Differ</RefJournal>
        <RefPage>172-191</RefPage>
        <RefTotal>Rindermann H, Oubaid V. Auswahl von Studienanf&#228;ngern durch Universit&#228;ten - Kriterien, Verfahren und Prognostizierbarkeit des Studienerfolgs. J Individ Differ. 1999;20(3):172-191. DOI: 10.1024&#47;&#47;0170-1789.20.3.172</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1024&#47;&#47;0170-1789.20.3.172</RefLink>
      </Reference>
      <Reference refNo="40">
        <RefAuthor>Groene OR</RefAuthor>
        <RefAuthor>Huelmann T</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefAuthor>Emami P</RefAuthor>
        <RefTitle>German physicians and medical students do not represent the population they serve</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>Healthcare (Basel)</RefJournal>
        <RefPage>1662</RefPage>
        <RefTotal>Groene OR, Huelmann T, Hampe W, Emami P. German physicians and medical students do not represent the population they serve. Healthcare (Basel). 2023;11(12):1662. DOI: 10.3390&#47;healthcare11121662</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3390&#47;healthcare11121662</RefLink>
      </Reference>
      <Reference refNo="41">
        <RefAuthor>Finger C</RefAuthor>
        <RefAuthor>Hampe W</RefAuthor>
        <RefAuthor>Wittenberg T</RefAuthor>
        <RefTitle>Eignungstests f&#252;r das Medizinstudium: Perspektiven auf Diversit&#228;t und Fairness</RefTitle>
        <RefYear>2023</RefYear>
        <RefBookTitle>Vielfalt und Chancengerechtigkeit in Studium und Wissenschaft</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Finger C, Hampe W, Wittenberg T. Eignungstests f&#252;r das Medizinstudium: Perspektiven auf Diversit&#228;t und Fairness. In: Bundesministerium f&#252;r Bildung und Forschung, editor. Vielfalt und Chancengerechtigkeit in Studium und Wissenschaft. Berlin: Bundesministerium f&#252;r Bildung und Forschung (BMBF); 2023.</RefTotal>
      </Reference>
      <Reference refNo="42">
        <RefAuthor>Autor:innengruppe Bildungsberichterstattung</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2022</RefYear>
        <RefBookTitle>Bildung in Deutschland 2022</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Autor:innengruppe Bildungsberichterstattung. Bildung in Deutschland 2022. Bielefeld: wbv Publikation; 2022.</RefTotal>
      </Reference>
      <Reference refNo="43">
        <RefAuthor>OECD</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2023</RefYear>
        <RefBookTitle>PISA 2022 Results (Volume I): The State of Learning and Equity in Education</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>OECD. PISA 2022 Results (Volume I): The State of Learning and Equity in Education. Paris: OECD Publishing; 2023.</RefTotal>
      </Reference>
      <Reference refNo="44">
        <RefAuthor>Neugebauer M</RefAuthor>
        <RefAuthor>Schindler S</RefAuthor>
        <RefTitle>Early transitions and tertiary enrolment: The cumulative impact of primary and secondary effects on entering university in Germany</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Acta Sociologica</RefJournal>
        <RefPage>19-36</RefPage>
        <RefTotal>Neugebauer M, Schindler S. Early transitions and tertiary enrolment: The cumulative impact of primary and secondary effects on entering university in Germany. Acta Sociologica. 2012;55(1):19-36. DOI: 10.1177&#47;0001699311427747</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;0001699311427747</RefLink>
      </Reference>
      <Reference refNo="45">
        <RefAuthor>Kristen C</RefAuthor>
        <RefAuthor>Reimer D</RefAuthor>
        <RefAuthor>Kogan I</RefAuthor>
        <RefTitle>Higher Education Entry of Turkish Immigrant Youth in Germany</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Int J Comp Soc</RefJournal>
        <RefPage>127-151</RefPage>
        <RefTotal>Kristen C, Reimer D, Kogan I. Higher Education Entry of Turkish Immigrant Youth in Germany. Int J Comp Soc. 2008;49(2-3):127-151. DOI: 10.1177&#47;0020715208088909</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;0020715208088909</RefLink>
      </Reference>
      <Reference refNo="46">
        <RefAuthor>Bundesverfassungsgericht</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>Leits&#228;tze zum Urteil des Ersten Senats vom 19. Dezember 2017. 1 BvL 3&#47;14, 1 BvL 4&#47;14</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bundesverfassungsgericht. Leits&#228;tze zum Urteil des Ersten Senats vom 19. Dezember 2017. 1 BvL 3&#47;14, 1 BvL 4&#47;14. Karlsruhe: Bundesverfassungsgericht; 2017. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.bverfg.de&#47;e&#47;ls20171219&#95;1bvl000314.html</RefTotal>
        <RefLink>https:&#47;&#47;www.bverfg.de&#47;e&#47;ls20171219&#95;1bvl000314.html</RefLink>
      </Reference>
      <Reference refNo="47">
        <RefAuthor>Groene O</RefAuthor>
        <RefAuthor>Mielke I</RefAuthor>
        <RefAuthor>Knorr M</RefAuthor>
        <RefAuthor>Ehrhardt M</RefAuthor>
        <RefAuthor>Bergelt C</RefAuthor>
        <RefTitle>Associations between communication OSCE performance and admission interviews in medical education</RefTitle>
        <RefYear>2022</RefYear>
        <RefJournal>Patient Educ Couns</RefJournal>
        <RefPage>2270-2275</RefPage>
        <RefTotal>Groene O, Mielke I, Knorr M, Ehrhardt M, Bergelt C. Associations between communication OSCE performance and admission interviews in medical education. Patient Educ Couns. 2022;105(7):2270-2275. DOI: 10.1016&#47;j.pec.2021.11.005</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.pec.2021.11.005</RefLink>
      </Reference>
      <Reference refNo="48">
        <RefAuthor>Rosenfeld JM</RefAuthor>
        <RefAuthor>Reiter HI</RefAuthor>
        <RefAuthor>Trinh K</RefAuthor>
        <RefAuthor>Eva KW</RefAuthor>
        <RefTitle>A cost efficiency comparison between the multiple mini-interview and traditional admissions interviews</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>43-58</RefPage>
        <RefTotal>Rosenfeld JM, Reiter HI, Trinh K, Eva KW. A cost efficiency comparison between the multiple mini-interview and traditional admissions interviews. Adv Health Sci Educ Theory Pract. 2008;13(1):43-58. DOI: 10.1007&#47;s10459-006-9029-z</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s10459-006-9029-z</RefLink>
      </Reference>
      <Reference refNo="49">
        <RefAuthor>Mallinger R</RefAuthor>
        <RefAuthor>Holzbaur C</RefAuthor>
        <RefAuthor>Mutz N</RefAuthor>
        <RefAuthor>Prodinger WM</RefAuthor>
        <RefAuthor>Heidegger M</RefAuthor>
        <RefAuthor>H&#228;nsgen KD</RefAuthor>
        <RefAuthor>Spicher B</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2011</RefYear>
        <RefBookTitle>EMS: Eignungstest f&#252;r das Medizinstudium in &#214;sterreich</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Mallinger R, Holzbaur C, Mutz N, Prodinger WM, Heidegger M, H&#228;nsgen KD, Spicher B. EMS: Eignungstest f&#252;r das Medizinstudium in &#214;sterreich. Wien&#47;Innsbruck: Medizinische Universit&#228;t Innsbruck&#47;Medizinische Universit&#228;t Wien; 2011.</RefTotal>
      </Reference>
      <Reference refNo="50">
        <RefAuthor>Spicher B</RefAuthor>
        <RefAuthor>H&#228;nsgen KD</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2017</RefYear>
        <RefBookTitle>EMS 2017 Bericht 24. Eignungstest f&#252;r das Medizinstudium in der Schweiz. Bericht &#252;ber Durchf&#252;hrung und Ergebnisse</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Spicher B, H&#228;nsgen KD. EMS 2017 Bericht 24. Eignungstest f&#252;r das Medizinstudium in der Schweiz. Bericht &#252;ber Durchf&#252;hrung und Ergebnisse. Granges-Paccot: Zentrum f&#252;r Testentwicklung und Diagnostik am Departement f&#252;r Psychologie der Universit&#228;t Freiburg; 2017.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Overview of instruments and their reliability, descriptive statistics in Casper study population, and correlation between Casper score and each of the instruments</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: &#220;bersicht der Instrumente und ihrer Reliabilit&#228;t, deskriptive Statistiken in der Casper-Stichprobe und Korrelation zwischen Casper-Score und jedem der Instrumente</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Characteristics of study participants</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Merkmale der Stichprobe</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Characteristics of community and faculty raters in 2021</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: Merkmale der Beurteiler&#42;innen der Allgemeinbev&#246;lkerung und Fakult&#228;t in 2021</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Multiple regression analyses predicting Casper by sociodemographic variables (model 1) controlling for native language (model 2) and cognitive ability (model 3) (n&#61;227)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Multiple Regressionsanalysen zur Vorhersage von Casper anhand soziodemografischer Variablen (Modell 1), unter Ber&#252;cksichtigung der Muttersprache (Modell 2) und der kognitiven F&#228;higkeiten (Modell 3) (</Mark1><Mark1><Mark2>n</Mark2></Mark1><Mark1>&#61;227)</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>4</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="zma001685.a1en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;1.pdf" size="159374" url="">1en</MediaID>
          <MediaID filename="zma001685.a1de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;1.pdf" size="159284" url="">1de</MediaID>
          <AttachmentTitle language="en">Sociodemographic questionnaire of the stav project (2019 version)</AttachmentTitle>
          <AttachmentTitle language="de">Soziodemografischer Fragebogen des stav-Projektes (Version 2019)</AttachmentTitle>
        </Attachment>
        <Attachment>
          <MediaNo>2</MediaNo>
          <MediaID filename="zma001685.a2en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;2.pdf" size="202917" url="">2en</MediaID>
          <MediaID filename="zma001685.a2de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;2.pdf" size="202968" url="">2de</MediaID>
          <AttachmentTitle language="en">CASPer exit survey</AttachmentTitle>
          <AttachmentTitle language="de">Evaluationsfragebogen zu CASPer</AttachmentTitle>
        </Attachment>
        <Attachment>
          <MediaNo>3</MediaNo>
          <MediaID filename="zma001685.a3en.pdf" language="en" mimeType="application/pdf" origFilename="Attachment&#95;3.pdf" size="231621" url="">3en</MediaID>
          <MediaID filename="zma001685.a3de.pdf" language="de" mimeType="application/pdf" origFilename="Anhang&#95;3.pdf" size="240871" url="">3de</MediaID>
          <AttachmentTitle language="en">Additional tables</AttachmentTitle>
          <AttachmentTitle language="de">Zus&#228;tzliche Tabellen</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>3</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>