<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle>
  <MetaData>
    <Identifier>zma000756</Identifier>
    <IdentifierDoi>10.3205/zma000756</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0007562</IdentifierUrn>
    <ArticleType language="de">Forschungsarbeit</ArticleType>
    <ArticleType language="en">research article</ArticleType>
    <TitleGroup>
      <Title language="de">Reliabilit&#228;t des Hamburger Auswahlverfahrens f&#252;r Medizinische Studieng&#228;nge, Naturwissenschaftsteil (HAM-Nat)</Title>
      <TitleTranslated language="en">Reliability of a science admission test (HAM-Nat) at Hamburg medical school</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Hissbach</Lastname>
          <LastnameHeading>Hissbach</LastnameHeading>
          <Firstname>Johanna</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Institut f&#252;r Biochemie und molekulare Zellbiologie, Hamburg, Deutschland</Affiliation>
        </Address>
        <Email>j.hissbach&#64;uke.uni-hamburg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Klusmann</Lastname>
          <LastnameHeading>Klusmann</LastnameHeading>
          <Firstname>Dietrich</Firstname>
          <Initials>D</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Institut und Poliklinik f&#252;r Medizinische Psychologie, Hamburg, Deutschland</Affiliation>
        </Address>
        <Email>klusmann&#64;uke.uni-hamburg.de</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hampe</Lastname>
          <LastnameHeading>Hampe</LastnameHeading>
          <Firstname>Wolfgang</Firstname>
          <Initials>W</Initials>
          <AcademicTitle>Prof. Dr.</AcademicTitle>
        </PersonNames>
        <Address>Universit&#228;tsklinikum Hamburg-Eppendorf, Institut f&#252;r Biochemie und molekulare Zellbiologie, Martinistra&#223;e 52, 20246 Hamburg, Deutschland, Tel.: &#43;49 (0)40&#47;7410-59967, Fax: &#43;49 (0)40&#47;7410-54592<Affiliation>Universit&#228;tsklinikum Hamburg-Eppendorf, Institut f&#252;r Biochemie und molekulare Zellbiologie, Hamburg, Deutschland</Affiliation></Address>
        <Email>hampe&#64;uke.uni-hamburg.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">Student selection medical school</Keyword>
      <Keyword language="en">External validity</Keyword>
      <Keyword language="en">Reliability</Keyword>
      <Keyword language="en">Admission test</Keyword>
      <Keyword language="de">Studienbewerberauswahl Medizin</Keyword>
      <Keyword language="de">Externe Validit&#228;t</Keyword>
      <Keyword language="de">Reliabilit&#228;t</Keyword>
      <Keyword language="de">Studieneingangstest</Keyword>
      <SectionHeading language="en">medicine</SectionHeading>
      <SectionHeading language="de">Humanmedizin</SectionHeading>
    </SubjectGroup>
    <DateReceived>20101008</DateReceived>
    <DateRevised>20110329</DateRevised>
    <DateAccepted>20110601</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20110808</DatePublished></DatePublishedList>
    <Language>germ</Language>
    <LanguageTranslation>engl</LanguageTranslation>
    <SourceGroup>
      <Journal>
        <ISSN>1860-3572</ISSN>
        <Volume>28</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Zeitschrift f&#252;r Medizinische Ausbildung</JournalTitle>
        <JournalTitleAbbr>GMS Z Med Ausbild</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>44</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Ziele: </Mark1>Die Universit&#228;t Hamburg hat im Jahr 2005 begonnen, einen Naturwissenschaftstest zur Auswahl von Studienbewerbern zu entwickeln (Hamburger Auswahlverfahren f&#252;r Medizinische Studieng&#228;nge, Naturwissenschaftsteil, HAM-Nat). Diese Studie ist ein weiterer Schritt, den HAM-Nat zu etablieren. Wir untersuchen </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">die Paralleltest- und Retest-Reliabilit&#228;t, </ListItem><ListItem level="1" levelPosition="2" numString="2.">die Auswirkungen eines Chemiekurses auf die Testergebnisse, sowie </ListItem><ListItem level="1" levelPosition="3" numString="3.">die &#220;bereinstimmung der Testergebnisse des HAM-Nat mit denen des Testmoduls &#8222;Naturwissenschaftliches Denken&#8220;, das inhaltlich und strukturell dem Modul &#8222;Medizinisch-naturwissenschaftliches Grundverst&#228;ndnis&#8220; des Tests f&#252;r Medizinische Studieng&#228;nge (TMS) entspricht.</ListItem></OrderedList></Pgraph><Pgraph><Mark1>Methoden: </Mark1>316 Studienanf&#228;nger nahmen an der Studie in der Orientierungseinheit im Jahr 2007 teil. Sie bearbeiteten verschiedene Versionen des HAM-Nat, die jeweils aus alten Fragen (HN2006) und neuen Fragen (HN2007) bestanden. Nach vier Wochen bekam die eine H&#228;lfte der Studienanf&#228;nger erneut den HAM-Nat, allerdings nur die 2007er Version; die andere H&#228;lfte bekam das Modul &#8222;Naturwissenschaftliches Denken&#8220;. Innerhalb dieser 4 Wochen konnten die Studienanf&#228;nger an einem f&#252;nft&#228;gigen Chemiekurs teilnehmen.</Pgraph><Pgraph><Mark1>Ergebnisse</Mark1>: Die Paralleltest-Reliabilit&#228;ten f&#252;r die vier Testversionen lagen zwischen r<Subscript>tt</Subscript>&#61;.53 und r<Subscript>tt</Subscript>&#61;.67. Die Retest-Reliabilit&#228;ten der beiden 2007er Testh&#228;lften lagen bei r<Subscript>tt</Subscript>&#61;.54 und r<Subscript>tt</Subscript>&#61;.61. Die HAM-Nat Versionen HN2006 und HN2007 korrelierten mit dem Modul &#8222;Naturwissenschaftliches Denken&#8220; zu r&#61;.34 und r&#61;.21. Studierende, die zwischen Test und Testwiederholung einen Chemiekurs absolviert hatten, verbesserten dadurch nicht ihre Testleistungen.</Pgraph><Pgraph><Mark1>Schlussfolgerungen:</Mark1> Die Ergebnisse lassen erwarten, dass weitere Testversionen zu naturwissenschaftlichem Wissen ebenfalls keine hohe interne Konsistenz, Paralleltest-Reliabilit&#228;t oder Retest-Reliabilit&#228;t ergeben. Daher ist f&#252;r den Aufbau einer Sammlung von Items, die austauschbar f&#252;r die Erzeugung von Parallelversionen benutzt werden k&#246;nnen, gro&#223;e Sorgfalt erforderlich. Das Testmodul &#8222;Naturwissenschaftliches Denken&#8220; misst im Wesentlichen etwas anderes als der HAM-Nat. Die Tatsache, dass die Teilnahme an einem Chemiekurs keinen Effekt auf die Leistungen im Chemie-Teil des HAM-Nat hatte, ist vermutlich auf fehlende Abstimmung der Inhalte des Kurses mit dem Test zur&#252;ckzuf&#252;hren und auf die geringe Motivation der Studienteilnehmer, besonders zum zweiten Testzeitpunkt.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Objective: </Mark1>The University Hospital in Hamburg (UKE) started to develop a test of knowledge in natural sciences for admission to medical school in 2005 (Hamburger Auswahlverfahren f&#252;r Medizinische Studieng&#228;nge, Naturwissenschaftsteil, HAM-Nat). This study is a step towards establishing the HAM-Nat. We are investigating </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">parallel forms reliability, </ListItem><ListItem level="1" levelPosition="2" numString="2.">the effect of a crash course in chemistry on test results, and </ListItem><ListItem level="1" levelPosition="3" numString="3.">correlations of HAM-Nat test results with a test of scientific reasoning (similar to a subtest of the &#34;Test for Medical Studies&#34;, TMS).</ListItem></OrderedList></Pgraph><Pgraph><Mark1>Methods: </Mark1>316 first-year students participated in the study in 2007. They completed different versions of the HAM-Nat test which consisted of items that had already been used (HN2006) and new items (HN2007). Four weeks later half of the participants were tested on the HN2007 version of the HAM-Nat again, while the other half completed the test of scientific reasoning. Within this four week interval students were offered a five day chemistry course.</Pgraph><Pgraph><Mark1>Results: </Mark1>Parallel forms reliability for four different test versions ranged from r<Subscript>tt</Subscript>&#61;.53 to r<Subscript>tt</Subscript>&#61;.67. The retest reliabilities of the HN2007 halves were r<Subscript>tt</Subscript>&#61;.54 and r<Subscript>tt </Subscript>&#61;.61. Correlations of the two HAM-Nat versions with the test of scientific reasoning were r&#61;.34 und r&#61;.21. The crash course in chemistry had no effect on HAM-Nat scores.</Pgraph><Pgraph><Mark1>Conclusions</Mark1>: The results suggest that further versions of the test of natural sciences will not easily conform to the standards of internal consistency, parallel-forms reliability and retest reliability. Much care has to be taken in order to assemble items which could be used interchangeably for the construction of new test versions. The test of scientific reasoning and the HAM-Nat are tapping different constructs. Participation in a chemistry course did not improve students&#8217; achievement, probably because the content of the course was not coordinated with the test and many students lacked of motivation to do well in the second test.</Pgraph></Abstract>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Auf der Suche nach einem geeigneten Auswahlverfahren f&#252;r das Medizinstudium entwickelt die Universit&#228;t Hamburg seit dem Jahr 2005 einen Naturwissenschaftstest (HAM-Nat) zur Studienbewerberauswahl. Hintergrund hierf&#252;r ist die &#196;nderung der Gesetzeslage, die es den Universit&#228;ten erlaubt, 60&#37; ihrer Studierenden selbst auszuw&#228;hlen <TextLink reference="1"></TextLink>. In Hamburg d&#252;rfen laut Gesetz zur Studienbewerberauswahl unter anderem schriftliche Auswahltests eingesetzt werden <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Vor 2008 wurden die Studienbewerber in Hamburg allein nach ihrer Abiturdurchschnittsnote ausgew&#228;hlt. Dies ist ein einfaches Verfahren, und die Abiturnote hat sich als brauchbarer Pr&#228;diktor f&#252;r Studienleistungen bew&#228;hrt. F&#252;r die Kohorten von Medizinstudierenden von 1986&#47;1987 fanden Trost et al. <TextLink reference="3"></TextLink> eine Korrelation von r&#61;0.48 f&#252;r die Abiturnote mit dem Ergebnis des schriftlichen Teils des Physikums. Mit dem m&#252;ndlichen Teil betrug die Korrelation r&#61;.34 <TextLink reference="3"></TextLink>. In ihrer Metaanalyse berichten Trapmann et al. <TextLink reference="4"></TextLink> eine korrigierte pr&#228;diktive St&#228;rke von r&#61;.58 f&#252;r Studiennoten im vorklinischen Studienabschnitt. Auch in ausl&#228;ndischen Studien <TextLink reference="5"></TextLink> und in nichtmedizinischen F&#228;chern <TextLink reference="4"></TextLink> besitzen Schulabschlussdurchschnittsnoten eine hohe prognostische Validit&#228;t. In einer prospektiven englischen Studie zeigte sich eine gewisse Vorhersagekraft von Schulabschlussnoten in Bezug auf die Berufsaus&#252;bung von &#196;rzten <TextLink reference="6"></TextLink>.</Pgraph><Pgraph>Dennoch wird die Auswahl nach Abiturnote immer wieder kritisiert. Trapmann et al. <TextLink reference="4"></TextLink> fassen zusammen: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">geringe Vergleichbarkeit der Abiturnoten zwischen den verschiedenen Schulen und Bundesl&#228;ndern, </ListItem><ListItem level="1" levelPosition="2" numString="2.">unzureichende Reliabilit&#228;t und Validit&#228;t von Schulnoten, </ListItem><ListItem level="1" levelPosition="3" numString="3.">unterschiedliche Bewertungsma&#223;st&#228;be f&#252;r verschiedene Klassen und von verschiedenen Lehrern. </ListItem></OrderedList></Pgraph><Pgraph>Die Vorhersagekraft der Abiturdurchschnittsnote f&#252;r den Studienerfolg sinkt in sp&#228;teren Abschnitten des Studiums. Weil sich sehr viele Abiturienten zum Medizinstudium bewerben, liegt der zur Zulassung erforderliche Notendurchschnitt auf einem hohen Niveau. Bewerber, die Hamburg mit erster Ortspr&#228;ferenz w&#228;hlten, mussten in den Jahren 2005 &#8211; 2007 einen Notendurchschnitt von mindestens 1,6-1,7 aufweisen, um zugelassen zu werden. Gerade weil die Abiturnoten in den verschiedenen Bundesl&#228;ndern auf verschiedenen Schulformen, F&#228;cherkombinationen und Bewertungsma&#223;st&#228;ben basieren, wirft die Abiturnote als alleiniges Kriterium Fragen der Fairness auf <TextLink reference="7"></TextLink>. Die Hinzunahme weiterer Auswahlkriterien kann die Nachteile der Abiturnote teilweise ausgleichen.</Pgraph><Pgraph>Einige deutsche Fakult&#228;ten setzen zur Erg&#228;nzung der Abiturnote den Test f&#252;r Medizinische Studieng&#228;nge (TMS) ein, der zwischen 1986 und 1996 f&#252;r alle Studienbewerber der Medizin verbindlich war. Dieser Test enth&#228;lt zwar naturwissenschaftliche Fragen, zielt aber auf ein anderes Konstrukt: spezifische Studierf&#228;higkeit <TextLink reference="8"></TextLink>. Die Korrelationen von Abiturnote und TMS-Ergebnis zwischen r&#61;.37 bis r&#61;.48 deutet darauf hin, dass Schul- und Testleistung hinreichend unterschiedliche Leistungsaspekte erfassen <TextLink reference="3"></TextLink>. Die Vorhersagekraft des TMS beruht im Wesentlichen auf vier medizinnahen Aufgabengruppen (medizinisch-naturwissenschaftliches Grundverst&#228;ndnis, L&#246;sung quantitativer und formaler Probleme, Textverst&#228;ndnis, Verst&#228;ndnis von Diagrammen und Tabellen) <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>Kenntnistests, die den Wissensstand in studienfachrelevanten Bereichen pr&#252;fen, werden bereits in vielen L&#228;ndern verwendet <TextLink reference="9"></TextLink>. Unter anderem in Belgien <TextLink reference="10"></TextLink> und &#214;sterreich <TextLink reference="11"></TextLink> werden medizinspezifische Kenntnistests f&#252;r die Studierendenauswahl eingesetzt. Reibnegger et al. <TextLink reference="12"></TextLink> zeigten, wie nach Einf&#252;hrung eines Auswahlverfahrens gegen&#252;ber dem offenen Zugang die Anzahl der Studierenden, die in der Regelstudienzeit das Grundstudium absolvierten, von 23&#37; auf 84&#37; der Studierenden anstieg (Mittelwerte der 3 Jahre vor und nach der Einf&#252;hrung). Die Abbruchrate unter den Studienanf&#228;ngern im ersten Studienjahr sank von 10&#37; bei offenem Zugang auf 1&#37; nach Einf&#252;hrung des Auswahlverfahrens. Der &#252;berwiegende Teil des Tests bestand aus naturwissenschaftlichen Fragen, &#228;hnlich den Fragen des HAM-Nat.</Pgraph><Pgraph>In England wird seit 2003 an einigen Universit&#228;ten der Biomedical Admissions Test (BMAT) zur Bewerberauswahl eingesetzt. Der Wissensteil des Tests (&#8222;scientific knowledge and application&#8220;) erwies sich als brauchbarer Pr&#228;diktor der Examensleistungen im ersten und zweiten Studienjahr <TextLink reference="13"></TextLink>. Die Pr&#228;diktion durch den 2. Teil des BMAT, in dem ebenfalls mit Multiple-Choice Fragen Probleml&#246;sung, Textverst&#228;ndnis und die Interpretation von Daten und Grafiken &#252;berpr&#252;ft wird (&#8222;aptitude and skill&#8220;), ist deutlich schlechter <TextLink reference="14"></TextLink>.</Pgraph><Pgraph>In Deutschland gibt es neben dem HAM-Nat gegenw&#228;rtig kein Auswahlverfahren mit spezifisch naturwissenschaftlichem Inhalt f&#252;r medizinische Studieng&#228;nge. Mit dem Kenntnistest f&#252;r Naturwissenschaften HAM-Nat f&#252;hren wir auch in Hamburg ein zweites Qualifikationskriterium neben der Abiturnote ein, das einheitlich f&#252;r alle Bewerber gilt und dessen Testeigenschaften fortlaufend untersucht werden k&#246;nnen. Der HAM-Nat soll naturwissenschaftliche Kenntnisse pr&#252;fen, die f&#252;r den Erfolg im ersten Studienabschnitt wichtig sind. Damit sollen Bewerber ausgew&#228;hlt werden, die eine gute Chance haben, erfolgreich zu studieren. Zugleich soll der Test die M&#246;glichkeit geben, eine schw&#228;chere Abiturnote auszugleichen. Seit 2008 finden Studienbewerber auf der Homepage des Universit&#228;tsklinikums Eppendorf eine Internetseite mit Themenkatalog und Selbsttest (<Hyperlink href="http:&#47;&#47; www.uke.uni-hamburg.de&#47;studienbewerber">http:&#47;&#47; www.uke.uni-hamburg.de&#47;studienbewerber</Hyperlink>). Die Internetseite hat nicht nur das Ziel, &#252;ber das Studium zu informieren und einen realistischen Test f&#252;r naturwissenschaftliche Kenntnisse anzubieten, sondern sie soll auch die Studienbewerber dazu anhalten, ihre Motivation zum Studium und ihre F&#228;higkeit, es erfolgreich zu absolvieren, selbst zu pr&#252;fen. Gew&#252;nscht ist eine Selbstselektion, die der Selektion durch die Universit&#228;t vorangeht. Vorbereitung auf den HAM-Nat ist zugleich auch Vorbereitung auf das Studium, denn die naturwissenschaftlichen Fragen des HAM-Nat pr&#252;fen genau das Wissen, auf dem die naturwissenschaftlichen Studienf&#228;cher aufbauen.</Pgraph><Pgraph>In einer Pilotstudie im Jahr 2006 wurden die ersten HAM-Nat Items zun&#228;chst Oberstufensch&#252;lern mehrerer Gymnasien vorgelegt. Daraus entstand die erste Testversion f&#252;r die Studienanf&#228;nger der Kohorte 2006 <TextLink reference="15"></TextLink>. F&#252;r eine weitere Voruntersuchung des Tests wurden f&#252;r die Kohorte 2007 neue Items erzeugt. Damit stellt sich die Frage, ob die neue 2007er Testversion zu der 2006er Version parallel ist.</Pgraph><Pgraph>Die vorliegende Untersuchung soll diese Frage beantworten und dar&#252;ber hinaus die Retest-Reliabilit&#228;t pr&#252;fen. Weiterhin untersuchen wir den Effekt eines Lernprogramms (f&#252;nft&#228;giger Trainingskurs) in Chemie auf die Testleistung und die &#220;bereinstimmung des HAM-Nat mit dem Testmodul &#8222;Naturwissenschaftliches Denken&#8220;, das inhaltlich und strukturell dem TMS Subtest &#8222;medizinisch-naturwissenschaftliches Grundverst&#228;ndnis&#8220; entspricht.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>In 2005 Hamburg Medical School started to develop a test of natural sciences (HAM-Nat) as a tool for student admission after a change in federal law allowed German medical schools to select 60&#37; of their student body by admission procedures such as written tests <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Until 2008 the Medical Faculty of Hamburg selected candidates solely on the basis of school grade point average (GPA). This is a straightforward approach and GPA is predictive of study success. For the 1986 and 1987 cohorts of medical students Trost et al. <TextLink reference="3"></TextLink> reported a correlation of r&#61;.48 between GPA and grades in the written part of the first clinical examination, the correlation for the oral part was r&#61;.34 <TextLink reference="3"></TextLink>. In a meta-analysis Trapmann et al <TextLink reference="4"></TextLink> report a corrected predictive power of r&#61;.58 for grades in the first section of study. High predictive validity of GPA is also reported in international studies <TextLink reference="5"></TextLink> and degree programs other than medicine <TextLink reference="4"></TextLink>. In a prospective British study, A-levels showed predictive power for professionalism in the medical field <TextLink reference="6"></TextLink>.</Pgraph><Pgraph>Nevertheless, GPA as a selective tool is criticized on many accounts <TextLink reference="4"></TextLink>: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">different standards between schools and federal states make GPA scores incomparable; </ListItem><ListItem level="1" levelPosition="2" numString="2.">reliability and validity of GPA are insufficient; </ListItem><ListItem level="1" levelPosition="3" numString="3.">there are different standards between teachers and classrooms; </ListItem><ListItem level="1" levelPosition="4" numString="4.">predictive power for study success later in the curriculum is weak. </ListItem></OrderedList></Pgraph><Pgraph>Since a large number of candidates apply for medical school, a high level of GPA is necessary for admission. In the years of 2005-2007 applicants for Hamburg Medical School needed GPA scores of at least 1.6 to 1.7 (a low score means high achievement). As GPA is influenced by the type of school, combinations of subjects, and evaluative standards, using GPA as the only admission criterion raises issues of fairness <TextLink reference="7"></TextLink>. Additional selection criteria may compensate for some of the shortcomings of GPA.</Pgraph><Pgraph>Some German medical schools use the &#34;Test for Medical Studies&#8221; (TMS) to complement GPA in selection. This test was mandatory for all applicants to medical school in the years between 1986 and 1996. It includes questions from the field of natural sciences; however, the targeted construct is not knowledge but the ability to study successfully <TextLink reference="8"></TextLink>. Correlations of TMS scores and GPA range from r&#61;.37 to r&#61;.48 and the authors conclude that GPA and TMS measure sufficiently separable facets of academic achievement <TextLink reference="3"></TextLink>. Predictive power of the TMS is mainly based on four subtests for abilities required in the medical curriculum (medical and scientific comprehension, quantitative and formal problems, text comprehension, diagrams and tables) <TextLink reference="3"></TextLink>.</Pgraph><Pgraph>Various countries employ tests of subject specific knowledge relevant for the respective courses <TextLink reference="9"></TextLink>. Knowledge tests are used for medical school selection in Belgium <TextLink reference="10"></TextLink> and Austria <TextLink reference="11"></TextLink>. Reibnegger et al. <TextLink reference="12"></TextLink> reported an increase of successful students from 23&#37; to 84&#37; after a demanding admission procedure had been introduced at the university of Graz, Austria (mean percentages of three years before and after the admission procedure had been established). Simultaneously the drop-out rate in the first year of medical school decreased from 10&#37; to 1&#37;. The majority of test items were natural science problems similar to HAM-Nat items.</Pgraph><Pgraph>Since 2003 some British medical schools have introduced the Biomedical Admissions Test (BMAT) for student selection. The subtest &#8220;scientific knowledge and application&#8221; was a useful predictor for examination marks in the first and second year of study <TextLink reference="13"></TextLink>. Predictive power of the second part of the BMAT which entails multiple choice items on problem solving, text comprehension, and the interpretation of tables and figures (&#8220;aptitude and skill&#8221;) is considerably lower <TextLink reference="14"></TextLink>. In Germany the HAM-Nat is the only testing program for medical school selection focusing specifically on natural sciences.</Pgraph><Pgraph>With the HAM-Nat test a second selection criterion in addition to GPA will be introduced, a criterion that is uniform for all applicants and might be evaluated consecutively. The HAM-Nat is expected to measure knowledge of natural sciences that is relevant for success in the first two years of the curriculum and thereby help to select applicants with good chance to complete the course successfully. Moreover, an excellent HAM-Nat score may compensate for a low GPA score. The internet page of Hamburg Medical School (<Hyperlink href="http:&#47;&#47;www.uke.uni-hamburg.de&#47;studienbewerber">http:&#47;&#47;www.uke.uni-hamburg.de&#47;studienbewerber</Hyperlink>) not only offers information about the curriculum but additionally exhibits HAM-Nat test items for a self-test of knowledge in natural sciences. Potential applicants may examine their motivation to study medicine and assess their chances to succeed. Hamburg Medical School deliberately aims at pre-selection by self-evaluation. Preparation for the HAM-Nat is tantamount to a preparation for the first two years of study because the HAM-Nat examines basic knowledge required for the science classes during the first two years of study.</Pgraph><Pgraph>A preliminary version of the HAM-Nat was presented 2006 to a sample of high school students. From this pilot study a first 2006 version was derived and tested with the 2006 cohort of already admitted students <TextLink reference="15"></TextLink>. Subsequently, new items were generated for a 2007 version of the test. The existence of two test versions raises the question of test equivalence.</Pgraph><Pgraph>This study attempts to answer this question and will additionally examine retest reliability. We also analyze the effect of a five-day crash course (training in basic chemistry) on HAM-Nat scores and the relation of the HAM-Nat to a test of &#8220;scientific reasoning&#8221;. This test resembles the TMS subtest &#8220;medical and scientific comprehension&#8221;.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><SubHeadline>Testentwicklung HAM-Nat</SubHeadline><Pgraph>Einen &#220;berblick &#252;ber die Vorarbeiten zur Entwicklung der 2006er Version des HAM-Nat liefern Hampe et al. <TextLink reference="15"></TextLink>. Nachdem 8 Items, die in der Vortestung an Gymnasiasten wenig trennscharf waren, entfernt worden waren, bestand der HN2006 aus 52 Items. Zu diesen Items erzeugte eine Arbeitsgruppe 60 inhaltlich und formal &#228;hnliche Testfragen f&#252;r einen Paralleltest &#8211; den HN2007. Diese 2007er Version des HAM-Nat besteht aus 60 Multiple-Choice Fragen aus medizinrelevanten Themengebieten der F&#228;cher Mathematik, Chemie, Physik und Biologie auf dem Niveau der gymnasialen Oberstufe. Die Arbeitsgruppe bestand aus Gymnasiallehrern sowie von Dozenten der klinischen und theoretischen F&#228;cher der medizinischen Fakult&#228;t.</Pgraph><Pgraph>Beispiel f&#252;r eine HAM-Nat Frage:</Pgraph><Pgraph><Indentation><Indentation>Bei der Oxidation eines Aldehyds entsteht ...</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>A) ein Ester.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>B) ein Keton.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>C) eine Carbons&#228;ure.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>D) ein Alkohol.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>E) ein Alken.</Indentation></Indentation></Pgraph><Pgraph>Eine der f&#252;nf Antwortalternativen ist jeweils richtig. Die Teilnehmer hatten pro Frage 1,5 Minuten Zeit zur Bearbeitung. Der aktuelle Themenkatalog sowie Fragen aus den Jahren 2006 und 2007 sind als Selbsttest auf der Internetseite des Universit&#228;tsklinikums Eppendorf (UKE) zu finden (<Hyperlink href="http:&#47;&#47; www.uke.uni-hamburg.de&#47;studienbewerber">http:&#47;&#47; www.uke.uni-hamburg.de&#47;studienbewerber</Hyperlink>).</Pgraph><SubHeadline>Testmodul &#8222;Naturwissenschaftliches Denken&#8220;</SubHeadline><Pgraph>Die Aufgabengruppe &#8222;Naturwissenschaftliches Denken&#8220; &#228;hnelt inhaltlich und strukturell dem Modul &#8222;medizinisch-naturwissenschaftliches Grundverst&#228;ndnis&#8220; des Tests f&#252;r Medizinische Studieng&#228;nge (TMS). Beide Tests wurden von der ITB-Consulting GmbH entwickelt. Das Testmodul beinhaltet 24 Multiple-Choice Aufgaben, die mit der Schilderung eines naturwissenschaftlichen Sachverhalts beginnen. Es werden verschiedene Behauptungen aufgestellt und der Testteilnehmer muss entscheiden, ob diese Behauptungen den vorangegangenen Beschreibungen nach richtig sind. Es gibt jeweils 5 Antwortalternativen, von denen eine richtig ist. Die Bearbeitungszeit ist auf 55 Minuten begrenzt. Die Aufgaben setzen kein spezifisch naturwissenschaftliches Wissen voraus, sondern zielen auf die Durchdringung eines Sachverhalts und die F&#228;higkeit zu schlussfolgerndem Denken ab. Das Recht, das Testmodul durchzuf&#252;hren, wurde von der ITB-Consulting GmbH erworben.</Pgraph><SubHeadline>Chemiekurs</SubHeadline><Pgraph>Der f&#252;nft&#228;gige Chemiekurs wird regelhaft f&#252;r die Studienanf&#228;nger der Medizin nach der Orientierungseinheit, aber vor Beginn des ersten Semesters am Fachbereich Chemie der Universit&#228;t Hamburg angeboten. Ziel des Kurses ist, das unterschiedliche Vorwissen der Studierenden anzugleichen. Die Teilnahme ist freiwillig, die Durchf&#252;hrung tutorengest&#252;tzt. Es werden mehrere parallele Kurse in Gruppengr&#246;&#223;en von 30-40 Studienanf&#228;ngern angeboten, in denen Themen der gymnasialen Oberstufe, wie z.B. der Materiebegriff, der Begriff der chemischen Reaktion und organische Verbindungen und deren Aufbau zun&#228;chst vom Tutor vorgestellt und anschlie&#223;end in &#220;bungsaufgaben bearbeitet werden. Die Inhalte des Kurses &#228;hneln denen des HAM-Nat-Themenkataloges. Die Tutoren kannten diesen jedoch nicht und bereiteten die Teilnehmer nicht gezielt auf den HAM-Nat vor.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><Pgraph>Hampe et al. <TextLink reference="15"></TextLink> describe the test development of the 2006 HAM-Nat test form (HN2006). After exclusion of 8 items with low item-total correlations, the HN2006 consists of 52 multiple choice items from mathematics, chemistry, physics, and biology. To create a parallel test form for 2007 (HN2007), high school teachers and university lecturers from clinical and basic science departments generated 60 new items similar in content and structure to the HN2006 items. </Pgraph><Pgraph>Example for a HAM-Nat-question:</Pgraph><Pgraph><Indentation><Indentation>Oxidation of an aldehyde yields...</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>A) an ester.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>B) a ketone.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>C) a carboxylic acid.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>D) an alcohol.</Indentation></Indentation></Pgraph><Pgraph><Indentation><Indentation>E) an alkene.</Indentation></Indentation></Pgraph><Pgraph>Each item presents one correct answer and four distractors, testees have 1.5 minutes to answer each question. The topics covered in the test and some sample items from HN2006 and HN2007 are published on the internet page of Hamburg medical school for self-testing (<Hyperlink href="http:&#47;&#47;www.uke.uni-hamburg.de&#47;studienbewerber">http:&#47;&#47;www.uke.uni-hamburg.de&#47;studienbewerber</Hyperlink>).</Pgraph><SubHeadline>Test of &#8220;scientific reasoning&#8221;</SubHeadline><Pgraph>The &#8220;scientific reasoning&#8221; test is similar to the TMS subtest &#8220;medical and scientific comprehension&#8221; with regard to form and content. Both tests comprise 24 multiple choice items and both were developed by ITB-Consulting. Each question starts with the description of a scientific problem. Subsequently, the testee has to decide which statement out of five options following the text is true. The duration of the test is limited to 55 minutes. Prior scientific knowledge is not needed to answer these questions since the test is designed to measure intellectual abilities relevant to the medical curriculum: comprehension of complex problems and deductive reasoning. Rights to use the test were purchased from ITB-Consulting.</Pgraph><SubHeadline>Chemistry course</SubHeadline><Pgraph>The chemistry department of Hamburg University regularly offers this five-day course to first year medical students before the beginning of the term. The intention of this optional course is to level previous knowledge of students. Several parallel courses of 30-40 students are run by tutors. The tutors present topics from senior years of secondary school, e.g. the concept of matter, chemical reaction, and the structure of organic compounds, and afterwards students work on problems. The course&#8217;s contents are similar to HAM-Nat topics. However, tutors did not teach to the test as they were not familiar with the HAM-Nat.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Studiendesign">
      <MainHeadline>Studiendesign</MainHeadline><SubHeadline>1. Testzeitpunkt: Paralleltests</SubHeadline><Pgraph>Der 2006er Test bestand aus zwei Testh&#228;lften A und B mit jeweils 26 Items. Da der Test zuvor im Internet ver&#246;ffentlicht worden war, konnten diese Items den Probanden bekannt sein, sofern sie die Seiten besucht hatten. Der 2007er Test bestand aus den Testh&#228;lften C und D mit jeweils 30 Items, die neu entwickelt worden waren. Die Studienteilnehmer bearbeiteten jeweils zwei Testh&#228;lften (AC, AD, BC oder BD), n&#228;mlich 26 alte Fragen aus dem HN2006 und 30 neue Fragen aus dem HN2007 (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Vor dem 2. Testzeitpunkt bestand die M&#246;glichkeit, an dem freiwilligen f&#252;nft&#228;gigen Chemiekurs teilzunehmen. Die Anzahl der Tage, an denen die Studienanf&#228;nger am Kurs teilnahmen, wurde erfragt.</Pgraph><SubHeadline>2.Testzeitpunkt: Retest und Testmodul &#8222;Naturwissenschaftliches Denken&#8220; nach 4 Wochen</SubHeadline><Pgraph>Die Studienteilnehmer wurden randomisiert in zwei Gruppen aufgeteilt. Vier Wochen nach der ersten Testung bearbeiteten 96 Testteilnehmer den kompletten HN2007, also die Testh&#228;lften C und D. Das bedeutet, dass sie eine Testh&#228;lfte schon kannten, w&#228;hrend die andere f&#252;r sie neu war. Eine Woche sp&#228;ter bearbeitete die andere H&#228;lfte der Studienteilnehmer (N&#61;91) das Modul &#8222;Naturwissenschaftliches Denken&#8220;. Die Durchf&#252;hrung des Tests im Anschluss an eine Pflichtlehrveranstaltung wurde durch Mitarbeiter unserer Arbeitsgruppe organisiert und von Dozenten der Medizinischen Fakult&#228;t beaufsichtigt. Der Test &#8222;Naturwissenschaftliches Denken&#8220; wurde eigens f&#252;r die Studie durchgef&#252;hrt, unabh&#228;ngig von den offiziellen, bundesweit angebotenen TMS-Terminen f&#252;r die Studierendenauswahl.</Pgraph><SubHeadline>Stichprobe</SubHeadline><Pgraph>Allen Studienanf&#228;ngern der Medizin, die in der ersten Semesterwoche 2007 an der Orientierungseinheit der Universit&#228;t Hamburg teilnahmen, wurde die Teilnahme am Test angeboten. Die Teilnahme war freiwillig, alle Probanden willigten schriftlich in die Verwendung ihrer Daten ein. Die Stichprobe setzt sich folgenderma&#223;en zusammen (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>): F&#252;r die Auswertung der Paralleltestreliabilit&#228;t (1. Testzeitpunkt) liegen die HAM-Nat Daten von 316 Personen vor (77&#37; der gesamten Kohorte). Die Stichprobe bestand aus einem Drittel M&#228;nner und zwei Drittel Frauen. Dies entspricht der Geschlechterverteilung der gesamten Kohorte. Die mittlere Abiturdurchschnittsnote war 1,8. Beim Wiederholungstermin (2. Testzeitpunkt) nahmen 170 Personen (54 &#37; der Ausgangstichprobe) am Test teil, denen ein Ergebnis aus der ersten Testung zugeordnet werden konnte. Der zweite Testtermin war an ein Seminar mit verpflichtender Teilnahme gekoppelt. Anders als in der Orientierungseinheit waren viele Anwesende nicht bereit, ein zweites Mal am Test teilzunehmen. Der Vergleich von Testwiederholern und Teilnahmeverweigerern ergab keine signifikanten Unterschiede in der Abiturnote und der Geschlechterverteilung. Zum zweiten Testzeitpunkt bearbeiteten 91 Teilnehmer das Modul &#8222;Naturwissenschaftliches Denken&#8220; und 79 erneut den HAM-Nat. Der Effekt des Chemiekurses kann an 52 Studierenden evaluiert werden, die den HAM-Nat vor und nach dem Kurs bearbeiteten und Angaben zur Teilnahme am Kurs machten. Nicht alle Teilnehmer absolvierten den kompletten Kurs, 15 Personen gaben an, mit 3 oder weniger Tagen und 37 mit mehr als 3 Tagen am Kurs teilgenommen zu haben.</Pgraph><SubHeadline>Statistische Auswertung</SubHeadline><Pgraph>Die Parallelit&#228;t von Testformen dr&#252;ckt sich in gleichen wahren Werten und gleichen Fehlervarianzen aus. Anhaltspunkte f&#252;r die Parallelit&#228;t verschiedener Testversionen sind gleiche Mittelwerte und Streuungen, sowie eine hohe Korrelation zwischen den Testformen. Der Retest-Reliabilit&#228;t liegt die Annahme zugrunde, dass sich zwischen zwei Messzeitpunkten die wahren Werte der Testteilnehmer nicht ver&#228;ndern und dass die Einfl&#252;sse von Messfehlern konstant sind. Sie bezeichnet den Grad der &#220;bereinstimmung der Ergebnisse eines bestimmten Tests f&#252;r dieselben Probanden bei wiederholten Messungen. Als Ma&#223; f&#252;r die Paralleltest-Reliabilit&#228;t und f&#252;r die &#220;bereinstimmung der HAM-Nat Ergebnisse mit dem Modul &#8222;Naturwissenschaftliches Denken&#8220; und der Abiturnote w&#228;hlten wir die Pearson Korrelation, f&#252;r die Retest-Reliablitit&#228;t des HN2007 Spearmans Rangkorrelation.</Pgraph><Pgraph>Cronbach&#8217;s &#945; ist der Erwartungswert f&#252;r die Korrelation zweier Itemsets mit dem Umfang k, die nach Zufall aus dem Universum aller m&#246;glichen Items (f&#252;r das gegebene Konstrukt) ausgew&#228;hlt wurden. Wenn die Tests HN2006 und HN2007 parallel sind, dann m&#252;ssen die Korrelationen zwischen den Teilskalen aus HN2006 und den Teilskalen aus HN2007 ebenso hoch sein wie ihre internen Konsistenzen. Wenn die Korrelationen unterschiedlich sind, dann greifen entweder beide Tests nicht auf das gleiche Universum m&#246;glicher Items zu oder sie haben zwar ein Universum m&#246;glicher Items gemeinsam, sind aber keine Zufallsauswahlen daraus.</Pgraph><Pgraph>F&#252;r die Analyse der einzelnen Testh&#228;lften wurden die Summenscores des HN2006 und des HN2007 als Messwiederholung (Innersubjektfaktor) und die Gruppenzugeh&#246;rigkeit (AC, AD, BC, BD) als Zwischensubjektfaktor im Allgemeinen Linearen Modell betrachtet. Ein signifikanter Messwiederholungseffekt bedeutet, dass die Testversionen unterschiedlich schwierig sind, Interaktionseffekte mit Gruppenzugeh&#246;rigkeit geben Auskunft &#252;ber die Unterschiedlichkeit der beiden H&#228;lften innerhalb eines Tests.</Pgraph><Pgraph>Um den Effekt des Chemiekurses auf die Testleistung in Items aus dem Fach Chemie zu untersuchen, wurde die Teilnahme am Kurs als dichotome Variable (0 bis 3 Tage vs. mehr als 3 Tage) als Zwischensubjektfaktor in ein neues Modell mit aufgenommen, in dem die Fragen nach Fachgebiet (Chemiefragen vs. andere Fragen) und Testzeitpunkt (erste Testung vs. Retest) getrennt als Innersubjektfaktoren behandelt wurden. F&#252;r die Analysen wurde PASW 18 f&#252;r Windows <TextLink reference="16"></TextLink> verwendet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Study design">
      <MainHeadline>Study design</MainHeadline><SubHeadline>First testing: Parallel forms</SubHeadline><Pgraph>The HN2006 was divided into two halves A and B of 26 items each. As the test had been accessible on the internet, participants might have known these items. The HN2007 comprises two halves C and D of 30 new items. Each participant worked on two halves from each test version (AC, AD, BC, or BD), namely 26 old items from HN2006 and 30 new items from HN2007 (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). Before the second testing, each student had the opportunity to attend the five day training course. Participants stated how many days of the course they attended.</Pgraph><SubHeadline>Second testing: Retest and test of &#8220;scientific reasoning&#8221;</SubHeadline><Pgraph>Participants were randomly assigned to two groups. Four weeks after the first testing 96 participants took the complete HN2007, meaning test halves C and D. Therefore, they had already answered one half of the items while the other half was unknown. The following week, the second group of participants (N&#61;91) took the subtest &#8220;scientific reasoning&#8221;. The test was conducted by our study group and invigilated by members of faculty. The &#8220;scientific reasoning&#8221; test was specifically conducted for this study, irrespective of the official, nationwide testing of the TMS.</Pgraph><SubHeadline>Participants</SubHeadline><Pgraph>All students of the 2007 cohort were offered study participation in the first semester orientation week. Study participation was voluntary, and all students gave written informed consent. 316 students (77&#37; of the cohort) agreed to participate (see Figure 1<ImgLink imgNo="1" imgType="figure"/>). One third of the sample was male, two thirds female which corresponds to the distribution in the total cohort. The mean secondary school GPA was 1.8. The second test was conducted in a compulsory class during the first term. As opposed to the participation in the orientation week, many attendees were not willing to retake the test. Results of the first and second testing could be matched for 170 students (54&#37; of the original sample). No significant differences regarding GPA and gender distribution were found between the group of test repeaters and those who denied the retest. 91 participants worked on the &#8220;scientific reasoning&#8221; test and 79 wrote the HN2007 again. The effect of the chemistry course can be evaluated with data from 52 students, who took the HAM-Nat twice and stated the number of days that they attended the course. 15 students stated they had attended 3 or fewer days, while 37 attended more than 3 days.</Pgraph><SubHeadline>Statistical analysis</SubHeadline><Pgraph>Parallel forms reliability requires true values and error variances to be equal. Equal means and distributions of data, as well as a high correlation between test versions, indicate high parallel forms reliability. Retest reliability assumes that between two assessments the participants&#8217; true scores are constant as is measurement error. It reflects the degree in which repeated measurement with a certain measure on the same population reveals according results.</Pgraph><Pgraph>Pearson correlations are calculated to quantify parallel forms reliability and the correspondence of HAM-Nat and &#8220;scientific reasoning&#8221;. Retest reliability of HN2007 was assessed by means of Spearman&#8217;s rank correlation coefficient.</Pgraph><Pgraph>Cronbach&#8217;s &#945; is the expected value of a correlation of two randomly selected item sets (of k items) from the universe of all possible items for the measured construct. If HN2006 and HN2007 are parallel forms, the correlations of test halves must be as high as their internal consistencies. If the correlations are different in size, the item set is either drawn from different item universes or items are not randomly selected.</Pgraph><Pgraph>A general linear model (GLM) of HN2006 and HN2007 total scores was employed, with &#8220;test version&#8221; as a repeated measurement factor (within subjects factor) and &#8220;group&#8221; (AC, AD, BC, BD) as a between subjects factor. A significant repeated measurement factor means that test versions differ in difficulty, while significant interaction effects with group point to differences in test halves within one test version.</Pgraph><Pgraph>To estimate the effect of the chemistry course on chemistry test item performance, the variable &#8220;attendance at the course&#8221; was dichotomized (0-3 vs. &#62;3 days) and included in a new model as a between subjects factor as well as the within subject factors &#8220;items separated by subject&#8221; (chemistry vs. other questions) and &#8220;time&#8221; (first testing vs. retest). PASW 18 for Windows <TextLink reference="16"></TextLink> was used for these analyses.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><SubHeadline>Interne Konsistenz und Paralleltest-Reliabilit&#228;t</SubHeadline><Pgraph>Die Inter-Item-Korrelationen lagen f&#252;r alle Skalen zwischen r&#61;-.22 und r&#61;.53 (Mittelwert: .06), die internen Konsistenzen der Testh&#228;lften lagen zwischen &#945;&#61;.56 und &#945;&#61;.69 (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>) und die Paralleltest-Korrelationen zwischen r&#61;.53 und r&#61;.67 (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table"/>).</Pgraph><SubHeadline>Retest-Reliabilit&#228;t</SubHeadline><Pgraph>Die Retest-Reliabilit&#228;t wurde nur f&#252;r die Testversion HN2007 berechnet. F&#252;r Testh&#228;lfte C betrug die Rangkorrelation r<Subscript>tt</Subscript>&#61;.52 (n&#61;46), f&#252;r Testh&#228;lfte D r<Subscript>tt</Subscript>&#61;.61 (n&#61;34) (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Die entsprechenden Pearson Korrelationen waren r<Subscript>tt</Subscript>&#61;.54 und r<Subscript>tt</Subscript>&#61;.56. Einige Testteilnehmer schnitten im Retest schlechter ab als bei ihrer ersten Testung (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure"/>). Wenn die 9 Teilnehmer, die in der zweiten Testung in einer der beiden Testh&#228;lften weniger als 6 Punkte erreicht hatten, aus der Rechnung ausgeschlossen wurden, erh&#246;hte sich die Korrelation nicht (Testh&#228;lfte C r<Subscript>tt</Subscript>&#61;.45, n&#61;39; Testh&#228;lfte D r<Subscript>tt</Subscript>&#61;.61, n&#61;32), obwohl Abbildung 2 <ImgLink imgNo="2" imgType="figure"/> einen solchen Effekt suggerieren mag.</Pgraph><SubHeadline>Unterschiede zwischen den Testversionen 2006 und 2007</SubHeadline><Pgraph>Eine detailliertere Weise, die Unterschiede zwischen den Tests zu betrachten, bietet das Allgemeine Lineare Modell (ALM). Im ALM mit den Faktoren Testversion (HN2006 vs. HN2007) als Messwiederholungsfaktoren und Testh&#228;lfte (A oder B bzw. C oder D) als Zwischensubjektfaktor zeigte sich, dass von den 2007er Fragen signifikant weniger gel&#246;st wurden als von den alten 2006er Fragen (38.5&#37; vs. 45.2&#37;, F<Subscript>1,312</Subscript>&#61;101.5; p&#60;.001). W&#228;hrend alle Testteilnehmer in den beiden 2006er Testh&#228;lften etwa gleiche Ergebnisse erzielen (F<Subscript>1,312</Subscript>&#61;2.3; p&#61;.128), ist die Testh&#228;lfte D ist mit 35.1&#37; gel&#246;sten Fragen etwas schwieriger als Testh&#228;lfte C mit 40.6&#37; gel&#246;sten Fragen (F<Subscript>1,312</Subscript>&#61;11.4; p&#61;.001). Wird der Zwischensubjektfaktor Geschlecht in das Modell aufgenommen, zeigt sich kein signifikanter Einfluss des Geschlechts auf die Leistungen in den verschiedenen Testversionen (F&#61;.468, p&#61;.495), obwohl die M&#228;nner in ihrer Gesamtleistung im Test besser abschneiden als die Frauen (44&#37; vs. 40&#37; richtige Antworten, T&#61;-2.64; p&#61;.009).</Pgraph><SubHeadline>Effekt des Chemiekurses</SubHeadline><Pgraph>Um den Effekt eines Chemiekurses zu untersuchen, wurde f&#252;r die Chemiefragen und die &#252;brigen Fragen (Biologie, Physik, Mathematik) getrennt untersucht, inwieweit sich die Ergebnisse in den beiden Testungen vor und nach dem Kurs unterscheiden. Die Chemiefragen wurden weniger h&#228;ufig richtig beantwortet als die restlichen Fragen zu den Themengebieten Biologie, Physik und Mathematik (35.8&#37; vs. 43.4&#37; richtig Antworten, F<Subscript>78,1</Subscript>&#61;25.6, p&#60;.001). Es gab weder eine Verbesserung noch eine Verschlechterung der HN2007-Ergebnisse nach dem Chemiekurs (F<Subscript>1,78</Subscript>&#61;0.26; p&#61;.611), auch nicht f&#252;r die Chemieitems (Interaktionseffekt: F<Subscript>1,78</Subscript>&#61;0.26; p&#61;.610).</Pgraph><Pgraph>Um den Einfluss der Dauer der Teilnahme am Kurs zu untersuchen, wurde die Variable &#8222;Intensit&#228;t der Teilnahme am Kurs&#8220; dichotomisiert in 0-3 Tage vs. 4-5 Tage. Da nicht alle Testteilnehmer angaben, ob sie am Kurs teilgenommen hatten, reduziert sich die Stichprobe auf n&#61;52. Auch die Intensit&#228;t der Teilnahme am Kurs hatte keinen signifikanten Effekt auf die gesamte Leistung im HN2007 (F<Subscript>1,50</Subscript>&#61;2.4; p&#61;.124) oder die Leistung in den Chemieitems (F<Subscript>1,50</Subscript>&#61;0.1; p&#61;.759). Wurde das Geschlecht als weiterer Faktor in das Modell aufgenommen, ergaben sich keine signifikanten Interaktionseffekte (alle p&#62;.289).</Pgraph><SubHeadline>Bekanntheit der Fragen</SubHeadline><Pgraph>Bei der zweiten Testung war die eine H&#228;lfte der Fragen f&#252;r die Testteilnehmer bekannt, die andere H&#228;lfte war neu. Die bekannten Fragen wurden in der zweiten Testung (41.5 &#37;) nicht signifikant h&#228;ufiger richtig beantwortet als in der ersten (40.1 &#37;; F<Subscript>1,50</Subscript>&#61;0.4; p&#61;.543). Auch der Ausschluss von Testpersonen, die in der zweiten Testung sehr schlechte Leistungen zeigten, &#228;nderte nichts an diesen Ergebnissen.</Pgraph><SubHeadline>Korrelation Abiturnote und HAM-Nat</SubHeadline><Pgraph>Die Korrelation der Abiturdurchschnittsnote mit den unterschiedlichen HAM-Nat Versionen lag zwischen r&#61;-.34 und r&#61;-.13 mit einem Mittelwert von r&#61;-.24 (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Die Korrelation des Moduls &#8222;Naturwissenschaftliches Denken&#8220; mit der Abiturnote betrug r&#61;-.11 (n&#61;90).</Pgraph><SubHeadline>Korrelation mit dem Modul &#8222;Naturwissenschaftliches Denken&#8220;</SubHeadline><Pgraph>Das Testmodul &#8222;Naturwissenschaftliches Denken&#8220; korrelierte mit der Testh&#228;lfte A des HN2006 zu r&#61;.34 und mit der Testh&#228;lfte B ebenfalls zu r&#61;.34. Die Korrelationen mit den Testh&#228;lften des HN2007 lagen bei r&#61;.19 f&#252;r Version C und r&#61;.23 f&#252;r die Version D (siehe Abbildung 3 <ImgLink imgNo="3" imgType="figure"/>). F&#252;r die zusammengefassten Testh&#228;lften betrugen die Korrelationen mit dem Modul &#8222;Naturwissenschaftliches Denken&#8220; r&#61;.34 (HN2006, A&#43;B) und r&#61;.21 (HN2007, C&#43;D). Die Korrelationen unterschieden sich nicht signifikant (p&#61;.350, Testung mit Fisher&#8216;s z <TextLink reference="17"></TextLink>). </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><SubHeadline>Internal consistency and parallel forms reliability</SubHeadline><Pgraph>Inter item correlations for all scales ranged from r&#61;-.22 to r&#61;.53 (mean: r&#61;.06), internal consistencies from &#945;&#61;.56 to &#945;&#61;.69 (see Table 1 <ImgLink imgNo="1" imgType="table"/>), and parallel forms correlations from r&#61;.53 to r&#61;.67 (see Table 2 <ImgLink imgNo="2" imgType="table"/>).</Pgraph><SubHeadline>Retest reliability</SubHeadline><Pgraph>Retest reliability was calculated for HN2007. Pearson&#8217;s rank correlation for test half C was r<Subscript>tt</Subscript>&#61;.52 (n&#61;46), for test half D r<Subscript>tt</Subscript>&#61;.61 (n&#61;34) (see Figure 2 <ImgLink imgNo="2" imgType="figure"/>). The corresponding Pearson correlations were r<Subscript>tt</Subscript>&#61;.54 and r<Subscript>tt</Subscript>&#61;.56. Some participants scored considerably worse in the retest as compared to the first testing. Exclusion of 9 participants with retest scores below 6 did not raise the correlation coefficient (test half C r<Subscript>tt</Subscript>&#61;.45, n&#61;39; test half D r<Subscript>tt</Subscript>&#61;.61, n&#61;32), even though Figure 2 <ImgLink imgNo="2" imgType="figure"/> might suggest such an effect.</Pgraph><SubHeadline>Differences between test versions HN2006 and HN2007</SubHeadline><Pgraph>The general linear model (GLM) gives a more detailed look at differences between test versions. A GLM with the factors &#8220;test version&#8221; (HN2006 vs. HN2007) as a repeated measurement factor and test half (A or B vs. C or D) as a between subjects factor showed that significantly fewer HN2007 items were solved correctly as compared to the HN2006 version (38.5&#37; vs. 45.2&#37;, F<Subscript>1,312</Subscript>&#61;101.5; p&#60;.001). While all participants scored equally high in both test halves of version HN2006 (F<Subscript>1,312</Subscript>&#61;2.3; p&#61;.128), test half D was more difficult than test half C in the HN2007 version (35.1&#37; vs. 40.6&#37; correct answers, F<Subscript>1,312</Subscript>&#61;11.4; p&#61;.001). Gender, included as a between subjects factor, had no significant effect on performance in the different test versions (F&#61;.468, p&#61;.495), even though males showed higher total scores as compared to females (44&#37; vs. 40&#37; correct answers, T&#61;-2.64; p&#61;.009).</Pgraph><SubHeadline>Effect of the chemistry course</SubHeadline><Pgraph>Scores of the first and second testing were analyzed separately for chemistry and other items (biology, mathematics, and physics) to check the effect of the chemistry course on performance. Fewer chemistry items were answered correctly as compared to items from the other subjects (35.8&#37; vs. 43.4&#37; correct answers, F<Subscript>78,1</Subscript>&#61;25.6, p&#60;.001). There was neither an improvement nor a decline of HN2007 test results after the course, not even chemistry items were answered correctly more often (interaction effect: F<Subscript>1,78</Subscript>&#61;0.26; p&#61;.610). The dichotomized variable &#8220;days of participation in the course&#8221; (0-3 vs. 4-5 days of attendance) showed no significant effect on HN2007 total scores (F<Subscript>1,50</Subscript>&#61;2.4; p&#61;.124) or chemistry scores (F<Subscript>1,50</Subscript>&#61;0.1; p&#61;.759). The sample for this analysis is reduced to n&#61;52. Including gender in the model yielded no significant interaction effects (all p&#62;.289).</Pgraph><SubHeadline>Publicity of test items</SubHeadline><Pgraph>In the retest condition, participants had already seen half of the HN2007 items, while the other half was new. Known items were not significantly more often answered correctly as compared to the first test (41.5 &#37; 40.1 &#37;; F<Subscript>1,50</Subscript>&#61;0.4; p&#61;.543). Exclusion of participants with very low retest scores did not alter results.</Pgraph><SubHeadline>Correlation of HAM-Nat and GPA</SubHeadline><Pgraph>Correlation coefficients for HAM-Nat and GPA scores ranged between r&#61;-.34 and r&#61;-.13 (see Table 1 <ImgLink imgNo="1" imgType="table"/>) for the different versions (mean correlation r&#61;-.24). GPA and the test &#8220;scientific reasoning&#8221; showed a correlation of r&#61;-.11 (n&#61;90).</Pgraph><SubHeadline>Correlation of the HAM-Nat and &#8220;scientific reasoning&#8221;</SubHeadline><Pgraph>The correlation of the subtest &#8220;scientific reasoning&#8221; and HN2006 test halves A and B were r&#61;.34. Correlation coefficients for HN2007 test halves C and D were r&#61;.19 and r&#61;.23, respectively (see Figure 3 <ImgLink imgNo="3" imgType="figure"/>). For the combined test halves HN2006 (A&#43;B) and HN2007 (C&#43;D) the correlation coefficients were r&#61;.34 and r&#61;.21. The two coefficients did not differ significantly (p&#61;.350; test with Fisher&#8217;s z <TextLink reference="17"></TextLink>).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Die Ergebnisse zur Frage der Parallelit&#228;t beider Testversionen lassen sich folgenderma&#223;en zusammenfassen: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Im neuen Test (HN2007) wurden signifikant weniger Items gel&#246;st als im alten (HN2006) und die Wiederholung des gleichen Tests nach vier Wochen f&#252;hrte nicht zu besseren Testleistungen.</ListItem><ListItem level="1" levelPosition="2" numString="2.">Der alte und der neue Test unterschieden sich nicht signifikant bez&#252;glich ihrer interner Konsistenzen und ihren Korrelationen mit einem dritten Test, dem Modul &#8222;Naturwissenschaftliches Denken&#8220;.</ListItem><ListItem level="1" levelPosition="3" numString="3.">Die internen Konsistenzen (Cronbach&#8217;s &#945;) der jeweils aus den Testversionen gebildeten Testh&#228;lften unterschieden sich nicht signifikant von den Korrelationen der Testh&#228;lften (Paralleltest-Reliabilit&#228;t).</ListItem></OrderedList></Pgraph><Pgraph>Warum ist HN2006 leichter als HN2007&#63; M&#246;glich w&#228;re, dass einige Studierende die Internetdarstellung des HN2006 kannten und dadurch einen Vorteil hatten. Doch dieser Effekt kann nicht sehr stark sein, denn die Studierenden waren bereits zugelassen und wenn sie sich mit dem HN2006 im Internet besch&#228;ftigt hatten, dann nicht, um sich auf eine ernsthafte Pr&#252;fung vorzubereiten. Wir wissen nicht, wie viele Probanden die Seite besucht haben. Zum Vergleich: Die Wiederholung der Testung mit Halbformen des HN2007 ergab nicht die geringste Verbesserung trotz des kurzen Zeitintervalls von vier Wochen zwischen Test und Retest. Warum sollte dann der vermutlich seltene und kursorische Besuch einer Internetseite einen Effekt haben&#63; Wahrscheinlicher ist, dass 2007 die Erzeuger der Testfragen tats&#228;chlich schwierigere Items produziert haben.</Pgraph><Pgraph>Einerseits stellen die unterschiedlichen Schwierigkeiten kein Problem f&#252;r den HAM-Nat dar, weil der Zweck dieses Tests darin besteht, Bewerber in eine Rangreihe zu bringen, um die Zulassung zum Studium in Kombination mit anderen Faktoren (Abiturnote, weitere Tests) zu regeln. Solange zwei Tests dieselbe Rangreihe produzieren, sind sie auch austauschbar. Andererseits sollte ein Test, der als Auswahlkriterium herangezogen wird, ein greifbares Profil besitzen und seine Beschaffenheit nicht unkontrolliert von Jahr zu Jahr &#228;ndern.</Pgraph><Pgraph>Ein Ma&#223; dieser Reproduzierbarkeit ist die Rangkorrelation. Sie betr&#228;gt f&#252;r Testh&#228;lften C des HN2007 r&#61;.52 und f&#252;r die Testh&#228;lfte D r&#61;.61. Das sind keine hohen Werte, wenn man bedenkt, dass vier Wochen nach der ersten Testung die gleichen Items vorgelegt wurden. Der Grund f&#252;r die geringe Reproduzierbarkeit der Rangreihe ist vermutlich ein St&#246;rfaktor, der f&#252;r die gesamte Untersuchung gilt: Da es sich um keine echte Bewerbungssituation handelte, reflektieren die Testwerte nicht nur Wissensunterschiede sondern auch Motivationsunterschiede. Dies betrifft besonders den 2. Testzeitpunkt, zu welchem die Studienteilnehmer durch die Anforderungen des Studienbeginns stark gefordert waren. Hier hat nur noch knapp mehr als die H&#228;lfte der Ausgangsstichprobe teilgenommen. Die niedrige Retest-Korrelation sollte daher als eine Untersch&#228;tzung betrachtet werden.</Pgraph><Pgraph>Die besonders schlechten Leistungen in Chemie k&#246;nnten sich dadurch erkl&#228;ren lassen, dass der Chemieunterricht an den meisten Schulen erst sp&#228;ter eingef&#252;hrt wird als die anderen Naturwissenschaften und zudem h&#228;ufiger in der Oberstufe abgew&#228;hlt wird. Diese Sch&#252;ler haben daher ein sehr viel geringeres Chemiewissen im Vergleich z.B. zum Biologiewissen von Sch&#252;lern, die dieses Fach in der Oberstufe abgew&#228;hlt, zuvor jedoch bereits viele Jahre ein Grundwissen erworben hatten. Daher ist es sinnvoll, einen Trainingskurs anzubieten, um die Wissensl&#252;cken im Fach Chemie zu schlie&#223;en. Warum aber spiegelte sich die Teilnahme am Chemiekurs nicht in besseren Leitungen im Chemieteil des HAM-Nat&#63; Dieser Teil der Studie ist besonders auf die Motivation beim Wiederholungstest angewiesen, die, wie oben beschrieben, wahrscheinlich nicht sehr hoch war. M&#246;glicherweise erfassten aber auch die HAM-Nat-Items teilweise ein Wissen, das im Kurs nicht behandelt wurde. Auch dieser Befund lenkt die Aufmerksamkeit auf den Vorgang der Itemerzeugung. Neue Items sollten mit dem typischen Lehrmaterial korrespondieren, das Bewerber f&#252;r ihre Vorbereitung benutzen. Nur so kann Vorbereitung die Chance auf Zulassung tats&#228;chlich verbessern &#8211; eine der gew&#252;nschten Wirkungen des HAM-Nat. Zur Verbesserung des HAM-Nat im Jahr 2008 wurde daher ein Themenkatalog ver&#246;ffentlicht, um den Studienbewerbern die Vorbereitung auf den Test zu erleichtern. Alle Fragen des 2008er HAM-Nat k&#246;nnen eindeutig einem oder mehreren Themengebieten des Katalogs zugeordnet werden.</Pgraph><Pgraph>Die gegen&#252;ber dem HN2006 nicht signifikante, aber leicht geringere interne Konsistenz des HN2007 k&#246;nnte dadurch erkl&#228;rbar sein, dass bei dieser Version keine Vorselektion von Items nach Trennsch&#228;rfe stattfand wie bei der Version HN2006. Um das zu pr&#252;fen, haben wir f&#252;r beide Versionen Items ausgeschlossen, die Trennsch&#228;rfen &#60;.10 aufwiesen und die interne Konsistenzen neu berechnet. In den 2006er Testh&#228;lften lagen nur 5 Items unter .10, w&#228;hrend es f&#252;r die beiden Testh&#228;lften des HN2007 insgesamt 15 waren. Wurden diese Items eliminiert, lagen die internen Konsistenzen f&#252;r alle Testh&#228;lften zwischen .60 und .70. Damit sind die internen Konsistenzen nur geringf&#252;gig h&#246;her als die Korrelationen der Testh&#228;lften und wir k&#246;nnen die Nullhypothese nicht zur&#252;ckweisen, dass beide Tests auf das gleiche Universum m&#246;glicher Items zugreifen und Zufallsauswahlen aus einem gemeinsamen Universum m&#246;glicher Items sind.</Pgraph><Pgraph>Die niedrigen Korrelationen mit dem Test &#8222;Naturwissenschaftliches Denken&#8220; waren zu erwarten, denn dieses Modul ist auf logisches Denken und andere Intelligenzfunktionen ausgerichtet, der HAM-Nat dagegen auf positives Wissen und dessen Anwendung.</Pgraph><Pgraph>Obwohl sich die beiden Testversionen lediglich hinsichtlich der Anzahl der gel&#246;sten Items signifikant unterscheiden, deuten die Ergebnisse darauf hin, dass es schwierig ist, parallele Testversionen f&#252;r naturwissenschaftliches Wissen zu erstellen. Die irrt&#252;mliche Annahme einer &#196;quivalenz (&#223;-Fehler) in dieser Phase der Testentwicklung w&#228;re nachteiliger als ein Irrtum in die andere Richtung.</Pgraph><Pgraph>Da es trotz vieler Ma&#223;nahmen zur Geheimhaltung der Fragen schwer ist zu verhindern, dass Testfragen an die &#214;ffentlichkeit gelangen, m&#252;ssen f&#252;r jeden Jahrgang neue Items erzeugt werden. Doch ein gewisser Anteil alter Items mit g&#252;nstigen Charakteristika sollte wiederverwendet werden, um die Testqualit&#228;t zu erh&#246;hen und um die &#196;quivalenz neuer Testversionen mit &#228;lteren einzusch&#228;tzen. Je mehr der Item-Pool aus vergangenen Tests anw&#228;chst, desto gr&#246;&#223;er kann dieser Anteil sein.</Pgraph><Pgraph>F&#252;r die Analyse nachfolgender HAM-Nat Versionen sollen Methoden angewendet werden, die eine stichprobenunabh&#228;ngige Sch&#228;tzung der Testeigenschaften erm&#246;glichen. Daf&#252;r eignen sich Modelle der Item Response Theorie <TextLink reference="18"></TextLink>. Sie erm&#246;glichen den Vergleich &#252;ber verschiedene Testversionen und Studierendenkohorten hinweg. Hierf&#252;r ben&#246;tigen wir einen Pool validierter Items, dessen Aufbau das Ziel unserer Arbeitsgruppe ist.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>Results can be summarized as follows:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Significantly more old HN2006 items were solved correctly as compared to new HN2007 items, and taking HN2007 twice did not improve test performance.</ListItem><ListItem level="1" levelPosition="2" numString="2.">HN2006 and HN2007 did neither differ with regard to their internal consistencies nor with regard to their correlations with a third test &#8220;scientific reasoning&#8221;.</ListItem><ListItem level="1" levelPosition="3" numString="3.">Internal consistencies of the different test versions were not significantly different from the correlation between test halves (parallel forms reliability).</ListItem></OrderedList></Pgraph><Pgraph>Why is the HN2006 easier than the HN2007&#63; Maybe some participants were familiar with the old test items due to their publication on the internet. However, we assume that participants did not prepare for the test because they had already been admitted to medical school and nothing was at stake. We do not know how many students took the internet self-test. However, taking the HN2007 twice within a four week period did not lead to better results. Why should the supposedly infrequent visit of this internet page have an effect&#63; It is more likely that test developers produced more difficult items.</Pgraph><Pgraph>On the one hand, varying difficulties of HAM-Nat test forms are not problematic since the purpose of the test is to rank applicants in a combined score of HAM-Nat and further admission criteria (GPA, further tests). As long as tests produce the same rank ordering, they are exchangeable. However, a test used for student selection should exhibit a profile which is constant over different cohorts.</Pgraph><Pgraph>Rank correlation coefficients are a measure of reproducibility. For test halves C and D of the HN2007 they were r&#61;.52 and r&#61;.61. These are not very high values given that participants had seen the same items four weeks prior to the second testing. This low level of reproducibility might be due to an important source of error which applies to the whole study design: since stakes were low, test score variation is not only due to differences in knowledge but also to differences in test motivation. This is especially true for the retest condition with just above half of the sample taking part. At this time point, participants were busy with the first weeks of the term. Therefore, the low retest correlation is probably an underestimation.</Pgraph><Pgraph>The especially low performance in chemistry items could be explained by the fact that most German schools introduce chemistry classes later into the curriculum than other natural sciences. Moreover, more students drop this subject in sixth form as compared to other science classes. If, for example, biology is dropped in sixth form, pupils still have had more years studying biology as compared to the scenario where chemistry classes are dropped. Offering a training course in chemistry seems worthwhile. But why did we not see better results in the chemistry items of the HAM-Nat retest&#63; For this part motivation to do well is very important and probably participants were not motivated enough. Another explanation could be that HAM-Nat items covered knowledge which was not taught in the course. This finding draws attention to the process of writing items. New items should correspond to the typical teaching material that applicants use for test preparation. Only if this is the case, test preparation can improve chances to be admitted &#8211; one of the intended effects of the HAM-Nat. To improve further versions of the HAM-Nat test, a list of topics was published in 2008 to help applicants with their preparation. All subsequent HAM-Nat items can be reliably assigned to one or more topics of the list of subjects.</Pgraph><Pgraph>HN2006 items had been preselected by item total correlation in a first test run which was not the case for HN2007. This might explain the slightly smaller &#8211; yet insignificant &#8211; internal consistency of HN2007. To check this, we excluded items with corrected item total correlations &#60;.10 from both scales and recalculated internal consistencies. HN2006 contained merely 5 items below .10 while HN2007 contained 15 items that had to be excluded. After exclusion of these items, internal consistencies for all test halves amounted up to values between .60 and .70. Therefore, internal consistencies are only slightly higher than correlations of test halves, and we cannot reject the null hypothesis that both tests are drawn from the same item universe and that they are randomly selected from this universe.</Pgraph><Pgraph>We expected correlations of the HAM-Nat and the external criterion &#8220;scientific reasoning&#8221; to be low as the &#8220;scientific reasoning&#8221; is targeted on ability to reason and intelligence while the HAM-Nat test is targeted on knowledge and application of knowledge.</Pgraph><Pgraph>Even though the test versions HN2006 and HN2007 only differ with regard to the number of correctly solved items, results indicate that it is difficult to develop parallel test forms for knowledge of sciences. Erroneously assuming that test forms are parallel (beta error) at this stage of test development is more harmful than the contrary error.</Pgraph><Pgraph>Despite many actions to prevent that items are made public, new items have to be written every year. However, a certain proportion of old items with good psychometric properties should be reused to raise test quality and to estimate equivalence of new test versions. The larger the item pool, the more items can be reused. Methods that are able to estimate sample independent test characteristics should be used for subsequent HAM-Nat test versions. Models within the item response theory (IRT) framework <TextLink reference="18"></TextLink> allow comparisons across different test versions and cohorts of students. Therefore, the aim of our project is to assemble a pool of validated items.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline><Pgraph>Wir danken dem Dekan Prof. U. Koch-Gromus und Herrn Dr. B. Andresen f&#252;r Anregungen und lebhafte Diskussionen und ihre Unterst&#252;tzung, sowie Herrn D. M&#252;nch-Harrach und Herrn C. Kothe f&#252;r ihre Unterst&#252;tzung bei der Datenverarbeitung. Diese Studie wird durch den F&#246;rderfonds Lehre des Dekanates der Medizinischen Fakult&#228;t Hamburg unterst&#252;tzt.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Acknowledgements">
      <MainHeadline>Acknowledgements</MainHeadline><Pgraph>We are grateful to Prof. U. Koch-Gromus and Dr. B Andresen for open discussions and their collaboration, and we would like to thank D. M&#252;nch-Harrach and C. Kothe for their support in data management. This research was funded by the &#8220;Foerderfonds Lehre&#8221;, a grant of the Universitaetsklinikum Hamburg Eppendorf.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenskonflikte in Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Bundesministerium f&#252;r Bildung und Forschung</RefAuthor>
        <RefTitle>Hochschulrahmengesetz</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>BGBI</RefJournal>
        <RefPage>3835</RefPage>
        <RefTotal>Bundesministerium f&#252;r Bildung und Forschung. Hochschulrahmengesetz. BGBI. 2005;I:3835. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.bmbf.de&#47;pub&#47;HRG&#95;20050126.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.bmbf.de&#47;pub&#47;HRG&#95;20050126.pdf</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Hansestadt Hamburg</RefAuthor>
        <RefTitle>Hochschulzulassungsgesetz Hamburg</RefTitle>
        <RefYear></RefYear>
        <RefJournal>HmbGVBI</RefJournal>
        <RefPage>515-517</RefPage>
        <RefTotal>Hansestadt Hamburg. Hochschulzulassungsgesetz Hamburg, HmbGVBI. 2004:515-517. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.landesrecht.hamburg.de&#47;jportal&#47;portal&#47;page&#47;bshaprod.psml&#63;showdoccase&#61;1&#38;doc.id&#61;jlr-HSchulZulGHArahmen&#38;st&#61;lr</RefTotal>
        <RefLink>http:&#47;&#47;www.landesrecht.hamburg.de&#47;jportal&#47;portal&#47;page&#47;bshaprod.psml&#63;showdoccase&#61;1&#38;doc.id&#61;jlr-HSchulZulGHArahmen&#38;st&#61;lr</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Trost G</RefAuthor>
        <RefAuthor>Flum F</RefAuthor>
        <RefAuthor>Fay E</RefAuthor>
        <RefAuthor>Klieme E</RefAuthor>
        <RefAuthor>Maichle U</RefAuthor>
        <RefAuthor>Meyer M</RefAuthor>
        <RefAuthor>Nauels HU</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1998</RefYear>
        <RefBookTitle>Evaluation des Tests f&#252;r Medizinische Studieng&#228;nge (TMS): Synopse der Ergebnisse</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Trost G, Flum F, Fay E, Klieme E, Maichle U, Meyer M, Nauels HU. Evaluation des Tests f&#252;r Medizinische Studieng&#228;nge (TMS): Synopse der Ergebnisse. Bonn: ITB; 1998.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Trapmann S</RefAuthor>
        <RefAuthor>Hell B</RefAuthor>
        <RefAuthor>Weigand S</RefAuthor>
        <RefAuthor>Schuler H</RefAuthor>
        <RefTitle>Die Validit&#228;t von Schulnoten zur Vorhersage des Studienerfolgs - eine Metaanalyse</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Z Padagog Psychol</RefJournal>
        <RefPage>11-27</RefPage>
        <RefTotal>Trapmann S, Hell B, Weigand S, Schuler H. Die Validit&#228;t von Schulnoten zur Vorhersage des Studienerfolgs - eine Metaanalyse. Z Padagog Psychol. 2007;21(1):11-27. DOI: 10.1024&#47;1010-0652.21.1.11</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1024&#47;1010-0652.21.1.11</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Ferguson E</RefAuthor>
        <RefAuthor>James D</RefAuthor>
        <RefAuthor>Madeley L</RefAuthor>
        <RefTitle>Factors associated with success in medical school: systematic review of the literature</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>BMJ</RefJournal>
        <RefPage>952-957</RefPage>
        <RefTotal>Ferguson E, James D, Madeley L. Factors associated with success in medical school: systematic review of the literature. BMJ. 2002;324(7343):952-957. DOI: 10.1136&#47;bmj.324.7343.952</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.324.7343.952</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>McManus IC</RefAuthor>
        <RefAuthor>Smithers E</RefAuthor>
        <RefAuthor>Partridge P</RefAuthor>
        <RefAuthor>Keeling A</RefAuthor>
        <RefAuthor>Fleming PR</RefAuthor>
        <RefTitle>A levels and intelligence as predictors of medical careers in UK doctors: 20 year prospective study</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>BMJ</RefJournal>
        <RefPage>139-142</RefPage>
        <RefTotal>McManus IC, Smithers E, Partridge P, Keeling A, Fleming PR. A levels and intelligence as predictors of medical careers in UK doctors: 20 year prospective study. BMJ. 2003;327(7407):139-142. DOI: 10.1136&#47;bmj.327.7407.139</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1136&#47;bmj.327.7407.139</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Wissenschaftsrat</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2004</RefYear>
        <RefBookTitle>Empfehlungen zur Reform des Hochschulzugangs</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Wissenschaftsrat. Empfehlungen zur Reform des Hochschulzugangs. Berlin: Wissenschaftsrat; 2004. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;5920-04.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.wissenschaftsrat.de&#47;download&#47;archiv&#47;5920-04.pdf</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Trost G</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1996</RefYear>
        <RefBookTitle>Test f&#252;r Medizinische Studieng&#228;nge (TMS): Studien zur Evaluation, 20</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Trost G. Test f&#252;r Medizinische Studieng&#228;nge (TMS): Studien zur Evaluation, 20. Arbeitsbericht. Bonn: Institut f&#252;r Test- und Begabungsforschung; 1996.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Koeller O</RefAuthor>
        <RefAuthor>Baumert J</RefAuthor>
        <RefTitle>Das Abitur - immer noch ein g&#252;ltiger Indikator f&#252;r die Studierf&#228;higkeit&#63;</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Politik Zeitgeschichte</RefJournal>
        <RefPage>B26</RefPage>
        <RefTotal>Koeller O, Baumert J. Das Abitur - immer noch ein g&#252;ltiger Indikator f&#252;r die Studierf&#228;higkeit&#63; Politik Zeitgeschichte. 2002;B26. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.bpb.de&#47;publikationen&#47;0P7PYG,0,Das&#95;Abitur&#95;immer&#95;noch&#95;eing&#37;FCltiger&#95;Indikator&#95;f&#37;FCr&#95;die&#95;Studierf&#37;E4higkeit.html</RefTotal>
        <RefLink>http:&#47;&#47;www.bpb.de&#47;publikationen&#47;0P7PYG,0,Das&#95;Abitur&#95;immer&#95;noch&#95;eing&#37;FCltiger&#95;Indikator&#95;f&#37;FCr&#95;die&#95;Studierf&#37;E4higkeit.html</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Janssen PJ</RefAuthor>
        <RefTitle>Vlaanderens toelatingsexamen arts-tandarts: resultaten na 9 jaar werking</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Ned Tijdschr Geneeskd</RefJournal>
        <RefPage>1569-81</RefPage>
        <RefTotal>Janssen PJ. Vlaanderens toelatingsexamen arts-tandarts: resultaten na 9 jaar werking. Ned Tijdschr Geneeskd. 2006;62:1569-81. DOI: 10.2143&#47;TVG.62.22.5002592</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.2143&#47;TVG.62.22.5002592</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Smolle J</RefAuthor>
        <RefAuthor>Neges H</RefAuthor>
        <RefAuthor>Macher S</RefAuthor>
        <RefAuthor>Reibnegger G</RefAuthor>
        <RefTitle>Aufnahmeverfahren f&#252;r das Medizinstudium: Erfahrungen der Medizinischen Universit&#228;t Graz</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefArticleNo>Doc141</RefArticleNo>
        <RefTotal>Smolle J, Neges H, Macher S, Reibnegger G. Aufnahmeverfahren f&#252;r das Medizinstudium: Erfahrungen der Medizinischen Universit&#228;t Graz. GMS Z Med Ausbild. 2007;24(3):Doc141. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2007-24&#47;zma000435.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2007-24&#47;zma000435.shtml</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Reibnegger</RefAuthor>
        <RefAuthor>G</RefAuthor>
        <RefAuthor> Caluba</RefAuthor>
        <RefAuthor>HC</RefAuthor>
        <RefAuthor> Ithaler</RefAuthor>
        <RefAuthor>D</RefAuthor>
        <RefAuthor> Manhal</RefAuthor>
        <RefAuthor>S</RefAuthor>
        <RefAuthor> Neges</RefAuthor>
        <RefAuthor>HM</RefAuthor>
        <RefAuthor> Smolle</RefAuthor>
        <RefAuthor>J</RefAuthor>
        <RefTitle>Progress of medical students after open admission or admission based on knowledge tests</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>205-214</RefPage>
        <RefTotal>Reibnegger, G; Caluba, HC; Ithaler, D; Manhal, S; Neges, HM; Smolle, J. Progress of medical students after open admission or admission based on knowledge tests. Med Educ. 2010; 44(2): 205-214. DOI: 10.1111&#47;j.1365-2923.2009.03576.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2009.03576.x</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Emery JL</RefAuthor>
        <RefAuthor>Bell JF</RefAuthor>
        <RefTitle>The predictive validity of the BioMedical Admissions Test for pre-clinical examination performance</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>557-564</RefPage>
        <RefTotal>Emery JL, Bell JF. The predictive validity of the BioMedical Admissions Test for pre-clinical examination performance. Med Educ. 2009;43(6):557-564. DOI: 10.1111&#47;j.1365-2923.2009.03367.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2009.03367.x</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>McManus IC</RefAuthor>
        <RefAuthor>Ferguson E</RefAuthor>
        <RefAuthor>Wakeford R</RefAuthor>
        <RefAuthor>Powis D</RefAuthor>
        <RefAuthor>James D</RefAuthor>
        <RefTitle>Predictive validity of the Biomedidcal Admission Test: An evaluation and case study</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>53-57</RefPage>
        <RefTotal>McManus IC, Ferguson E, Wakeford R, Powis D, James D. Predictive validity of the Biomedidcal Admission Test: An evaluation and case study. Med Teach. 2011;33:53-57. DOI: 10.3109&#47;0142159X.2010.525267</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2010.525267</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Hampe W</RefAuthor>
        <RefAuthor>Klusmann D</RefAuthor>
        <RefAuthor>Buhk H</RefAuthor>
        <RefAuthor>Muench-Harrach D</RefAuthor>
        <RefAuthor>Harendza S</RefAuthor>
        <RefTitle>Reduzierbarkeit der Abbrecherquote im Humanmedizinstudium durch das Hamburger Auswahlverfahren f&#252;r Medizinische Studiengaenge - Naturwissenschaftsteil (HAM-Nat)</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefArticleNo>Doc82</RefArticleNo>
        <RefTotal>Hampe W, Klusmann D, Buhk H, Muench-Harrach D, Harendza S. Reduzierbarkeit der Abbrecherquote im Humanmedizinstudium durch das Hamburger Auswahlverfahren f&#252;r Medizinische Studiengaenge - Naturwissenschaftsteil (HAM-Nat). GMS Z Med Ausbild. 2008;25(2):Doc82. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000566.shtml.</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000566.shtml</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>PASW</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2009</RefYear>
        <RefBookTitle>Predictive Analysis SoftWare</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>PASW. Predictive Analysis SoftWare. Rel. 18.0.0 ed. Chicago: SPSS Inc.; 2009.</RefTotal>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>M&#252;ller KH</RefAuthor>
        <RefTitle>Beitrag zum Pr&#252;fen der Differenz zwischen 2 Korrelationskoeffizienten</RefTitle>
        <RefYear>1971</RefYear>
        <RefJournal>Biometr Z</RefJournal>
        <RefPage>342&#8211;361</RefPage>
        <RefTotal>M&#252;ller KH. Beitrag zum Pr&#252;fen der Differenz zwischen 2 Korrelationskoeffizienten. Biometr Z. 1971;13(5):342&#8211;361. DOI: 10.1002&#47;bimj.19710130507</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;bimj.19710130507</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Embretson SE</RefAuthor>
        <RefAuthor>Reise SP</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2000</RefYear>
        <RefBookTitle>Item response theory for psychologists</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Embretson SE, Reise SP. Item response theory for psychologists. Mahwah, N.J.: L. Erlbaum Associates; 2000.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Skalenstatistiken der vier verschiedenen Testversionen</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 1: Statistics of test scales and test versions</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="de">2de</MediaID>
          <MediaID language="en">2en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Korrelation der verschiedenen Testh&#228;lften</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Table 2: Correlation between different test halves</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>2</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="297" width="335">
          <MediaNo>1</MediaNo>
          <MediaID language="de">1de</MediaID>
          <MediaID language="en">1en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Studiendesign und Anzahl der Studienteilnehmer</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 1: Study design and number of participants</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="382" width="377">
          <MediaNo>2</MediaNo>
          <MediaID language="de">2de</MediaID>
          <MediaID language="en">2en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 2: Test&#47; Retest-Korrelationen f&#252;r Testh&#228;lften C und D des HN2007 und die jeweiligen Regressionsgeraden. Unter der waagerechten Gerade liegen alle Testteilnehmer, die in der zweiten Testung Ergebnisse unterhalb der Ratewahrscheinlichkeit erzielten.</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 2: Test&#47;Retest-Correlations for test halves C and D (HN2007) and their respective regression lines. Below the horizontal line are those participants scoring lower than chance level in the second testing.</Mark1></Pgraph></Caption>
        </Figure>
        <Figure format="png" height="377" width="374">
          <MediaNo>3</MediaNo>
          <MediaID language="de">3de</MediaID>
          <MediaID language="en">3en</MediaID>
          <Caption language="de"><Pgraph><Mark1>Abbildung 3: Korrelationen des Moduls Naturwissenschaftliches Wissen aus dem TMS mit den jeweiligen Testh&#228;lften des HAM-Nat und die jeweiligen Regressionsgeraden</Mark1></Pgraph></Caption>
          <Caption language="en"><Pgraph><Mark1>Figure 3: Correlations of the subtest &#8222;scientific reasoning&#8220; with the HN2007 test Halves C and D and their respective regression lines.</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>3</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>