<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle>
  <MetaData>
    <Identifier>zma000683</Identifier>
    <IdentifierDoi>10.3205/zma000683</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0006834</IdentifierUrn>
    <ArticleType>Forschungsarbeit&#47;research article</ArticleType>
    <TitleGroup>
      <Title language="de">Auswirkungen angeleiteter Itemanalysebesprechungen mit Dozierenden auf die Qualit&#228;t von Multiple Choice Pr&#252;fungen</Title>
      <TitleTranslated language="en">Effect of structured feedback to teachers on the quality of multiple choice examinations</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Kropf</Lastname>
          <LastnameHeading>Kropf</LastnameHeading>
          <Firstname>Roger</Firstname>
          <Initials>R</Initials>
          <AcademicTitle>Dr. med.</AcademicTitle>
        </PersonNames>
        <Address>Universit&#228;t Z&#252;rich, Medizinische Fakult&#228;t, Studiendekanat, Pestalozzistra&#223;e 3&#47;5, CH-8091 Z&#252;rich, Schweiz, Tel.: &#43;41 44 634 1099, Fax: &#43;41 44 634 1088<Affiliation>Universit&#228;t Z&#252;rich, Medizinische Fakult&#228;t, Studiendekanat, Z&#252;rich, Schweiz</Affiliation></Address>
        <Email>roger.kropf&#64;dekmed.uzh.ch</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Krebs</Lastname>
          <LastnameHeading>Krebs</LastnameHeading>
          <Firstname>Ren&#233;</Firstname>
          <Initials>R</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;t Bern, Institut f&#252;r Medizinische Lehre, Abteilung f&#252;r Assessment und Evaluation, Bern, Schweiz</Affiliation>
        </Address>
        <Email>rene.krebs&#64;iml.unibe.ch</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Rogausch</Lastname>
          <LastnameHeading>Rogausch</LastnameHeading>
          <Firstname>Anja</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;t Bern, Institut f&#252;r Medizinische Lehre, Abteilung f&#252;r Assessment und Evaluation, Bern, Schweiz</Affiliation>
        </Address>
        <Email>anja.rogausch&#64;iml.unibe.ch</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Beyeler</Lastname>
          <LastnameHeading>Beyeler</LastnameHeading>
          <Firstname>Christine</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;t Bern, Institut f&#252;r Medizinische Lehre, Abteilung f&#252;r Assessment und Evaluation, Bern, Schweiz</Affiliation>
        </Address>
        <Email>christine.beyeler&#64;iml.unibe.ch</Email>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">educational measurement</Keyword>
      <Keyword language="en">faculty development</Keyword>
      <Keyword language="en">continuous quality management</Keyword>
      <Keyword language="en">MCQ</Keyword>
      <Keyword language="en">assessment</Keyword>
      <Keyword language="de">Messmethoden in der Lehre</Keyword>
      <Keyword language="de">Fakult&#228;tsentwicklung in der Medizin</Keyword>
      <Keyword language="de">kontinuierliches Qualit&#228;tsmanagement</Keyword>
      <Keyword language="de">MCQ</Keyword>
      <Keyword language="de">Assessment</Keyword>
      <SectionHeading language="de">Humanmedizin</SectionHeading>
    </SubjectGroup>
    <DateReceived>20090717</DateReceived>
    <DateRevised>20091210</DateRevised>
    <DateAccepted>20091214</DateAccepted>
    <DatePublishedList>
      <DatePublished>20100517</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <SourceGroup>
      <Journal>
        <ISSN>1860-3572</ISSN>
        <Volume>27</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Zeitschrift f&#252;r Medizinische Ausbildung</JournalTitle>
        <JournalTitleAbbr>GMS Z Med Ausbild</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>46</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes">
      <Pgraph><Mark1>Hintergrund:</Mark1> Damit Multiple Choice Pr&#252;fungen &#252;ber die reinen Pr&#252;fungsergebnisse hinausgehende Schlussfolgerungen zulassen, m&#252;ssen sie f&#252;r die jeweiligen Interpretationsabsichten inhaltlich g&#252;ltig sein und hinreichend zuverl&#228;ssig messen. Die vorliegende Studie geht der Frage nach, ob von Pr&#252;fungsexperten mit Dozierenden gef&#252;hrte Itemanalysebesprechungen eine Steigerung der Validit&#228;t und Reliabilit&#228;t nachfolgender Pr&#252;fungen bewirken. </Pgraph>
      <Pgraph><Mark1>Methoden: </Mark1>Diese Itemanalysebesprechungen wurden im dritten Studienjahr Humanmedizin an der Universit&#228;t Z&#252;rich 2007 erstmalig fl&#228;chendeckend eingef&#252;hrt. Um deren Einfluss auf sp&#228;tere Pr&#252;fungen zu untersuchen, wurden die Semesterabschlusspr&#252;fungen vor und nach dieser Intervention hinsichtlich verschiedener Validit&#228;ts- und Reliabilit&#228;tskriterien (inhaltliche Relevanz, taxonomische Stufe, psychometrische Kennwerte) miteinander verglichen. Andere Bedingungen wie beispielsweise Objektivit&#228;t und inhaltliche Repr&#228;sentativit&#228;t wurden konstant gehalten.</Pgraph>
      <Pgraph><Mark1>Ergebnisse: </Mark1>Nach Einf&#252;hrung der Itemanalysebesprechungen wiesen die Pr&#252;fungsfragen einen Trend zu h&#246;herer Relevanz auf. Die taxonomische Einstufung blieb unver&#228;ndert. Hingegen stiegen sowohl die Trennsch&#228;rfen als auch die Reliabilit&#228;tskoeffizienten signifikant an und es mussten weniger Pr&#252;fungsfragen wegen ung&#252;nstiger psychometrischer Eigenschaften aus der Pr&#252;fungsbewertung eliminiert werden.</Pgraph>
      <Pgraph><Mark1>Schlussfolgerung: </Mark1>Von Pr&#252;fungsexperten angeleitete Itemanalysebesprechungen mit Dozierenden stellen ein wertvolles Instrument zur Qualit&#228;tsverbesserung von Multiple Choice Pr&#252;fungen insbesondere hinsichtlich der Reliabilit&#228;t dar. </Pgraph>
    </Abstract>
    <Abstract language="en" linked="yes">
      <Pgraph><Mark1>Background:</Mark1> In order to allow a meaningful interpretation of multiple choice (MC) assessment data, MC examinations have to be highly valid on the one hand and represent a reliable measure on the other. The aim of this study was to evaluate the effect of structured feedback given to teachers by assessment experts on the validity and reliability of subsequent MC examinations. </Pgraph>
      <Pgraph><Mark1>Methods:</Mark1> This feedback was introduced in the 3rd year of undergraduate medical training at the University of Zurich in 2007 and applied to nearly all teachers. Various validity and reliability criteria (relevance of content, taxonomic level, psychometric characteristics) of all end-of-term examinations one year before and one year after this intervention were compared. Other factors such as objectivity and representativeness were kept constant.</Pgraph>
      <Pgraph><Mark1>Results:</Mark1> After the introduction of structured feedback the multiple choice questions revealed a trend toward higher relevance. Taxonomic levels remained unchanged. However, selectivity and reliability coefficients increased significantly and the number of items eliminated from examination scoring due to insufficient psychometric properties decreased.</Pgraph>
      <Pgraph><Mark1>Conclusion:</Mark1> Structured feedback by assessment experts to teachers is a valuable tool for quality improvement of MC examinations, in particular regarding reliability. </Pgraph>
    </Abstract>
    <TextBlock linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline>
      <Pgraph>Multiple Choice Pr&#252;fungen sind nur dann von Nutzen, wenn sie Interpretationen zulassen, die &#252;ber die Angabe des Anteils richtig beantworteter Fragen hinausgehen <TextLink reference="5"></TextLink>. Zumindest sollte aus den Pr&#252;fungsergebnissen auf den Wissensstand in den Themenbereichen geschlossen werden k&#246;nnen, aus denen die Pr&#252;fungsfragen ja lediglich eine mehr oder weniger repr&#228;sentative Stichprobe darstellen. Auch sollten sie eine Prognose erm&#246;glichen, inwiefern sich die Pr&#252;fungsabsolventen das erforderliche Wissen und Verst&#228;ndnis angeeignet haben, um die n&#228;chsten Lernschritte, den n&#228;chsten Studienabschnitt erfolgreich bew&#228;ltigen zu k&#246;nnen. Solche Schlussfolgerungen sind nur zul&#228;ssig, wenn die Pr&#252;fungen f&#252;r die jeweiligen Interpretationsabsichten inhaltlich g&#252;ltig sind und hinreichend zuverl&#228;ssig messen.</Pgraph>
      <Pgraph>Damit Pr&#252;fungsfragen (im nachfolgenden Text wird der Einfachheit halber der in der Pr&#252;fungsliteratur &#252;bliche Ausdruck &#8220;Item&#8220; verwendet) zur inhaltlichen G&#252;ltigkeit (Validit&#228;t) beitragen <TextLink reference="1"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="7"></TextLink>, <TextLink reference="15"></TextLink>, m&#252;ssen sie </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">relevant sein hinsichtlich der Anforderungen in der weiteren Ausbildung und letztlich im Beruf, </ListItem>
          <ListItem level="1">auf den gew&#252;nschten kognitiven Stufen pr&#252;fen (Wissen, Verstehen, Wissensanwendung zur L&#246;sung von Problemen),</ListItem>
          <ListItem level="1">repr&#228;sentativ zusammengestellt sein.</ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Bez&#252;glich der Messzuverl&#228;ssigkeit (Reliabilit&#228;t) ist bei Multiple Choice Pr&#252;fungen, die hoch standardisiert sind, &#252;berwacht durchgef&#252;hrt und nach vordefiniertem Schl&#252;ssel automatisiert ausgewertet werden, fast nur die Messgenauigkeit des Pr&#252;fungsinstrumentes von Belang. Diese wird heute praktisch ausschliesslich durch den alpha-Koeffizienten von Cronbach (innere Konsistenz der Items) erfasst, der f&#252;r Pr&#252;fungen mit einschneidender Konsequenz f&#252;r die Kandidaten nicht unter 0.8 liegen sollte <TextLink reference="1"></TextLink>, <TextLink reference="3"></TextLink>. Damit Items zu einer konsistenten zuverl&#228;ssigen Differenzierung beitragen, m&#252;ssen sie <TextLink reference="1"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink></Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">eindeutig l&#246;sbar sein,</ListItem>
          <ListItem level="1">klar und verst&#228;ndlich formuliert sein,</ListItem>
          <ListItem level="1">eine angemessene Schwierigkeit aufweisen,</ListItem>
          <ListItem level="1">keine ungewollten L&#246;sungshinweise enthalten.</ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>Unter messtechnischer Betrachtung tragen Items dann zur Reliabilit&#228;t der Pr&#252;fung bei, wenn ihre Beantwortung (richtig&#47;falsch) positiv mit dem in der Pr&#252;fung erzielten Punktwert korreliert, sie also einen positiven Trennsch&#228;rfekoeffizienten aufweisen <TextLink reference="1"></TextLink>. Erw&#252;nscht sind dabei Werte <Mark3>&#62;</Mark3> 0.2. Neben der Itemqualit&#228;t wird die Reliabilit&#228;t wesentlich von der Pr&#252;fungsl&#228;nge beeinflusst, da sich mit steigender Anzahl Items unerw&#252;nschte und zuf&#228;llige Einfl&#252;sse gegenseitig ausnivellieren.</Pgraph>
      <Pgraph>Bei der Pr&#252;fungsauswertung wird neben den g&#228;ngigen Testg&#252;tekriterien meist auch eine detaillierte statistische Auswertung jedes Items (Itemanalyse) vorgenommen <TextLink reference="12"></TextLink>. Die durch die Itemanalyse erzeugten Daten stellen eine wertvolle Form der R&#252;ckmeldung an Dozierende dar <TextLink reference="6"></TextLink>, <TextLink reference="13"></TextLink>, und tragen &#252;ber die verbesserte Konstruktion von Neufragen dazu bei, Validit&#228;t und Reliabilit&#228;t zuk&#252;nftiger Pr&#252;fungen zu verbessern <TextLink reference="16"></TextLink>. Die vorliegende Arbeit geht der Frage nach, welchen Einfluss von Pr&#252;fungsexperten mit Dozierenden gef&#252;hrte Itemanalysebesprechungen auf die Qualit&#228;t (Relevanz, taxonomisches Niveau, psychometrische Kennwerte) nachfolgender Pr&#252;fungen haben. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline>
      <SubHeadline>Hintergrund</SubHeadline>
      <Pgraph>Im Zuge der 2002 initiierten Gesamtreform des Humanmedizinstudiums an der Medizinischen Fakult&#228;t der Universit&#228;t Z&#252;rich, wurde das Curriculum 2005&#47;06 im klinischen Abschnitt des dritten Studienjahres von einem f&#228;cherorientierten Unterricht auf einen organzentrierten Unterricht umgestellt. Dessen Organisationseinheit bildet der Themenblock. Verbunden mit dieser Umstellung war auch eine Neuausrichtung der Pr&#252;fungen. Die traditionellen Multiple Choice (MC) Pr&#252;fungen der F&#228;cher Pathophysiologie, Pharmakologie und Mikrobiologie am Ende des dritten Studienjahres wurden &#252;berf&#252;hrt in insgesamt vier MC Semesterpr&#252;fungen (nachfolgend Pr&#252;fung genannt). Deren Pr&#252;fungsinhalte orientierten sich jeweils an den im Semester unterrichteten Themenbl&#246;cken. Gr&#246;sstenteils mussten die Items neu erstellt werden, da ehemalige Items nur in Einzelf&#228;llen wieder verwendet werden konnten und in vielen F&#228;chern gar keine Items existierten. Zur Vorbereitung wurden, in enger Zusammenarbeit mit dem Institut f&#252;r Medizinische Lehre (IML) der Universit&#228;t Bern, Schulungen f&#252;r die sachgerechte Item-Konstruktion angeboten. Dozierende nahmen dieses Angebot in der Regel dankbar an und empfanden es als hilfreich f&#252;r die Erstellung eigener Items. Zur Gew&#228;hrleistung inhaltlicher Repr&#228;sentativit&#228;t und Konstanz erfolgte die Zusammenstellung der Pr&#252;fungen durchgehend auf Grundlage eines zweidimensionalen (Themenbl&#246;cke &#47; F&#228;cher) gewichteten Inhaltsrasters (sog. Blueprint). 2006 wurden die beiden Pr&#252;fungen (MC1 und MC2) des dritten Studienjahres erstmals mit einer Kohorte von 223 Kandidaten durchgef&#252;hrt. Kandidatenkommentare zu den Items sowie allgemeine R&#252;ckmeldungen zur Pr&#252;fung wurden elektronisch erfasst und zusammen mit den Antwortb&#246;gen dem IML zur Auswertung zugef&#252;hrt. Neben den g&#228;ngigen Testg&#252;tekriterien wurde zus&#228;tzlich eine detaillierte statistische Auswertung jedes Items vorgenommen. Aus testpsychologischer Sicht auff&#228;llige Items <TextLink reference="12"></TextLink> wurden identifiziert und nach R&#252;cksprache mit den jeweiligen Themenblockverantwortlichen, wo angebracht, aus der Pr&#252;fungsauswertung entfernt. In Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> ist exemplarisch eine Itemanalyse dargestellt <TextLink reference="12"></TextLink>.</Pgraph>
      <Pgraph>Die Itemanalysen der Pr&#252;fungen 2006 wurden den sieben Themenblockverantwortlichen, vor dem Aufgebot Pr&#252;fungsfragen f&#252;r die Pr&#252;fungen 2007 zu formulieren, schriftlich zur Verf&#252;gung gestellt. Drei Themenblockverantwortliche machten zudem Gebrauch vom zus&#228;tzlichen Angebot einer angeleiteten Besprechung der Itemanalyse mit einem Pr&#252;fungsexperten, die sie als &#252;beraus erkenntnisreich und wertvoll f&#252;r die &#220;berarbeitung des eigenen Unterrichtes und der zugeh&#246;rigen Items empfanden. Deshalb wurde beschlossen, die aus den Pr&#252;fungsauswertungen von 2007 resultierenden Itemanalysen mit allen Themenblockverantwortlichen des dritten Studienjahres in Form angeleiteter Besprechungen zu diskutieren. Einzig mit einem Themenblockverantwortlichen konnte dies im vorgesehenen Zeitfenster nicht durchgef&#252;hrt werden. Je nach Anzahl zu besprechender Items dauerten die Gespr&#228;che zwischen 45 und 90 Minuten. Die Besprechungsergebnisse wurden von den Themenblockverantwortlichen an die am Themenblock beteiligten Dozierenden weitergemeldet. 2008 wurden wiederum beide Pr&#252;fungen mit 220 (MC1) resp. 219 (MC2) Kandidaten durchgef&#252;hrt und auf gleiche Art ausgewertet. </Pgraph>
      <Pgraph>Um den Einfluss der angeleiteten Itemanalysebesprechungen von 2007 auf die Qualit&#228;t nachfolgender Pr&#252;fungen zu untersuchen, wurden die Pr&#252;fungen von 2006 und 2008 anhand verschiedener Testg&#252;tekriterien miteinander verglichen.</Pgraph>
      <SubHeadline>Relevanzeinsch&#228;tzung</SubHeadline>
      <Pgraph>Um m&#246;gliche Ver&#228;nderungen in der Relevanz der Items zu pr&#252;fen, wurden aus jeder der vier Pr&#252;fungen je 15 Items nach dem Zufallsprinzip ausgew&#228;hlt und 22 internistischen Ober&#228;rzten des Universit&#228;tsspitals Z&#252;rich (nachfolgend Rater genannt) unabh&#228;ngig von einander vorgelegt. Die Anzahl von 60 Items erschien als ad&#228;quater Kompromiss zwischen der Verwendung einer hinreichend grossen Stichprobe einerseits und der zeitlichen Zumutbarkeit gegen&#252;ber den Ratern andererseits. Die Rater waren bez&#252;glich Fragestellung und Itemherkunft verblindet. Um eine m&#246;glichst einheitliche Vorstellung des Relevanzbegriffs sicherzustellen, wurden die Rater gebeten, die Items jeweils unter Ber&#252;cksichtigung folgender drei Teilaspekte einzusch&#228;tzen: </Pgraph>
      <Pgraph>
        <UnorderedList>
          <ListItem level="1">Exemplarit&#228;t: Wie gut pr&#252;ft die Frage Wissen ab, das grundlegende medizinische Prinzipien erl&#228;utert und auf dem im weiteren Studium aufgebaut werden kann&#63;</ListItem>
          <ListItem level="1">Frequenz: Wie h&#228;ufig kommt das in der Frage gepr&#252;fte Wissen im klinischen Alltag vor&#63; </ListItem>
          <ListItem level="1">Effektst&#228;rke: Wie hoch ist die Bedeutsamkeit des gepr&#252;ften Wissens in Bezug auf eventuelle Nachteile &#47; Sch&#228;den bei Patienten, die durch dessen Nichtwissen entstehen k&#246;nnen&#63; </ListItem>
        </UnorderedList>
      </Pgraph>
      <Pgraph>F&#252;r die Einsch&#228;tzung wurde eine 4-stufige Skala mit den Kategorien (1&#61;relevant, 2&#61;eher relevant, 3&#61;eher irrelevant, 4&#61;irrelevant und NB&#61;nicht beurteilbar) verwendet. </Pgraph>
      <SubHeadline>Taxonomieinstufung</SubHeadline>
      <Pgraph>Zur Untersuchung der taxonomischen Stufen, wurde die gleiche Itemstichprobe von f&#252;nf Medizindidaktikern auf einer 3-stufigen Skala (1&#61; Kennen, 2&#61; Verstehen und 3&#61; Anwenden und Beurteilen) eingesch&#228;tzt <TextLink reference="7"></TextLink>. Auch hier waren die Rater bez&#252;glich Fragestellung und Itemherkunft verblindet.</Pgraph>
      <SubHeadline>Psychometrische Kennwerte</SubHeadline>
      <Pgraph>F&#252;r alle vier Pr&#252;fungen wurden folgende psychometrische Kennwerte ermittelt und miteinander verglichen: Anzahl der Items, Mittelwert der Itemschwierigkeiten, Mittelwert der Itemtrennsch&#228;rfen, Reliabilit&#228;t und Standardmessfehler (auf 100 Items gerechnet), Mittelwert der Kandidatenscores mit Standardabweichung, Anzahl zur Elimination vorgeschlagene Items und effektiv eliminierte Items. </Pgraph>
      <SubHeadline>Statistische Auswertung</SubHeadline>
      <Pgraph>Die Pr&#252;fungsauswertung wurde durch das IML Bern mit einer eigens daf&#252;r entwickelten Testauswertungssoftware vorgenommen. Bei der Relevanzeinsch&#228;tzung wurden die relativen H&#228;ufigkeiten der 4 Relevanzkategorien und der Median der Bewertungen pro Item ermittelt und Unterschiede in der zentralen Tendenz mittels Mann-Whitney-U Test verglichen. Bei der taxonomischen Einstufung wurde pro Item der am h&#228;ufigsten gew&#228;hlte Wert (Modalwert) ermittelt. Unterschiede bez&#252;glich der Streuung der Kandidatenscores wurden mittels F-Test &#252;berpr&#252;ft, Unterschiede bez&#252;glich deren prozentualem Mittelwert mittels t-Test f&#252;r unabh&#228;ngige Stichproben. Mit dem gleichen Test wurden auch Unterschiede bez&#252;glich der mittleren Schwierigkeitskoeffizienten und Trennsch&#228;rfekoeffizienten der Items &#252;berpr&#252;ft (Trennsch&#228;rfen nach Fisher-Z-Transformation). Dies erschien angezeigt, da weniger als 15&#37; aller Items der Pr&#252;fungen von 2006 zu Verankerungszwecken (Konstanthalten der Bestehensanforderungen) in den Pr&#252;fungen 2008 wieder verwendet wurden. Die statistische Auswertung erfolgte mit SPSS, Version 15.0. </Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline>
      <Pgraph>Bei der Auswertung der Relevanzeinsch&#228;tzung wurde ein Item ausgeschlossen, da es von 12 (55&#37;) der Rater als nicht beurteilbar eingesch&#228;tzt wurde und somit f&#252;r dieses Item nur wenige Bewertungen vorlagen. Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zeigt die relativen H&#228;ufigkeiten der Relevanzeinsch&#228;tzungen der 59 Items von 2006 und 2008, die sich in der zentralen Tendenz signifikant unterscheiden (Mann-Whitney-U Test, p&#60;0.01). </Pgraph>
      <Pgraph>In Tabelle 2 <ImgLink imgNo="2" imgType="table"/> sind die Mediane der Relevanzeinsch&#228;tzungen dargestellt, wie sie sich aus den Bewertungen der 59 Items (29 Items von 2006; 30 Items von 2008) durch die 22 Rater ergeben. Der Anteil an Items, die im Median als &#8222;relevant&#8220; (&#61;1) eingesch&#228;tzt wurden, ist in den Pr&#252;fungen von 2008 h&#246;her als in denjenigen von 2006. Dieser Unterschied ist jedoch statistisch nicht signifikant.</Pgraph>
      <Pgraph>Die Ergebnisse der taxonomischen Einstufung (Modalwerte) der 60 Items durch die f&#252;nf Medizindidaktiker sind in Tabelle 3 <ImgLink imgNo="3" imgType="table"/> dargestellt. Sowohl in den Pr&#252;fungen von 2006 als auch von 2008 wurden kumuliert 40&#37; der Items den h&#246;heren Taxonomiestufen &#8222;Verstehen&#8220; sowie &#8222;Anwenden und Beurteilen&#8220; zugeordnet. Hier ist keine nennenswerte Ver&#228;nderung erkennbar, weshalb auf eine statistische &#220;berpr&#252;fung verzichtet wurde.</Pgraph>
      <Pgraph>Die f&#252;r die vier Pr&#252;fungen 2006 und 2008 ermittelten psychometrischen Kennwerte finden sich in Tabelle 4 <ImgLink imgNo="4" imgType="table"/>. Bei der Pr&#252;fung MC2 wurden die Fragen 2008 nicht besser beantwortet als 2006. Bei der Pr&#252;fung MC1 resultierte 2008 ein tendenziell h&#246;herer mittlerer P-Wert (P-Differenz von 3.4&#37;) und damit verbunden ein signifikant h&#246;herer prozentualer Mittelwert der Kandidatenscores (t&#61;-3.64; p&#60;.001). Die zur Konstanthaltung der Bestehensanforderung durchgef&#252;hrte Verankerung nach dem Rasch-Modell zeigte aber auf, dass diese Differenz weitgehend durch eine etwas leistungsst&#228;rkere Kandidatenkohorte erkl&#228;rt werden kann. Die Streubreite der Kandidatenscores (Standardabweichung in &#37;) nahm in beiden Pr&#252;fungen bei gleichbleibendem Standardmessfehler signifikant zu um 1.81&#37; resp. 1.61&#37; (F&#61;10.09; p&#61;.002 resp. F&#61;6.48; p&#61;.01). Ebenfalls stiegen in beiden Pr&#252;fungen die mittleren Trennsch&#228;rfen hoch signifikant an, in der MC1 von 0.17 auf 0.22 (t&#61;-3.71; p&#60;.001), in der MC2 von 0.15 auf 0.21 (t&#61;-3.90; p&#60;001). Damit verbunden stiegen auch die Reliabilit&#228;tskoeffizienten standardisiert auf eine L&#228;nge von 100 Items sehr deutlich von 0.79 auf 0.86 resp. von 0.77 auf 0.85 an. Parallel dazu verringerte sich die Anzahl eliminierter Items von 14 auf 10 (MC1) resp. von 16 auf 7 (MC2). Die Berechnungen mittels Spearman-Brown Formel <TextLink reference="11"></TextLink> ergaben, dass die Pr&#252;fung MC1 von 2006 um 63 und die MC2 um 57 Items h&#228;tte verl&#228;ngert werden m&#252;ssen, um die Reliabilit&#228;ten der Pr&#252;fungen von 2008 zu erzielen. Dies entspricht einem Verl&#228;ngerungsfaktor von 1.6.</Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="Diskussion und Schlussfolgerung">
      <MainHeadline>Diskussion und Schlussfolgerung</MainHeadline>
      <Pgraph>Mit Bezug auf die Fragestellung, welchen Einfluss die angeleiteten Itemanalysebesprechungen mit einem Pr&#252;fungsexperten auf nachfolgende Pr&#252;fungen haben, sind folgende Beobachtungen von Bedeutung. Wie eingangs beschrieben, setzt sich die Validit&#228;t aus verschiedenen Aspekten zusammen. Es konnte zum einen gezeigt werden, dass der Anteil als &#8222;relevant&#8220; eingesch&#228;tzter Items in den Pr&#252;fungen 2008 h&#246;her war als in den Pr&#252;fungen 2006. Allerdings fiel die Ver&#228;nderung der Relevanzeinsch&#228;tzung weniger deutlich aus als erwartet. Dies k&#246;nnte damit zusammenh&#228;ngen, dass unter dem Begriff &#8222;Relevanz&#8220; relativ heterogene Aspekte wie Exemplarit&#228;t, Frequenz und Effektst&#228;rke zusammengefasst wurden. So k&#246;nnte theoretisch ein Item zwar hoch-exemplarisch sein (d.h. auf grundlegende medizinische Prinzipien abzielen), zugleich aber eine weniger deutliche Effektst&#228;rke aufweisen (in dem Sinne, dass Nicht-Wissen Sch&#228;den an Patienten nach sich ziehen) und umgekehrt. M&#246;glicherweise w&#228;ren Relevanzunterschiede deutlicher zu Tage getreten, wenn die genannten Aspekte getrennt bewertet worden w&#228;ren.</Pgraph>
      <Pgraph>Die taxonomische Einstufung der Items als weiteres Kriterium der Validit&#228;t ergab keinen nennenswerten Unterschied zwischen den Pr&#252;fungen 2006 und 2008. Der Anteil an Wissensfragen &#252;berwog mit 60&#37; in beiden untersuchten Pr&#252;fungen. Dies ist als durchaus ad&#228;quat zu betrachten unter der &#220;berlegung, dass im dritten Studienjahr die Vermittlung von Grundlagen der klinischen Medizin im Vordergrund steht. 40&#37; der untersuchten Fragen wurden den h&#246;heren Taxonomiestufen &#8222;Verstehen&#8220; sowie &#8222;Anwenden und Beurteilen&#8220; zugeordnet. Dies belegt, dass es sich bei den untersuchten Pr&#252;fungen aber nicht um reine Wissenspr&#252;fungen handelte.</Pgraph>
      <Pgraph>Eine zuverl&#228;ssige Leistungsdifferenzierung ist dann m&#246;glich, wenn die Kandidatenscores bei hoher Reliabilit&#228;t der Pr&#252;fung breit streuen. Unter diesem Gesichtspunkt sind die von 2006 zu 2008 erfolgten Zunahmen der Standardabweichungen, Trennsch&#228;rfen und Reliabilit&#228;tskoeffizienten allesamt erw&#252;nschte Effekte. Sowohl bei der Trennsch&#228;rfe als auch bei der Reliabilit&#228;t wurde 2008 der international geltende Zielwertbereich von <Mark3>&#62;</Mark3> 0.2 (Trennsch&#228;rfe) und <Mark3>&#62;</Mark3> 0.8 (Reliabilit&#228;t) erreicht. Dass zur Erzielung der beobachteten Reliabilit&#228;tsanstiege eine 1.6-fache Pr&#252;fungsverl&#228;ngerung erforderlich gewesen w&#228;re, verdeutlicht deren praktische, &#246;konomische Bedeutung. Ebenfalls sehr positiv zu werten ist der R&#252;ckgang der Zahl eliminierter Items, der vor allem in der MC2 mit neun Items sehr deutlich ausfiel, bedeutet doch der Ausschluss jedes Items potentiell einen Verlust hinsichtlich inhaltlicher Validit&#228;t der Pr&#252;fung <TextLink reference="11"></TextLink>. </Pgraph>
      <Pgraph>Zusammengefasst wurde eine deutliche positive Ver&#228;nderung der Reliabilit&#228;t festgestellt, sowie ein tendenzieller Anstieg bei einem Teilaspekt der inhaltlichen Validit&#228;t. Diese Befunde sollten bez&#252;glich ihrer Nachhaltigkeit weiter untersucht werden. </Pgraph>
      <Pgraph>Die vorliegende Untersuchung wurde als offene Studie ohne Kontrollgruppe angelegt, weil die Dozierenden mit grosser Wahrscheinlichkeit von den angeleiteten Itemanalysebesprechungen erfahren h&#228;tten, da sie meist in mehreren Themenbl&#246;cken unterrichteten. Da sich die Rahmenbedingungen des Curriculums und der Pr&#252;fungen im beobachteten Zeitraum nicht ge&#228;ndert haben, liegt nahe, dass die festgestellten Validit&#228;ts- und Reliabilit&#228;tsverbesserungen wesentlich auf die 2007 fl&#228;chendeckend durchgef&#252;hrten Itemanalysebesprechungen zur&#252;ckzuf&#252;hren sind. Dass die R&#252;ckmeldungen an Dozierende vorzugsweise in Form angeleiteter Itemanalysebesprechungen mit Pr&#252;fungsexperten geschehen sollten, wird durch die Feststellung untermauert, dass statistische Pr&#252;fungsdaten f&#252;r Dozierende oftmals schwierig zu verstehen und richtig zu interpretieren sind <TextLink reference="8"></TextLink>.</Pgraph>
      <Pgraph>Im Einklang mit den Ergebnissen anderer Studien zur Qualit&#228;tsverbesserung von MC Pr&#252;fungen <TextLink reference="9"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="16"></TextLink> l&#228;sst sich festhalten: Von Pr&#252;fungsexperten angeleitete Itemanalysebesprechungen mit Dozierenden stellen ein wertvolles Instrument zur Qualit&#228;tssteigerung von Pr&#252;fungen dar. Auch liefern sie wertvolle Hinweise zum Erfolg des Unterrichtes und helfen Dozierenden und Curriculumsentwicklern bei der Evaluation und Optimierung des Curriculums, indem sie die kontinuierliche &#220;berpr&#252;fung von Lern- und Pr&#252;fungszielen in Bezug auf deren Angemessenheit und Realisierbarkeit gew&#228;hrleisten. Sie sind trotz des zu Beginn notwendigen Aufwandes lohnenswert, da sie Einsparungen bei der Anzahl zu entwickelnder Items bringen und dadurch in der Folge die Dozierenden wieder entlasten.</Pgraph>
    </TextBlock>
    <TextBlock linked="yes" name="Danksagung">
      <MainHeadline>Danksagung</MainHeadline>
      <Pgraph>Die Autoren danken den Ober&#228;rztinnen und Ober&#228;rzten der Klinik und Poliklinik f&#252;r Innere Medizin am Universit&#228;tsspital Z&#252;rich sowie den f&#252;nf Medizindidaktikern in Bern und Z&#252;rich f&#252;r ihre Beitr&#228;ge zum Gelingen dieses Artikels. </Pgraph>
    </TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Bortz J</RefAuthor>
        <RefAuthor>D&#246;ring N</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2002</RefYear>
        <RefBookTitle>Forschungsmethoden und Evaluation f&#252;r Human- und Sozialwissenschaftler</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Bortz J, D&#246;ring N. Forschungsmethoden und Evaluation f&#252;r Human- und Sozialwissenschaftler. 3. Auflage. Berlin: Springer-Verlag; 2002</RefTotal>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Downing SM</RefAuthor>
        <RefTitle>Reliability: on the reproducibility of assessment data</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1006-1012</RefPage>
        <RefTotal>Downing SM. Reliability: on the reproducibility of assessment data. Med Educ. 2004;38(9):1006-1012. DOI:10.1111&#47;j.1365-2929.2004.01932.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2929.2004.01932.x</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Downing SM</RefAuthor>
        <RefTitle>Threats to the validity of clinical teaching assessments: what about rater error&#63; Med Educ.</RefTitle>
        <RefYear>2005</RefYear>
        <RefTotal>Downing SM. Threats to the validity of clinical teaching assessments: what about rater error&#63; Med Educ. 2005;39(4):353-355. DOI:10.1111&#47;j.1365-2929.2005.02138.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2929.2005.02138.x</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Downing SM</RefAuthor>
        <RefTitle>Validity: On the meaningful interpretation of assessment data</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>830-837</RefPage>
        <RefTotal>Downing SM. Validity: On the meaningful interpretation of assessment data. Med Educ. 2003;37(9):830-837. DOI:10.1046&#47;j.1365-2923.2003.01594.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1046&#47;j.1365-2923.2003.01594.x</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Downing SM</RefAuthor>
        <RefAuthor>Haladyna TM</RefAuthor>
        <RefTitle>Validity threats: overcoming interference with proposed interpretations of assessment data</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>327-333</RefPage>
        <RefTotal>Downing SM, Haladyna TM. Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ. 2004;38(3):327-333. DOI:10.1046&#47;j.1365-2923.2004.01777.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1046&#47;j.1365-2923.2004.01777.x</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Georg W</RefAuthor>
        <RefAuthor>Schubert S</RefAuthor>
        <RefAuthor>Scheffner D</RefAuthor>
        <RefAuthor>Burger W</RefAuthor>
        <RefTitle>F&#252;nf Jahre Pr&#252;fungen im Reformstudiengang Medizin an der Charit&#233; - Universit&#228;tsmedizin Berlin</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefArticleNo>Doc48</RefArticleNo>
        <RefTotal>Georg W, Schubert S, Scheffner D, Burger W. F&#252;nf Jahre Pr&#252;fungen im Reformstudiengang Medizin an der Charit&#233; - Universit&#228;tsmedizin Berlin. GMS Z Med Ausbild 2006;23(3):Doc48. Zug&#228;nglich unter: http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000267.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000267.shtml</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Guilbert JJ</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1998</RefYear>
        <RefBookTitle>Educational handbook for health personnel</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Guilbert JJ. Educational handbook for health personnel. WHO Offset Publication No. 35. 6. Edition. Geneva: World Health Organization; 1998</RefTotal>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Joseph MR</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Practices, issues, and trends in student test score reporting</RefBookTitle>
        <RefPage>677-710</RefPage>
        <RefTotal>Joseph MR. Practices, issues, and trends in student test score reporting. In: Downing SM, Haladyna TM, editors. Handbook of test development. 1. Edition, New York: Routledge; 2006. 677-710</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Jozefowicz RF</RefAuthor>
        <RefAuthor>Koeppen BM</RefAuthor>
        <RefAuthor>Case S</RefAuthor>
        <RefAuthor>Galbraith R</RefAuthor>
        <RefAuthor>Swanson D</RefAuthor>
        <RefAuthor>Glew RH</RefAuthor>
        <RefTitle>The quality of in-house medical school examinations</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>156-161</RefPage>
        <RefTotal>Jozefowicz RF, Koeppen BM, Case S, Galbraith R, Swanson D, Glew RH. The quality of in-house medical school examinations. Acad Med. 2002;77(2):156-161. DOI:10.1097&#47;00001888-200202000-00016</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-200202000-00016</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Krebs R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2004</RefYear>
        <RefBookTitle>Anleitung zur Erstellung von MC-Fragen und MC-Pr&#252;fungen f&#252;r die &#196;rztliche Ausbildung</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Krebs R. Anleitung zur Erstellung von MC-Fragen und MC-Pr&#252;fungen f&#252;r die &#196;rztliche Ausbildung. Bern: IML&#47;AAE; 2004. Zug&#228;nglich unter: http:&#47;&#47;www.fnl.ch&#47;LOBs&#47;LOs&#95;Public&#47;MC&#95;Anleitung.pdf</RefTotal>
        <RefLink>http:&#47;&#47;www.fnl.ch&#47;LOBs&#47;LOs&#95;Public&#47;MC&#95;Anleitung.pdf</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Lienert GA</RefAuthor>
        <RefAuthor>Raatz U</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1994</RefYear>
        <RefBookTitle>Testaufbau und Testanalyse</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Lienert GA, Raatz U. Testaufbau und Testanalyse. 5. Auflage. Weinheim: Beltz; 1994</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Schellberg D</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Grundlegende quantitative Analysen medizinischer Pr&#252;fungen</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefArticleNo>Doc53</RefArticleNo>
        <RefTotal>M&#246;ltner A, Schellberg D, J&#252;nger J. Grundlegende quantitative Analysen medizinischer Pr&#252;fungen. GMS Z Med Ausbild. 2006;23(3):Doc53. Zug&#228;nglich unter: http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Rotthoff T</RefAuthor>
        <RefAuthor>Soboll S</RefAuthor>
        <RefTitle>Qualit&#228;tsverbesserung von MC Fragen: Ein exemplarischer Weg f&#252;r eine medizinische Fakult&#228;t</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefArticleNo>Doc45</RefArticleNo>
        <RefTotal>Rotthoff T, Soboll S. Qualit&#228;tsverbesserung von MC Fragen: Ein exemplarischer Weg f&#252;r eine medizinische Fakult&#228;t. GMS Z Med Ausbild. 2006;23(3):Doc45. Zug&#228;nglich unter: http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000264.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000264.shtml</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Tukey JW</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1977</RefYear>
        <RefBookTitle>Exploratory Data Analysis</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Tukey JW. Exploratory Data Analysis. Reading, MA: Addison-Wesley, 1977</RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Ware J</RefAuthor>
        <RefAuthor>Vik T</RefAuthor>
        <RefTitle>Quality assurance of item writing: During the introduction of multiple choice questions in medicine for high stakes examinations</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>238-243</RefPage>
        <RefTotal>Ware J, Vik T. Quality assurance of item writing: During the introduction of multiple choice questions in medicine for high stakes examinations. Med Teach. 2009;31(3):238-243. DOI:10.1080&#47;01421590802155597</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;01421590802155597</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Weih M</RefAuthor>
        <RefAuthor>Harms D</RefAuthor>
        <RefAuthor>Rauch C</RefAuthor>
        <RefAuthor>Segarra L</RefAuthor>
        <RefAuthor>Reulbach U</RefAuthor>
        <RefAuthor>Degirmenci U</RefAuthor>
        <RefAuthor>de Zwaan M</RefAuthor>
        <RefAuthor>Schwab S</RefAuthor>
        <RefAuthor>Kornhuber J</RefAuthor>
        <RefTitle>Qualit&#228;tsverbesserung von Multiple-Choice-Pr&#252;fungen in Psychiatrie, Psychosomatik, Psychotherapie und Neurologie</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Nervenarzt</RefJournal>
        <RefPage>324-328</RefPage>
        <RefTotal>Weih M, Harms D, Rauch C, Segarra L, Reulbach U, Degirmenci U, de Zwaan M, Schwab S, Kornhuber J. Qualit&#228;tsverbesserung von Multiple-Choice-Pr&#252;fungen in Psychiatrie, Psychosomatik, Psychotherapie und Neurologie. Nervenarzt. 2009;80(3):324-328. DOI:10.1007&#47;s00115-008-2618-8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s00115-008-2618-8</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 1: Vergleich der Relevanzeinsch&#228;tzung (relative H&#228;ufigkeit der Einstufungen von 59 Items durch 22 Rater)</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 2: Vergleich der Relevanzeinsch&#228;tzung (Median der Einstufungen durch 22 Rater pro Item)</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID>3</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 3: Vergleich der taxonomischen Einstufung (Modalwert der Einstufungen durch f&#252;nf Rater pro Item)</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID>4</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Tabelle 4: Psychometrische Kennwerte der vier Semesterpr&#252;fungen</Mark1>
            </Pgraph>
          </Caption>
        </Table>
        <NoOfTables>4</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="511" width="924">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption>
            <Pgraph>
              <Mark1>Abbildung 1: Beispiel einer Itemanalyse</Mark1>
            </Pgraph>
          </Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>
