<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001043</Identifier>
    <IdentifierDoi>10.3205/zma001043</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0010437</IdentifierUrn>
    <ArticleType language="en">article</ArticleType>
    <ArticleType language="de">Artikel</ArticleType>
    <TitleGroup>
      <Title language="en">An algorithm for calculating exam quality as a basis for performance-based allocation of funds at medical schools</Title>
      <TitleTranslated language="de">Ein Algorithmus zur Berechnung von Klausurqualit&#228;t als Bemessungsgrundlage f&#252;r LOM-Lehre</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Kirschstein</Lastname>
          <LastnameHeading>Kirschstein</LastnameHeading>
          <Firstname>Timo</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, &#34;core group&#34; zur Verbesserung der Lehre, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Wolters</Lastname>
          <LastnameHeading>Wolters</LastnameHeading>
          <Firstname>Alexander</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, &#34;core group&#34; zur Verbesserung der Lehre, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Lenz</Lastname>
          <LastnameHeading>Lenz</LastnameHeading>
          <Firstname>Jan-Hendrik</Firstname>
          <Initials>JH</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, &#34;core group&#34; zur Verbesserung der Lehre, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Fr&#246;hlich</Lastname>
          <LastnameHeading>Fr&#246;hlich</LastnameHeading>
          <Firstname>Susanne</Firstname>
          <Initials>S</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, &#34;core group&#34; zur Verbesserung der Lehre, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hakenberg</Lastname>
          <LastnameHeading>Hakenberg</LastnameHeading>
          <Firstname>Oliver</Firstname>
          <Initials>O</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, &#34;core group&#34; zur Verbesserung der Lehre, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kundt</Lastname>
          <LastnameHeading>Kundt</LastnameHeading>
          <Firstname>G&#252;nther</Firstname>
          <Initials>G</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, Institut f&#252;r Biostatistik und Informatik in Medizin und Alternsforschung, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Darm&#252;ntzel</Lastname>
          <LastnameHeading>Darm&#252;ntzel</LastnameHeading>
          <Firstname>Martin</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, Studiendekanat, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hecker</Lastname>
          <LastnameHeading>Hecker</LastnameHeading>
          <Firstname>Michael</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, Klinik und Poliklinik f&#252;r Neurologie, Zentrum f&#252;r Nervenheilkunde, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Altiner</Lastname>
          <LastnameHeading>Altiner</LastnameHeading>
          <Firstname>Attila</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsmedizin Rostock, Studiendekanat, Rostock, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>M&#252;ller-Hilke</Lastname>
          <LastnameHeading>M&#252;ller-Hilke</LastnameHeading>
          <Firstname>Brigitte</Firstname>
          <Initials>B</Initials>
        </PersonNames>
        <Address>Universit&#228;tsmedizin Rostock, Institut f&#252;r Immunologie, Schillingallee 69, D-18057 Rostock, Deutschland, Tel.: &#43;49 (0)381&#47;4945-883, Fax: &#43;49 (0)381&#47;4945-882<Affiliation>Universit&#228;tsmedizin Rostock, Institut f&#252;r Immunologie, Rostock, Deutschland</Affiliation></Address>
        <Email>brigitte.mueller-hilke&#64;med.uni-rostock.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">exam quality</Keyword>
      <Keyword language="en">item difficulty</Keyword>
      <Keyword language="en">discrimination</Keyword>
      <Keyword language="en">reliability</Keyword>
      <Keyword language="en">performance based allocation of funds in teaching</Keyword>
      <Keyword language="de">Pr&#252;fungsqualit&#228;t</Keyword>
      <Keyword language="de">Aufgabenschwierigkeit</Keyword>
      <Keyword language="de">Trennsch&#228;rfe</Keyword>
      <Keyword language="de">Reliabilit&#228;t</Keyword>
      <Keyword language="de">LOM Lehre</Keyword>
      <SectionHeading language="en">Quality of Assessment</SectionHeading>
      <SectionHeading language="de">Qualit&#228;t von Pr&#252;fungen</SectionHeading>
    </SubjectGroup>
    <DateReceived>20150221</DateReceived>
    <DateRevised>20160202</DateRevised>
    <DateAccepted>20160304</DateAccepted>
    <DatePublishedList>
      
    <DatePublished>20160517</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>33</Volume>
        <Issue>3</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>44</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Zielsetzung:</Mark1> Mit der Novellierung der &#196;AppO im Jahr 2002 und der Einf&#252;hrung benoteter Leistungsnachweise hat die Bedeutung schriftlicher Pr&#252;fungen im klinischen Abschnitt des Medizinstudiums deutlich zugenommen. Allerdings werden die Mindestanforderungen an die Qualit&#228;t von Pr&#252;fungen mitunter nur schwer erreicht. Mit der Aufnahme von Pr&#252;fungsqualit&#228;t in den Kriterienkatalog zur Vergabe von LOM (Leistungsorientierter Mittelvergabe) k&#246;nnte die Aufmerksamkeit der Lehrenden gelenkt und allein dadurch die Qualit&#228;t der Pr&#252;fungen verbessert und verstetigt werden. Derzeit mangelt es jedoch an geeigneten Bemessungsgrundlagen.</Pgraph><Pgraph><Mark1>Methoden:</Mark1> Im Fr&#252;hjahr 2014 wurde die &#8222;core group&#8220; zur Verbesserung der Lehre an der Universit&#228;tsmedizin Rostock vom Studiendekan beauftragt, den der Verteilung von LOM Lehre zugrunde liegenden Kriterienkatalog zu &#252;berarbeiten. In diesem Zusammenhang wurde zun&#228;chst anhand von multiple choice-Klausurergebnissen ein Algorithmus entwickelt, der auf Aufgabenschwierigkeit, Trennsch&#228;rfe, Reliabilit&#228;t und Notenspiegel basiert und damit die Qualit&#228;t der h&#228;ufigsten Pr&#252;fungsform im Studium der Humanmedizin quantitativ abbildet.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Dieser Algorithmus wurde anschlie&#223;end auch auf Klausuren mit offenen Fragen sowie auf den OSCE &#252;bertragen. Mit seiner Hilfe l&#228;sst sich die Pr&#252;fungsqualit&#228;t in den einzelnen F&#228;chern berechnen und &#8211; vergleichbar mit Impaktpunkten und Drittmitteleinwerbungen - in eine intrafakult&#228;re Rangfolge &#252;berf&#252;hren.</Pgraph><Pgraph><Mark1>Schlussfolgerung: </Mark1>Dieser Algorithmus ist auf alle Pr&#252;fungsformate anwendbar, bei denen Aufgabenschwierigkeit, Trennsch&#228;rfe, Reliabilit&#228;t und Notenspiegel erfasst werden. Auch wenn eine weitere wichtige Kenngr&#246;&#223;e, n&#228;mlich die Validit&#228;t einer Pr&#252;fung hier nicht ber&#252;cksichtigt wird, so ist der vorgestellte Algorithmus als Bemessungsgrundlage f&#252;r LOM durchaus geeignet.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Objective: </Mark1>The amendment of the Medical Licensing Act (&#196;AppO) in Germany in 2002 led to the introduction of graded assessments in the clinical part of medical studies. This, in turn, lent new weight to the importance of written tests, even though the minimum requirements for exam quality are sometimes difficult to reach. Introducing exam quality as a criterion for the award of performance-based allocation of funds is expected to steer the attention of faculty members towards more quality and perpetuate higher standards. However, at present there is a lack of suitable algorithms for calculating exam quality.</Pgraph><Pgraph><Mark1>Methods:</Mark1> In the spring of 2014, the students&#8216; dean commissioned the &#8222;core group&#8220; for curricular improvement at the University Medical Center in Rostock to revise the criteria for the allocation of performance-based funds for teaching. In a first approach, we developed an algorithm that was based on the results of the most common type of exam in medical education, multiple choice tests. It included item difficulty and discrimination, reliability as well as the distribution of grades achieved. </Pgraph><Pgraph><Mark1>Results: </Mark1>This algorithm quantitatively describes exam quality of multiple choice exams. However, it can also be applied to exams involving short assay questions and the OSCE. It thus allows for the quantitation of exam quality in the various subjects and &#8211; in analogy to impact factors and third party grants &#8211; a ranking among faculty.  </Pgraph><Pgraph><Mark1>Conclusion: </Mark1>Our algorithm can be applied to all test formats in which item difficulty, the discriminatory power of the individual items, reliability of the exam and the distribution of grades are measured. Even though the content validity of an exam is not considered here, we believe that our algorithm is suitable as a general basis for performance-based allocation of funds.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>&#8222;Assessment drives learning&#8220;. For the last 30 years, it has amply been analyzed and documented that we guide the learning styles and the academic performance of our students by the way we assess their knowledge <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. In 2002, the amendment of the German Medical Licensing Act led to graded assessments in all clinical subjects and in an increasing number of interdisciplinary areas &#91;<Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html</Hyperlink>&#93;. As a general rule, these graded assessments are based on multiple choice (MC) tests.</Pgraph><Pgraph>This increase in graded assessments not only posed a logistic challenge for the faculties, but also offered the possibility to guide the students&#8217; learning behavior and to create the conditions  for improved performance in the second state exam. The latter though required that the faculty specific exams are of high quality. To help ensure this quality, the German Society for Medical Education (GMA) together with the German Association of Medical Faculties (MFT) published recommendations for the administration of high-quality assessments <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. These recommendations also provide quantifiable parameters like item difficulty and discrimination as well as the reliability of the exam as a whole. In general, the quantification of exam quality should be objective, reliable and valid. While objectivity and reliability can readily be quantified, validity can at best be estimated. </Pgraph><Pgraph>To meet the logistic requirements for the many written exams, the medical faculty of Rostock in 2009 implemented an electronic item management system, the use of which is voluntary yet accepted by almost all clinical departments. Ever since there is transparency on the results of all exams and those responsible for the exams obtain detailed feed-back on passing-scores, distribution of scores and grades achieved, item difficulty and discriminatory power of each item. Nonetheless, little has changed for the faculty wide assessments and not meeting the quality standards did not necessarily lead to noticeable efforts in improving MC exam quality. In order to direct the faculty&#8217;s attention towards higher exam quality, we here decided to use exam quality as a criterion for calculating performance-based allocation of funds. However, in order to be accepted by the faculty and to lead to the desired effects, this calculation needed to be reproducible and transparent <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>. Against this background, we here designed an algorithm to quantify exam quality as a basis on which to allocate performance based funds. </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>&#8222;Assessment drives learning&#8220;. Seit etwa 30 Jahren wird ausf&#252;hrlich untersucht und belegt, dass die Art und Weise wie wir pr&#252;fen, das Lernverhalten und den Lernerfolg der Studierenden ma&#223;geblich beeinflusst <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>. Mit der Novellierung der &#196;AppO 2002 wurde f&#252;r alle klinischen F&#228;cher und eine steigende Anzahl von Querschnittsbereichen ein benoteter Leistungsnachweis eingef&#252;hrt, der in aller Regel &#252;ber eine schriftliche multiple choice (MC) Klausur erbracht wird <Hyperlink href="http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html">http:&#47;&#47;www.gesetze-im-internet.de&#47;&#95;appro&#95;2002&#47;BJNR240500002.html</Hyperlink>&#93;. Damit ergab sich f&#252;r die Medizinischen Fakult&#228;ten zwar eine neue logistische Herausforderung - aber auch die Chance, &#252;ber diese Klausuren das Lernverhalten der Studierenden zu steuern und im Idealfall die Voraussetzung f&#252;r ein gutes Abschneiden im 2. Staatsexamen zu schaffen. Letzteres erfordert jedoch, dass die fakult&#228;tsinternen Pr&#252;fungen einem hohen Qualit&#228;tsstandard folgen. Hier erfahren die Fakult&#228;ten Unterst&#252;tzung in der Form von Leitlinien, die die Qualit&#228;tskriterien von schriftlichen und m&#252;ndlichen Pr&#252;fungen zusammenfassen <TextLink reference="6"></TextLink>, <TextLink reference="7"></TextLink>. Zu diesen Qualit&#228;tskriterien geh&#246;ren gut abbild- und berechenbare Parameter wie Schwierigkeit und Trennsch&#228;rfe einzelner Aufgaben sowie die Reliabilit&#228;t einer gesamten Pr&#252;fung. Die Erhebung der Qualit&#228;tskriterien f&#252;r die Erfassung von Pr&#252;fungsqualit&#228;t sollte objektivierbar, reliabel und valide sein. W&#228;hrend sich Objektivit&#228;t und Reliabilit&#228;t quantifizieren lassen, kann die Validit&#228;t allenfalls gesch&#228;tzt werden.</Pgraph><Pgraph>Um der logistischen Herausforderung durch die F&#252;lle der schriftlichen Klausuren zu begegnen, hat die Universit&#228;tsmedizin Rostock (UMR) 2009 ein elektronisches Pr&#252;fungsmanagement eingef&#252;hrt, das seit 2011 als freiwilliges Angebot fast fl&#228;chendeckend im klinischen Studienabschnitt eingesetzt wird. Seitdem erlangt das Studiendekanat Einblick in alle Pr&#252;fungsergebnisse, w&#228;hrend die Pr&#252;fungsverantwortlichen eine detaillierte R&#252;ckkopplung &#252;ber Bestehensgrenzen, Notenspiegel, Aufgabenschwierigkeiten, Antworth&#228;ufigkeiten und Trennsch&#228;rfen erhalten. Dennoch hat sich am Pr&#252;fungsverhalten der Einrichtungen wenig ver&#228;ndert und das Nichterreichen der angestrebten Qualit&#228;tsstandards m&#252;ndete nicht zwangsl&#228;ufig in einer wahrnehmbaren Bestrebung, schriftliche MC-Pr&#252;fungen qualitativ zu verbessern. Als aufmerksamkeitssteigernde Ma&#223;nahme soll deswegen die leistungsorientierte Mittelvergabe (LOM) genutzt werden. Um jedoch Akzeptanz innerhalb der Fakult&#228;t und messbare Verhaltens&#228;nderungen zu bewirken, m&#252;ssen die Kriterien f&#252;r die LOM nachvollziehbar und transparent sein <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>. Vor diesem Hintergrund wurde ein Algorithmus zur Quantifizierung von Pr&#252;fungsqualit&#228;t entwickelt, der als Bemessungsgrundlage f&#252;r LOM Lehre herangezogen werden kann. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><Pgraph>In the spring of 2014, the students&#8216; dean commissioned the &#8222;core group&#8220; for curricular improvement at the University Medical Center in Rostock to revise the criteria for the allocation of performance-based funds for teaching. As a first step towards the integration of exam quality, we assessed already published parameters for high quality exams like item difficulty, discrimination and reliability <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>. However, to additionally meet the observed asymmetry in the grading of some departments, we also calculated any deviation from the Gaussian distribution. Based on the results of all exams written in the clinical subjects taught in the summer term of 2014, we developed an algorithm that would include all four parameters equally and would allow for a ranking of the results. The basis for these calculations was a matrix showing for all students which item was answered correctly (1) or incorrectly (0) and what score was reached, respectively. These matrices were either generated out of the electronic item management system or were compiled manually. Even though type A&#47;5 options is the most common type of items used in our written exams, some departments within the faculty also use short assay questions and our fifth year is required to sit an OSCE.</Pgraph><Pgraph>In a first step, we calculated the proportion of items per exam or stations per OSCE that featured both, an item difficulty between 0.40 and 0.85 and a part-whole-corrected discrimination characterized by a Pearson correlation coefficient (r) of at least 0.2. Item difficulty was here defined as the percentages of students who had correctly answered an MC question of Type A or the mean scores of short assay questions or of OSCE stations, respectively. Chi-square tests to evaluate the distribution of grades achieved as well as Cronbach&#8217;s &#945; were calculated in Excel. Subsequent correlation analyses performed with GraphPad InStat (Version 3) yielded Spearman-Rank correlation coefficients (r) and the corresponding 95&#37;-confidence intervals (CI).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><Pgraph>Im Fr&#252;hjahr 2014 wurde die &#8222;core group&#8220; zur Verbesserung der Lehre an der UMR vom Studiendekan beauftragt, den der Verteilung von LOM Lehre zugrunde liegenden Kriterienkatalog zu &#252;berarbeiten. Um die Pr&#252;fungsqualit&#228;t als Kenngr&#246;&#223;e integrieren zu k&#246;nnen, wurden zun&#228;chst bereits publizierte Kriterien qualitativ hochwertiger Klausuren wie Aufgabenschwierigkeit, Trennsch&#228;rfe und Reliabilit&#228;t der einzelnen Fragenitems ber&#252;cksichtigt <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>. Um einer m&#246;glichen Schiefe bei der Notenvergabe zu begegnen, wurde zus&#228;tzlich die Normalverteilung der Noten als weiteres Kriterium zur Absch&#228;tzung von Pr&#252;fungsqualit&#228;t hinzugezogen. Anhand der Ergebnisse aller im Sommersemester 2014 an der UMR geschriebenen Klausuren im klinischen Studienabschnitt wurde ein Algorithmus entwickelt, mit dem alle einzuschlie&#223;enden Kriterien gleichwertig quantifiziert und die Summen in eine Rangfolge transformiert wurden. Grundlage f&#252;r die nachfolgenden Berechnungen waren aus den jeweiligen Pr&#252;fungen generierte Matrizes, die f&#252;r jeden Klausurteilnehmer die Information enthalten, welche Frage richtig (1) oder falsch (0) beantwortet bzw. wie viele Punkte bei einer bestimmten Aufgabe erzielt wurden. Diese Matrizes werden bei uns entweder aus dem elektronischen Pr&#252;fungsmanagement heraus generiert oder h&#228;ndisch erstellt. Der Hauptfragentyp bei unseren Klausuren ist Typ A mit 5 Antwortoptionen, wobei es auch F&#228;cher mit short essay questions und im 10. Semester einen OSCE gibt. </Pgraph><Pgraph>Zun&#228;chst wurde der Anteil der Fragen bzw. Pr&#252;fstationen ermittelt, die sowohl eine Aufgabenschwierigkeit zwischen 0,40 und 0,85 als auch eine part-whole-korrigierte Trennsch&#228;rfe von r&#61;0,2 (Pearson Korrelationskoeffizient) aufwiesen. Aufgabenschwierigkeit war dabei definiert als der Anteil der Studierenden, die eine MC-Frage vom Typ A zutreffend beantwortet haben bzw. die mittlere erreichte Punktzahl bei short essay questions und OSCE-Stationen. Der Chi-Quadrat-Test zur Berechnung der Verteilung der Noten sowie die Berechnung des jeweiligen Cronbach&#8217;s &#945; wurden in Excel durchgef&#252;hrt. F&#252;r die nachfolgenden Korrelationsanalysen wurden der Spearmans-Rangkorrelationskoeffizient (r) sowie das dazugeh&#246;rige 95&#37;-Konfidenzintervall (CI) in GraphPad InStat (Version 3) berechnet.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><Pgraph>We here used item difficulty, discrimination, reliability and grade distribution as objectively measurable quality criteria  for written tests. These four parameters were reduced to three by defining a proportion of &#8220;good&#8221; questions that showed both an item difficulty between 0.4 and 0.85 and a part-whole-corrected Pearson correlation coefficient (r) of at least 0.2. Parameters two and three were reliability (described as Cronbach&#8217;s &#945;) and the distribution of the grades (described as the P value resulting from a chi-squared distribution test). </Pgraph><Pgraph>The proportion of &#8220;good&#8221; questions ranged per definition between 0 and 1. A value of 1 resulted if all questions of an exam perfectly fulfilled both criteria, namely item difficulty and discrimination. Cronbach&#8217;s &#945; can theoretically be negative however, evaluating written exams usually results in values between 0 and 1. As with the first parameter, &#8220;good&#8221; item, higher values represent better results. Chi-squared distribution of grades measures any deviation from the Gaussian distribution and resulting P-values smaller than 0.05 deny Gaussian distribution. In fact, the smaller the P-value, the more skewed the distribution of grades was. Evaluating all results obtained in the summer term in 2014 resulted in P-values between 4,6x10<Superscript>-158</Superscript> and 0.99, respectively. Figure 1 <ImgLink imgNo="1" imgType="figure"/> presents two extreme grade distributions.</Pgraph><Pgraph>In order to weigh all three parameters equally, the resulting values describing the proportion of &#8220;good&#8221; questions, reliability (Cronbach&#8217;s &#945;) and the distribution of grades (P-value resulting from the chi-squared distribution test) were transformed onto a scale between 0 and 1 with the highest values being 1 and the lowest being 0. Subsequently, the transformed values describing the three parameters were added up and the results were ranked (see Table 1 <ImgLink imgNo="1" imgType="table"/>). Coefficients resulting from the ranks&#8217; correlation of the proportion of &#8220;good&#8221; items, reliability and distribution of grades were 0.660, 0.1229 and 0.1225, respectively.</Pgraph><Pgraph>Table 1 <ImgLink imgNo="1" imgType="table"/> summarizes the quality of 19 exams that were written at the University Medical Center of Rostock in the summer of 2014 and that were evaluated using the electronic item management system. These exams were MC featuring the item type A, only. Introducing exam quality as another criteria for the performance-based allocation of funds led to the manual compilation of matrices for those exams that were not yet managed via the electronic system so that item difficulty, discrimination, reliability and distribution of grades could eventually be evaluated for all exams. Thus, our algorithm was applied not only to exams including short assay questions but also to the OSCE.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><Pgraph>Als objektiv messbare Qualit&#228;tskriterien f&#252;r schriftliche Pr&#252;fungen wurden Aufgabenschwierigkeit, Trennsch&#228;rfe, Reliabilit&#228;t und Notenverteilung f&#252;r die Berechnung von Qualit&#228;t herangezogen. Diese vier Parameter wurden auf drei Messgr&#246;&#223;en reduziert, n&#228;mlich ein Anteil an &#8222;guten&#8220; Fragen (Aufgabenschwierigkeit zwischen 0,4 und 0,85 bei gleichzeitiger (korrigierter) Trennsch&#228;rfe von r&#61;0,2), die Reliabilit&#228;t (beschrieben als Cronbach&#8217;s &#945;) und die Notenverteilung (beschrieben als P-Wert des Chi-Quadrat-Verteilungstests). </Pgraph><Pgraph>Als erste Messgr&#246;&#223;e wurde der Anteil &#8222;guter&#8220; Fragen herangezogen, der definitionsgem&#228;&#223; im Intervall zwischen 0 und 1 liegt. Erf&#252;llen s&#228;mtliche Fragen einer Klausur die beiden Kriterien (Aufgabenschwierigkeit und Trennsch&#228;rfe), w&#252;rde ein Wert von 1 resultieren. Cronbach&#8217;s &#945; kann theoretisch auch negative Werte annehmen, liegt aber bei der Auswertung von schriftlichen Pr&#252;fungen in der Regel zwischen 0 und 1. Auch hier stehen h&#246;here Werte f&#252;r eine bessere Qualit&#228;t. Der Chi-Quadrat-Verteilungstest misst die Abweichung der Notenverteilung von der Normalverteilung. Ein P-Wert kleiner als 0,05  spricht gegen eine Normalverteilung und je kleiner der P-Wert wird, desto gr&#246;&#223;er ist die Schieflage der Notenverteilung. Bei dem von uns ausgewerteten Klausursemester lagen die resultierenden P-Werte zwischen 4,6x10<Superscript>-158</Superscript> und 0,99. Abbildung 1 <ImgLink imgNo="1" imgType="figure"/> zeigt exemplarisch zwei extreme Notenverteilungen.</Pgraph><Pgraph>Um allen drei Messgr&#246;&#223;en bei der Qualit&#228;tsberechnung das gleiche Gewicht zu verleihen, wurden die resultierenden Werte &#8211; Anteil &#8222;guter&#8220; Fragen, Cronbach&#8217;s &#945;, P-Wert aus dem Chi2-Test - auf eine Skala zwischen 0 und 1 transformiert. Abschlie&#223;end wurden f&#252;r jedes Fach die Summe dieser drei transformierten Werte gebildet und eine Rangfolge erstellt (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Die aus den Korrelationen der Messwerte f&#252;r den Anteil &#8222;guter&#8220; Fragen, die Reliabilit&#228;t und die Notenverteilung resultierenden Rangkorrelationskoeffizienten betragen 0,660, 0,1229 bzw. 0,1225 (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). </Pgraph><Pgraph>Tabelle 1 <ImgLink imgNo="1" imgType="table"/> bildet die berechnete Qualit&#228;t f&#252;r 19 Klausuren ab, die an der UMR im Sommersemester in klinischen Abschnitt des Medizinstudiums geschrieben und mir dem elektronischen Pr&#252;fungssystem erfasst wurden. Dabei handelt es sich ausschlie&#223;lich um Klausuren mit MC-Fragen vom Typ A. Mit der Aufnahme von Klausurqualit&#228;t in den Kriterienkatalog f&#252;r LOM-Lehre wurden dann auch Klausuren, die nicht elektronisch erfasst wurden, h&#228;ndisch in Matrizes &#252;bertragen, so dass Schweregrad, Trennsch&#228;rfe, Reliabilit&#228;t und Notenverteilung berechnet werden konnten. Darunter waren auch Klausuren mit short essay questions. F&#252;r den OSCE, der an der UMR zu Beginn des 10. Semesters stattfindet, werden gleichfalls Schweregrad, Trennsch&#228;rfe, Reliabilit&#228;t und Notenspiegel berechnet.</Pgraph><Pgraph> </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>Our algorithm presented here for evaluating exam and OSCE quality represents on the one hand internal consistencies &#8211; in the form of corrected discrimination and reliability &#8211; and on the other hand test results &#8211; in the form of item difficulty and grade distribution. Item difficulty, discrimination and reliability are already accepted as quality criteria in the medical literature <TextLink reference="7"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, albeit we keep the lower limit of 0.4 for very difficult and the upper limit of 0.85 for very easy tasks also in short-assay tests and the OSCE. The lower limit could be re-defined in non-MC test formats, however, one has to take into consideration that a further lowering might impair discriminatory power. Likewise, the upper limit is debated in the sense that exams should also include questions that can be answered by each and every student. Here, each faculty needs to issue individual recommendations as to the maximum proportion of &#8220;easy&#8221; questions. </Pgraph><Pgraph>The additional inclusion of grade distribution in our criteria is due to the observation that some departments consistently do not exploit the complete spectrum of possible grades (see Figure 1 <ImgLink imgNo="1" imgType="figure"/>). The resulting skewedness precludes internal differentiation and is in our opinion not suitable to support the learning behaviour of students <TextLink reference="5"></TextLink>. With the algorithm presented here, we aim at receiving a normal distribution, in which we intentionally do not declare the middle grade (&#8220;rite&#8221;) as the mean, but allow for the individually calculated mean for each exam. We decided to assess the distribution of grades instead of scores achieved for two reasons, </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">there is no uniform maximum score in the written tests and </ListItem><ListItem level="1" levelPosition="2" numString="2.">the scores achieved can potentially be normally distributed even if half of the students did not pass the exam.  </ListItem></OrderedList></Pgraph><Pgraph>Moreover, our algorithm is based on the P value which indicates the probability of deviation from the normal distribution, rather than the degree of deviation per se. We have decided to do so, because the P value and the 5&#37; significance level are omnipresent and easy to understand. It remains to be considered that both the P value and the degree of deviation from the normal distribution depend on the sample size &#8220;N&#8221;. This, however, is not critical as long as student cohorts are of approximately same sizes and the number of participants in the exams per year are comparable. In the algorithm presented here, the proportion of &#8222;good&#8221; questions correlated with the reliability. This could be partly due to a redundancy of the criteria assessed, but it is also likely that a dedicated examiner would produce not only questions with high discriminatory power, but also will take into account the distributions of item difficulty and include more question items, which in turn will raise reliability. </Pgraph><Pgraph>The algorithm presented here is a potential measure of good-quality exams. It can be applied for all test formats in which item difficulty, discrimination and grade distribution is recorded, and can therefore be used directly as a basis for performance-based funding. Once a transparent scoring system is established, item difficulty, discrimination and grade distribution can be calculated, even if the test formats are composite and performance is based on protocols or log books. </Pgraph><Pgraph>In contrast to the students&#8217; evaluation, which is most commonly used for the allocation of performance-based funding <TextLink reference="9"></TextLink>, the algorithm presented here has the advantage that exam quality is independent of the popularity of the subject. Nevertheless, this instrument also carries potential drawbacks: Subjects with high-quality written exams could insist on their reliable, but not necessarily valid test formats and thus prevent innovative changes. Here, the faculty could countersteer by not only assessing exam quality for performance-based funding, but also innovative teaching and learning formats. At the Rostock Medical School, performance-based funding for teaching consists of three criteria: exam quality, student evaluation and elective courses. Participation at the OSCE, an interdisciplinary event, is represented as an elective course where the quality of each station is used exclusively to guide the participating departments.</Pgraph><Pgraph>Whether indeed exam quality can be improved by the allocation of funds will only transpire after testing and evaluating this control instrument for several years. However, we are optimistic that the modified funding for teaching can at least draw more attention towards exams. A first objective, namely that those subjects who did not use the electronic exam management system before, now analyze their exams on qualitative criteria, has been achieved. The transparency of the applied criteria &#8211; item difficulty, discrimination and grades &#8211; offers the opportunity that teachers intensify reflection on their exams and seek to improve test quality <TextLink reference="8"></TextLink>, <TextLink reference="15"></TextLink>. The algorithm presented here offers several possibilities for adjustment, among them reliability, that can most easily be influenced by the number of question items. In the past, a lack of discriminatory power has sporadically been used to review the distractors and to check the conformity of exam and course content. Ideally, the algorithm presented here will not only help to improve the quality of the individual question items, but will motivate the faculty members to question the validity of their tests, a parameter that cannot be assessed with our instrument. Ultimately, it remains to be seen whether and how an improved test quality will impact on the student evaluation on the one hand and on the performance in the second written state exam on the other hand.   </Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Unser hier vorgestellter Algorithmus zur Bewertung von Klausur- und OSCE-Qualit&#228;t bildet zum einen die interne Konsistenz &#8211; in der Form von korrigierter Trennsch&#228;rfe und Reliabilit&#228;t &#8211; und zum anderen das Pr&#252;fungsergebnis &#8211; in der Form von Aufgabenschwierigkeit und Notenspiegel &#8211; ab. Aufgabenschwierigkeit, Trennsch&#228;rfe und Reliabilit&#228;t sind in der medizinischen Literatur bereits als Qualit&#228;tskriterien akzeptiert <TextLink reference="7"></TextLink>, <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, wobei wir an dem unteren Grenzwert von 0,4 f&#252;r sehr schwere und an dem oberen von 0,85 f&#252;r sehr leichte Aufgaben auch bei short essay-Fragen und bei OSCE-Stationen festhalten. Der untere Wert k&#246;nnte bei nicht-MC-Formaten auch anders festgelegt werden, wobei bei einem weiteren Absenken darauf geachtet werden sollte, dass die Aufgaben trennscharf bleiben. Auch der obere Wert wird regelm&#228;&#223;ig vor dem Hintergrund diskutiert, dass Klausuren auch solche Fragen enthalten sollen, die jeder Student beantworten kann. Hier k&#246;nnte jede Fakult&#228;t ihre eigenen Empfehlungen aussprechen, wie hoch der Anteil dieser sehr leichten Fragen maximal sein sollte. </Pgraph><Pgraph>Die zus&#228;tzliche Aufnahme des Notenspiegels in unseren Kriterienkatalog ist der Beobachtung geschuldet, dass einige F&#228;cher das Notenspektrum konsequent nicht ausnutzen (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure"/>). Die resultierende Schieflage verhindert die Binnendifferenzierung und ist aus unserer Sicht nicht geeignet, das Lernverhalten der Studierenden zu unterst&#252;tzen <TextLink reference="5"></TextLink>. Mit dem hier vorgestellten Algorithmus streben wir eine Normalverteilung an, wobei wir den Mittelwert bewusst nicht bei &#8222;befriedigend&#8220; festlegen, sondern den f&#252;r jede Klausur individuell berechneten Mittelwert zulassen. Statt der erreichten Punkte legen wir die erreichten Noten f&#252;r die Berechnung der Normalverteilung zugrunde, weil es einerseits keine einheitliche maximale Punktzahl in unseren Pr&#252;fungen gibt und andererseits die erreichten Punkte auch dann noch normalverteilt sein k&#246;nnten, wenn die H&#228;lfte der Studierenden die Pr&#252;fung nicht bestanden hat. Au&#223;erdem geht in unseren Algorithmus statt des Ausma&#223;es der Abweichung von einer Normalverteilung der P-Wert, der die Wahrscheinlichkeit der Abweichung beschreibt, ein. F&#252;r diesen Wert haben wir uns entschieden, weil der P-Wert und das 5&#37;ige Signifikanzniveau omnipr&#228;sent und leicht nachvollziehbar sind. Dabei bleibt zu ber&#252;cksichtigen, dass sowohl der P-Wert als auch der das Ausma&#223; der Abweichung von einer Normalverteilung beschreibende statistische Wert von &#8222;N&#8220; abh&#228;ngig sind. Das stellt jedoch dann kein Problem, wenn die klinischen Jahrg&#228;nge in etwa gleich gro&#223; und damit die Teilnehmerzahlen an den Klausuren pro Jahr vergleichbar sind. </Pgraph><Pgraph>Bei dem hier vorgestellten Algorithmus korreliert der Anteil &#8222;guter&#8220; Fragen mit der Reliabilit&#228;t. Das k&#246;nnte zum einen auf eine Redundanz der Messkriterien zur&#252;ckzuf&#252;hren sein, zum anderen k&#246;nnte es aber auch kausale Gr&#252;nde geben, wonach ein engagierter Pr&#252;fer m&#246;glicherweise nicht nur Fragen mit hoher Trennsch&#228;rfe konzipiert, sondern auch die Verteilung der Aufgabenschwierigkeiten ber&#252;cksichtigt und mehr Fragenitems inkludiert, wodurch wiederum die Reliabilit&#228;t angehoben wird. </Pgraph><Pgraph>Der hier vorgestellte Algorithmus ist ein m&#246;gliches Messinstrument f&#252;r qualitativ gute Pr&#252;fungen. Er ist auf alle Pr&#252;fungsformate, bei denen Aufgabenschwierigkeit, Trennsch&#228;rfe und Notenspiegel ermittelt werden &#252;bertragbar und kann somit direkt als Bemessungsgrundlage f&#252;r LOM eingesetzt werden. Auch bei zusammengesetzten Pr&#252;fungsformaten, bei denen Protokolle oder Log-B&#252;cher in den Leistungsnachweis eingehen, sind die Berechnung von Aufgabenschwierigkeit, Trennsch&#228;rfe, Reliabilit&#228;t und Notenspiegel denkbar, sobald ein nachvollziehbares Punktesystem zugrunde gelegt wird.</Pgraph><Pgraph>Gegen&#252;ber der studentischen Evaluation, die am h&#228;ufigsten f&#252;r die Vergabe von LOM-Lehre herangezogen wird <TextLink reference="9"></TextLink>, bietet der hier vorgestellte Algorithmus den gro&#223;en Vorteil, dass Pr&#252;fungsqualit&#228;t unabh&#228;ngig von der Beliebtheit eines Faches ist. Gleichwohl birgt dieses Instrument auch m&#246;gliche Nachteile: So k&#246;nnten F&#228;cher mit einer hohen Klausurqualit&#228;t aufgrund der LOM auf ihrem reliablen, aber nicht zwangsl&#228;ufig validen Pr&#252;fungsformat beharren und innovative &#196;nderungen unterbinden. Hier k&#246;nnte die Fakult&#228;t gegensteuern, indem nicht nur die Pr&#252;fungsqualit&#228;t Eingang in die LOM-Berechnung findet, sondern z.B. auch innovative Lehr- und Lernformate. An der UMR setzt sich die LOM-Lehre aus den drei Kriterien Pr&#252;fungsqualit&#228;t, studentische Evaluation und zus&#228;tzliches Lehrangebot zusammen. Die Beteiligung am OSCE, einer interdisziplin&#228;ren Veranstaltung, bildet sich im zus&#228;tzlichen Lehrangebot ab und die Qualit&#228;t der einzelnen Stationen wird ausschlie&#223;lich genutzt, um pr&#252;fende Einrichtungen zu steuern. </Pgraph><Pgraph>Ob sich die Pr&#252;fungsqualit&#228;t tats&#228;chlich durch den Zufluss von Mitteln verbessern l&#228;sst, wird sich erst herausstellen, wenn dieses Steuerungsinstrument einige Jahre erprobt und evaluiert worden ist. Wir sind jedoch optimistisch, dass sich durch den ver&#228;nderten Mittelfluss zumindest die Aufmerksamkeit in Richtung Pr&#252;fungen lenken l&#228;sst. Ein erstes Ziel, dass n&#228;mlich auch diejenigen F&#228;cher, die das elektronische Pr&#252;fungsmanagement nicht nutzen, ihre Klausuren jetzt auf qualitative Kriterien analysieren, ist bereits erreicht. Die Transparenz der angelegten Kriterien &#8211; Schweregrad, Trennsch&#228;rfe, Reliabilit&#228;t und Notenspiegel &#8211; birgt dar&#252;ber hinaus eine hohe Wahrscheinlichkeit, dass die Lehrenden die Reflexion &#252;ber ihre Pr&#252;fungen intensivieren und eine verbesserte Pr&#252;fungsqualit&#228;t anstreben <TextLink reference="8"></TextLink>, <TextLink reference="15"></TextLink>. Der hier vorgestellte Algorithmus bietet dazu mehrere Stellschrauben, wovon die Reliabilit&#228;t &#252;ber die Anzahl der Fragenitems am leichtesten zu beeinflussen ist. Ein Mangel an Trennsch&#228;rfe wird bereits vereinzelt genutzt, um die Distraktoren zu analysieren und die &#220;bereinstimmung von Pr&#252;fungs- und Lehrinhalten zu kontrollieren. Im Idealfall wird sich also nicht nur die Qualit&#228;t der einzelnen Fragenitems verbessern, sondern die Lehrverantwortlichen hinterfragen auch die Validit&#228;t ihrer Pr&#252;fungen, die wir mit unserem Messinstrument direkt gar nicht erfassen k&#246;nnen. Letztendlich bleibt auch abzuwarten, ob und wie sich eine verbesserte Pr&#252;fungsqualit&#228;t auf die studentische Evaluation einerseits und das Abschneiden der Studierenden im zweiten schriftlichen Staatsexamen andererseits auswirken wird.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Competing interests">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Interessenkonflikt">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben. </Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Biggs J</RefAuthor>
        <RefTitle>Enhancing teaching through constructive alignment</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>High Educ</RefJournal>
        <RefPage>347-364</RefPage>
        <RefTotal>Biggs J. Enhancing teaching through constructive alignment. High Educ. 1996;32:347-364. DOI: 10.1007&#47;BF00138871</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;BF00138871</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Shumway JM</RefAuthor>
        <RefAuthor>Harden RM</RefAuthor>
        <RefAuthor> Association for Medical Education in E</RefAuthor>
        <RefTitle>AMEE Guide No. 25: The assessment of learning outcomes for the competent and reflective physician</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>569-584</RefPage>
        <RefTotal>Shumway JM, Harden RM; Association for Medical Education in E. AMEE Guide No. 25: The assessment of learning outcomes for the competent and reflective physician. Med Teach. 2003;25(6):569-584. DOI: 10.1080&#47;0142159032000151907</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;0142159032000151907</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>chuwirth L</RefAuthor>
        <RefAuthor>van der Vleuten C</RefAuthor>
        <RefTitle>Merging views on assessment</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1208-1210</RefPage>
        <RefTotal>chuwirth L, van der Vleuten C. Merging views on assessment. Med Educ. 2004;38(12):1208-1210. DOI: 10.1111&#47;j.1365-2929.2004.02055.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2929.2004.02055.x</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Wormald BW</RefAuthor>
        <RefAuthor>Schoeman S</RefAuthor>
        <RefAuthor>Somasunderam A</RefAuthor>
        <RefAuthor>Penn M</RefAuthor>
        <RefTitle>Assessment drives learning: an unavoidable truth&#63;</RefTitle>
        <RefYear>2009</RefYear>
        <RefJournal>Anat Sci Educ</RefJournal>
        <RefPage>199-204</RefPage>
        <RefTotal>Wormald BW, Schoeman S, Somasunderam A, Penn M. Assessment drives learning: an unavoidable truth&#63; Anat Sci Educ. 2009;2(5):199-204. DOI: 10.1002&#47;ase.102</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1002&#47;ase.102</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Norcini J</RefAuthor>
        <RefAuthor>Anderson B</RefAuthor>
        <RefAuthor>Bollela V</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>206-214</RefPage>
        <RefTotal>Norcini J, Anderson B, Bollela V, et al. Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):206-214. DOI: 10.3109&#47;0142159X.2011.551559</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.551559</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Gesellschaft f&#252;r Medizinische Ausbildung</RefAuthor>
        <RefAuthor>Kompetenzzentrum Pr&#252;fungen Baden-W&#252;rttemberg</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>Leitlinie f&#252;r Fakult&#228;ts-interne Leistungsnachweise w&#228;hrend des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Pr&#252;fungen und des Kompetenzzentrums Pr&#252;fungen Baden-W&#252;rttemberg</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc74</RefPage>
        <RefTotal>Gesellschaft f&#252;r Medizinische Ausbildung, Kompetenzzentrum Pr&#252;fungen Baden-W&#252;rttemberg, Fischer MR. Leitlinie f&#252;r Fakult&#228;ts-interne Leistungsnachweise w&#228;hrend des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Pr&#252;fungen und des Kompetenzzentrums Pr&#252;fungen Baden-W&#252;rttemberg. GMS Z Med Ausbild. 2008;25(1):Doc74. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000558.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2008-25&#47;zma000558.shtml</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefAuthor>Just I</RefAuthor>
        <RefTitle>Empfehlungen der Gesellschaft f&#252;r Medizinische Ausbildung und des Medizinischen Fakult&#228;tentags f&#252;r fakult&#228;tsinterne Leistungsnachweise w&#228;hrend des Studiums der Human-, Zahn- und Tiermedizin</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc34</RefPage>
        <RefTotal>J&#252;nger J, Just I. Empfehlungen der Gesellschaft f&#252;r Medizinische Ausbildung und des Medizinischen Fakult&#228;tentags f&#252;r fakult&#228;tsinterne Leistungsnachweise w&#228;hrend des Studiums der Human-, Zahn- und Tiermedizin. GMS Z Med Ausbild. 2014;31(3):Doc34. DOI: 10.3205&#47;zma000926</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000926</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Kreysing M</RefAuthor>
        <RefTitle>Forschungsf&#246;rderung mittels leistungsorientierter Mittelvergabe</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Z Hochschulentw</RefJournal>
        <RefPage>19-28</RefPage>
        <RefTotal>Kreysing M. Forschungsf&#246;rderung mittels leistungsorientierter Mittelvergabe. Z Hochschulentw. 2008;3:19-28.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>M&#252;ller-Hilke B</RefAuthor>
        <RefTitle>&#34;Ruhm und Ehre&#34; oder LOM f&#252;r Lehre&#63; - eine qualitative Analyse von Anreizverfahren f&#252;r gute Lehre an Medizinischen Fakult&#228;ten in Deutschland</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc43</RefPage>
        <RefTotal>M&#252;ller-Hilke B. &#34;Ruhm und Ehre&#34; oder LOM f&#252;r Lehre&#63; - eine qualitative Analyse von Anreizverfahren f&#252;r gute Lehre an Medizinischen Fakult&#228;ten in Deutschland. GMS Z Med Ausbild. 2010;27(3):Doc43. DOI: 10.3205&#47;zma000680</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000680</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Schellberg D</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Grundlegende quantitative Analysen medizinischer Pr&#252;fungen</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc53</RefPage>
        <RefTotal>M&#246;ltner A, Schellberg D, J&#252;nger J. Grundlegende quantitative Analysen medizinischer Pr&#252;fungen. GMS Z Med Ausbild. 2006;23(3):Doc53. Zug&#228;nglich unter&#47;available from: http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;static&#47;de&#47;journals&#47;zma&#47;2006-23&#47;zma000272.shtml</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>WFME</RefAuthor>
        <RefAuthor>AWSE</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2007</RefYear>
        <RefBookTitle>WFME Global Standards for Quality improvement in Medical Education European Specifications</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>WFME, AWSE. WFME Global Standards for Quality improvement in Medical Education European Specifications. Copenhagen: University of Copenhagen, MEDLINE Quality Assurance Task Force; 2007.</RefTotal>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>WHO</RefAuthor>
        <RefAuthor>WFME</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2005</RefYear>
        <RefBookTitle>Guidelines for Accreditation of Basic Medical Education</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>WHO, WFME. Guidelines for Accreditation of Basic Medical Education. Geneva, Copenhagen: WHO; 2005.</RefTotal>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Norcini J</RefAuthor>
        <RefAuthor>Anderson B</RefAuthor>
        <RefAuthor>Bollela V</RefAuthor>
        <RefAuthor>Burch V</RefAuthor>
        <RefAuthor>Costa MJ</RefAuthor>
        <RefAuthor>Duvivier R</RefAuthor>
        <RefAuthor>Galbraith R</RefAuthor>
        <RefAuthor>Hays R</RefAuthor>
        <RefAuthor>Kent A</RefAuthor>
        <RefAuthor>Perrott V</RefAuthor>
        <RefAuthor>Roberts T</RefAuthor>
        <RefTitle>Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>206-214</RefPage>
        <RefTotal>Norcini J, Anderson B, Bollela V, Burch V, Costa MJ, Duvivier R, Galbraith R, Hays R, Kent A, Perrott V, Roberts T. Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):206-214. DOI: 10.3109&#47;0142159X.2011.551559</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.551559</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Schuwirth LW</RefAuthor>
        <RefAuthor>Van der Vleuten CP</RefAuthor>
        <RefTitle>Programmatic assessment: From assessment of learning to assessment for learning</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>478-485</RefPage>
        <RefTotal>Schuwirth LW, Van der Vleuten CP. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach. 2011;33(6):478-485. DOI: 10.3109&#47;0142159X.2011.565828</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.565828</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>M&#252;ller-Hilke B</RefAuthor>
        <RefTitle>Leistungsorientierte Mittelvergabe. Mehr Geld zur Lehre lenken</RefTitle>
        <RefYear>2013</RefYear>
        <RefJournal>Dtsch Arztebl</RefJournal>
        <RefPage>A-2418&#47;B-2131&#47;C-2053</RefPage>
        <RefTotal>M&#252;ller-Hilke B. Leistungsorientierte Mittelvergabe. Mehr Geld zur Lehre lenken. Dtsch Arztebl. 2013;110:A-2418&#47;B-2131&#47;C-2053.</RefTotal>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Algorithm for the calculation of exam quality</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Algorithmus zur Berechnung von Pr&#252;fungsqualit&#228;t</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>1</NoOfTables>
      </Tables>
      <Figures>
        <Figure format="png" height="285" width="678">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Figure  1: Extreme distributions of grades. Bar diagrams represent a Gaussian distribution of grades achieved for subjet T and a &#8222;ceiling effect&#8220; for subject C (letters denote the same subjects as in Table 1). </Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Abbildung 1: Extreme der Notenverteilung. Die Balkendiagramme verdeutlichen eine Normalverteilung der Noten im Fach T und einen &#8222;Deckeneffekt&#8220; im Fach C (Bezeichnungen der F&#228;cher entsprechen denjenigen in Tabelle 1). </Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>