<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>000219</Identifier>
    <IdentifierDoi>10.3205/000219</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-0002197</IdentifierUrn>
    <ArticleType language="en">Review Article</ArticleType>
    <ArticleType language="de">&#220;bersichtsarbeit</ArticleType>
    <TitleGroup>
      <Title language="en">Evaluation in medical education: A topical review of target parameters, data collection tools and confounding factors</Title>
      <TitleTranslated language="de">Evaluation im Medizinstudium: Zielgr&#246;&#223;en, Erhebungsinstrumente und St&#246;rfaktoren &#8211; eine Ann&#228;herung</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Schiekirka</Lastname>
          <LastnameHeading>Schiekirka</LastnameHeading>
          <Firstname>Sarah</Firstname>
          <Initials>S</Initials>
          <AcademicTitle>Dipl.-Psych.</AcademicTitle>
        </PersonNames>
        <Address language="en">Universit&#228;tsmedizin G&#246;ttingen, Studiendekanat, Humboldtallee 38, 37073 G&#246;ttingen, Germany, Phone: &#43;49-(0)551-39-12302, Fax: &#43;49-(0)551&#47;39-13012302<Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Studiendekanat, G&#246;ttingen, Germany</Affiliation></Address>
        <Address language="de">Universit&#228;tsmedizin G&#246;ttingen, Studiendekanat, Humboldtallee 38, 37073 G&#246;ttingen, Deutschland, Tel.: &#43;49-(0)551-39-12302, Fax: &#43;49-(0)551&#47;39-13012302<Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Studiendekanat, G&#246;ttingen, Deutschland</Affiliation></Address>
        <Email>sarah.schiekirka&#64;med.uni-goettingen.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Feufel</Lastname>
          <LastnameHeading>Feufel</LastnameHeading>
          <Firstname>Markus A.</Firstname>
          <Initials>MA</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Charit&#233; &#8211; Universit&#228;tsmedizin Berlin, Prodekanat f&#252;r Studium und Lehre, Berlin, Germany</Affiliation>
          <Affiliation>Max-Planck-Institut f&#252;r Bildungsforschung, Forschungsbereich Adaptives Verhalten und Kognition und Harding Zentrum f&#252;r Risikokommunikation, Berlin, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Charit&#233; &#8211; Universit&#228;tsmedizin Berlin, Prodekanat f&#252;r Studium und Lehre, Berlin, Deutschland</Affiliation>
          <Affiliation>Max-Planck-Institut f&#252;r Bildungsforschung, Forschungsbereich Adaptives Verhalten und Kognition und Harding Zentrum f&#252;r Risikokommunikation, Berlin, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Herrmann-Lingen</Lastname>
          <LastnameHeading>Herrmann-Lingen</LastnameHeading>
          <Firstname>Christoph</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Klinik f&#252;r Psychosomatische Medizin und Psychotherapie, G&#246;ttingen, Germany</Affiliation>
          <Affiliation>Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften, D&#252;sseldorf, Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Klinik f&#252;r Psychosomatische Medizin und Psychotherapie, G&#246;ttingen, Deutschland</Affiliation>
          <Affiliation>Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften, D&#252;sseldorf, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Raupach</Lastname>
          <LastnameHeading>Raupach</LastnameHeading>
          <Firstname>Tobias</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Klinik f&#252;r Kardiologie und Pneumologie, G&#246;ttingen, Germany</Affiliation>
          <Affiliation>University College London, Health Behaviour Research Centre, London, Great Britain</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;tsmedizin G&#246;ttingen, Klinik f&#252;r Kardiologie und Pneumologie, G&#246;ttingen, Deutschland</Affiliation>
          <Affiliation>University College London, Health Behaviour Research Centre, London, Gro&#223;britannien</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">evaluation</Keyword>
      <Keyword language="en">medical education</Keyword>
      <Keyword language="en">dimension</Keyword>
      <Keyword language="en">confounder</Keyword>
      <Keyword language="en">questionnaire</Keyword>
      <Keyword language="de">Evaluation</Keyword>
      <Keyword language="de">Medizinstudium</Keyword>
      <Keyword language="de">Dimension</Keyword>
      <Keyword language="de">St&#246;rfaktor</Keyword>
      <Keyword language="de">Fragebogen</Keyword>
      <SectionHeading language="en">Medical Education</SectionHeading>
      <SectionHeading language="de">Medizinische Ausbildung</SectionHeading>
    </SubjectGroup>
    <DateReceived>20150402</DateReceived>
    <DateRevised>20150831</DateRevised>
    <DatePublishedList>
      
    <DatePublished>20150916</DatePublished></DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1612-3174</ISSN>
        <Volume>13</Volume>
        <JournalTitle>GMS German Medical Science</JournalTitle>
        <JournalTitleAbbr>GMS Ger Med Sci</JournalTitleAbbr>
      </Journal>
    </SourceGroup>
    <ArticleNo>15</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund und Fragestellung:</Mark1> Die Evaluation ist fester Bestandteil der Lehre an Medizinischen Fakult&#228;ten. Gem&#228;&#223; den Standards der Deutschen Gesellschaft f&#252;r Evaluation m&#252;ssen Evaluationsinstrumente eine faire und genaue Beurteilung der Lehrqualit&#228;t erlauben. Entsprechend m&#252;ssen die genutzten Erhebungsinstrumente eine hohe Reliabilit&#228;t und Validit&#228;t aufweisen. In dieser &#220;bersichtsarbeit wird die verf&#252;gbare Literatur zur Evaluation des Medizinstudiums mit Hinblick auf die m&#246;glichen Dimensionen der Lehrqualit&#228;t, die psychometrischen Eigenschaften der Instrumente und potentielle St&#246;rfaktoren dargestellt.</Pgraph><Pgraph><Mark1>Methoden:</Mark1> Ausgehend von einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX wurde eine Literatur-Recherche zur Evaluation im Medizinstudium durchgef&#252;hrt. Ber&#252;cksichtigung fanden Arbeiten, die bis zum 30.6.2011 in die Datenbanken aufgenommen wurden sowie &#8222;graue Literatur&#8220;. Die Ergebnisse werden in narrativer Form pr&#228;sentiert.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Es wurden vier Dimensionen der Lehrqualit&#228;t im Medizinstudium identifiziert: Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis. Zur Betrachtung der ersten drei Dimensionen werden in erster Linie studentische Bewertungen herangezogen. Hierf&#252;r liegen einige reliable, in deutscher Sprache verf&#252;gbare Instrumente vor. Die Validit&#228;t studentischer Bewertungen wird jedoch durch zahlreiche potentielle St&#246;rfaktoren eingeschr&#228;nkt. Zur Beurteilung des Lehr-Ergebnisses werden vor allem Pr&#252;fungsleistungen herangezogen, deren Nutzbarkeit allerdings aufgrund methodischer Probleme eingeschr&#228;nkt sein kann. Zudem gen&#252;gen nicht alle Pr&#252;fungen an deutschen medizinischen Fakult&#228;ten den g&#228;ngigen Qualit&#228;tsstandards.</Pgraph><Pgraph><Mark1>Folgerung:</Mark1> Die Auswahl von Instrumenten zur Evaluation des Medizinstudiums sollte sich daran orientieren, welche Dimension der Lehre beurteilt werden soll. Entsprechend k&#246;nnen Evaluationsergebnisse auch nur vor dem Hintergrund des vom genutzten Erhebungsinstrument abgebildeten Konstrukts und dessen spezifischen St&#246;rfaktoren interpretiert werden.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background and objective:</Mark1> Evaluation is an integral part of education in German medical schools. According to the quality standards set by the German Society for Evaluation, evaluation tools must provide an accurate and fair appraisal of teaching quality. Thus, data collection tools must be highly reliable and valid. This review summarises the current literature on evaluation of medical education with regard to the possible dimensions of teaching quality, the psychometric properties of survey instruments and potential confounding factors.</Pgraph><Pgraph><Mark1>Methods:</Mark1> We searched Pubmed, PsycINFO and PSYNDEX for literature on evaluation in medical education and included studies published up until June 30, 2011 as well as articles identified in the &#8220;grey literature&#8221;. Results are presented as a narrative review.</Pgraph><Pgraph><Mark1>Results:</Mark1> We identified four dimensions of teaching quality: structure, process, teacher characteristics, and outcome. Student ratings are predominantly used to address the first three dimensions, and a number of reliable tools are available for this purpose. However, potential confounders of student ratings pose a threat to the validity of these instruments. Outcome is usually operationalised in terms of student performance on examinations, but methodological problems may limit the usability of these data for evaluation purposes. In addition, not all examinations at German medical schools meet current quality standards.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> The choice of tools for evaluating medical education should be guided by the dimension that is targeted by the evaluation. Likewise, evaluation results can only be interpreted within the context of the construct addressed by the data collection tool that was used as well as its specific confounding factors.</Pgraph></Abstract>
    <TextBlock language="en" linked="yes" name="Introduction">
      <MainHeadline>Introduction</MainHeadline><Pgraph>Medical education must meet high standards because medical school graduates &#8211; mainly physician practitioners &#8211; carry great responsibility. In order to assess the quality of education, evaluations are performed at all German medical schools. No less than 10 years ago, the German Society for Evaluation established standards for the evaluation of university level education. According to these standards, evaluation instruments must permit a fair, accurate, and reliable assessment of teaching quality <TextLink reference="1"></TextLink>. Medical education differs from other study programs in that it offers restricted choice of courses and uses unique teaching formats such as problem-based learning and bedside teaching <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Seemingly generic teaching formats (e.g., lectures) may be supplemented by elements specific to medical education (e.g., live presentations of patient case histories). Thus, it is questionable whether evaluation instruments from other study programs can readily be transferred to medical education. In general, to assess the reliability and, in particular, the validity of evaluation procedures, the construct of &#8216;good teaching&#8217; underlying an evaluation instrument must be known. This article presents the results of a broad literature search on &#8216;evaluation in medical education&#8217;, funded by the Association of the Scientific Medical Societies in Germany (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften e.V., AWMF). Search results were discussed by a joint committee of the AWMF and the Medizinische Fakult&#228;tentag (MFT). The literature search intended to answer the following questions:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Which dimensions of teaching quality can be assessed in the context of medical education&#63;</ListItem><ListItem level="1" levelPosition="2" numString="2.">Which evaluation instruments are currently used, and which outcomes do they target&#63;</ListItem><ListItem level="1" levelPosition="3" numString="3.">What are the psychometric properties of these evaluation instruments&#63;</ListItem><ListItem level="1" levelPosition="4" numString="4.">What needs to be considered when designing questionnaires for evaluation in medical education, and which confounding factors must be considered when interpreting results&#63;</ListItem></OrderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Einleitung">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Das Medizinstudium muss h&#246;chsten Qualit&#228;tsstandards gen&#252;gen, da die Absolventen medizinischer Fakult&#228;ten &#8211; in erster Linie &#196;rztinnen und &#196;rzte &#8211; gro&#223;e Verantwortung tragen. Zur Bewertung der Qualit&#228;t der Lehre werden an allen deutschen medizinischen Fakult&#228;ten Evaluationen durchgef&#252;hrt. Die Deutsche Gesellschaft f&#252;r Evaluation hat bereits vor &#252;ber zehn Jahren Standards f&#252;r die Evaluation der Hochschullehre festgelegt. Diesen zufolge m&#252;ssen Evaluationsinstrumente eine faire, genaue und verl&#228;ssliche Beurteilung der Lehrqualit&#228;t erlauben <TextLink reference="1"></TextLink>. Auch ist zu ber&#252;cksichtigen, dass das Medizinstudium einige Besonderheiten gegen&#252;ber anderen Studieng&#228;ngen aufweist <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>, beispielweise wenig Freiheiten bez&#252;glich der Kurswahl sowie spezifische Unterrichtsformen wie das Problem-orientierte Lernen (POL) oder der Unterricht am Krankenbett (UaK). Selbst in scheinbar allgemeintypischen Veranstaltungstypen wie Vorlesungen k&#246;nnen Besonderheiten wie Patientenvorstellungen auftreten. Somit ist fraglich, ob Evaluationsinstrumente aus anderen Studieng&#228;ngen problemlos auf die Lehre im Medizinstudium &#252;bertragbar sind. Grunds&#228;tzlich muss zur Beurteilung der Reliabilit&#228;t und insbesondere der Validit&#228;t der eingesetzten Verfahren zun&#228;chst bekannt sein, welches Konstrukt von &#8222;guter Lehre&#8220; einem Evaluationsinstrument zugrunde liegt. In der vorliegenden Arbeit werden die Ergebnisse einer breit angelegten Literaturrecherche zum Thema &#8222;Evaluation im Studium der Humanmedizin&#8220; vorgestellt, die von der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) finanziert wurde. Die Ergebnisse wurden im Anschluss an die Recherche in einem gemeinsamen Gremium der AWMF und des Medizinischen Fakult&#228;tentags diskutiert. Im Rahmen der Literaturrecherche sollten folgende Leitfragen beantwortet werden:</Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">In welchen Dimensionen kann die Qualit&#228;t der medizinischen Lehre erfasst werden&#63;</ListItem><ListItem level="1" levelPosition="2" numString="2.">Welche Instrumente kommen derzeit zum Einsatz und welche Zielgr&#246;&#223;en werden von ihnen betrachtet&#63;</ListItem><ListItem level="1" levelPosition="3" numString="3.">Welche psychometrischen Eigenschaften besitzen diese Erhebungsinstrumente&#63; </ListItem><ListItem level="1" levelPosition="4" numString="4.">Was ist bei der Konstruktion von Frageb&#246;gen f&#252;r die Evaluation im Medizinstudium zu beachten, und welche St&#246;rgr&#246;&#223;en m&#252;ssen bei der Interpretation der Ergebnisse ber&#252;cksichtigt werden&#63; </ListItem></OrderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Methods">
      <MainHeadline>Methods</MainHeadline><Pgraph>In order to address these questions, we conducted a comprehensive literature search including original research, systematic reviews, dissertations and the so-called &#8216;grey literature&#8217; published in German or English. We searched Pubmed, PsycINFO, and PSYNDEX (keywords: &#8216;medical education&#8217;, &#8216;undergraduate medical education&#8217;, &#8216;medical curriculum&#8217; combined with &#8216;evaluation&#8217;, &#8216;evaluation of teaching effectiveness&#8217; and &#8216;student ratings&#8217; and their German translations: &#8216;Medizinische Ausbildung&#8217;, &#8216;Medizinstudium&#8217;&#47;&#8216;Studium der Medizin&#8217;, &#8216;medizinisches Curriculum&#8217;, &#8216;Evaluation&#8217;, &#8216;Lehrevaluation&#8217;, &#8216;studentische Bewertungen&#8217;) for relevant articles that have been added to the respective databases up to July 30, 2011.</Pgraph><Pgraph>Additional relevant papers were identified from reference lists of published reports. In addition, we searched the online archives of the following journals: Deutsche Medizinische Wochenschrift, GMS Zeitschrift f&#252;r Medizinische Ausbildung, Hochschulmanagement, Qualit&#228;t in der Wissenschaft as well as Wissenschaftsmanagement. We consulted experts in the field of medical education for recommendations of relevant articles and used Google to find additional publications. The literature was analysed until saturation was reached (i.e., until no additional content was identified with respect to the research questions).</Pgraph><Pgraph>During a second, more in-depth analysis of identified publications, we extracted those articles that provided answers to the four research questions. Content extraction was guided by a checklist prompting researchers to enter information on the dimension of teaching quality assessed as well as the data collection tool (if available along with its psychometric properties, such as Cronbach&#8217;s alpha).</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Methoden">
      <MainHeadline>Methoden</MainHeadline><Pgraph>Zur Beantwortung der genannten Forschungsfragen erfolgte eine breit angelegte Literaturrecherche, in die publizierte Original- und &#220;bersichtsarbeiten, Dissertationen sowie so genannte &#8222;Graue Literatur&#8220; in deutscher und englischer Sprache einbezogen wurden. In einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX (Begriffe: &#8222;medical education&#8220;, &#8222;undergraduate medical education&#8220;, &#8222;medical curriculum&#8220; kombiniert mit &#8222;evaluation&#8220;,  &#8222;evaluation of teaching effectiveness&#8220; und &#8222;student ratings&#8220; bzw. die analogen deutschen Begriffe: &#8222;Medizinische Ausbildung&#8220;, &#8222;Medizinstudium&#8220;&#47;&#8222;Studium der Medizin&#8220;, &#8222;medizinisches Curriculum&#8220;, &#8222;Evaluation&#8220;, &#8222;Lehrevaluation&#8220;, &#8222;studentische Bewertungen&#8220;) wurden zun&#228;chst relevante Arbeiten identifiziert, die seit Beginn der Erfassung in den jeweiligen Datenbanken bis zum 30.6.2011 publiziert wurden. </Pgraph><Pgraph>Eine Durchsicht der Literaturverzeichnisse dieser Arbeiten lieferte Hinweise auf weitere relevante Beitr&#228;ge. Des Weiteren fand eine Suche direkt in den Online-Archiven folgender Zeitschriften statt: Deutsche Medizinische Wochenschrift, GMS Zeitschrift f&#252;r Medizinische Ausbildung, Hochschulmanagement, Qualit&#228;t in der Wissenschaft sowie Wissenschaftsmanagement. Ebenfalls wurde pers&#246;nlichen Literaturempfehlungen von Experten auf dem Gebiet der medizinischen Ausbildungsforschung gefolgt und mittels der allgemeinen Internetsuchmaschine Google gesucht. Die Literatur wurde im Hinblick auf die Forschungsfragen gesichtet, bis eine inhaltliche S&#228;ttigung erreicht war (d.h. bis keine neuen inhaltlichen Aspekte mehr identifiziert werden konnten). </Pgraph><Pgraph>Aus den identifizierten Publikationen wurden in einer zweiten, tiefergehenden Durchsicht diejenigen Arbeiten extrahiert, aus denen Antworten auf die vier oben genannten Forschungsfragen abgeleitet werden konnten. Die inhaltliche Extraktion erfolgte anhand einer Vorlage, in die jeweils die betrachtete Dimension der Lehrqualit&#228;t und das genutzte Datenerhebungsinstrument (falls verf&#252;gbar mitsamt den psychometrischen Eigenschaften, insbesondere Cronbach&#8217;s &#945;) eingetragen wurde. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Results">
      <MainHeadline>Results</MainHeadline><Pgraph>A total of 116 articles were retrieved. Of these, 46 were found in Pubmed, 22 in PsychINFO, and 4 in PSYNDEX. In addition, 28 articles were identified in the online archives of the above-mentioned German journals. The remaining 16 articles were identified as secondary literature, by recommendation, or via Internet search engines. A complete list of all 116 articles is available in Attachment 1 <AttachmentLink attachmentNo="1"/>. Many of these articles were not specific to medical education, but focused on general issues related to evaluation of university level teaching. Furthermore, not all articles provided specific answers to the aforementioned research questions. In order to answer the first three research questions, we included 30 articles with a specific focus on medical education. With respect to the fourth research question, hardly any relevant results were identified in the literature specific to medical education. Thus, 14 additional articles without a specific focus on medical education were included. The complete list of all 116 identified articles provides information on which articles were used to answer the research questions.</Pgraph><Pgraph>Due to the broadly defined research questions and, consequently, due to the high structural and content-related heterogeneity of the identified articles, we decided to present the results in form of a narrative. This approach is currently being recommended for review articles that are mainly based on quasi-experimental studies. In this context, numerical analyses (e.g., meta-analyses) seem less well-suited to answer relevant research questions because they unnecessarily constrain the range of contents covered <TextLink reference="4"></TextLink>. According to current perspectives in the field of medical didactics <TextLink reference="5"></TextLink>, if performed according to good scientific practice, narrative reviews may yield higher informational value than averaged figures.</Pgraph><Pgraph>The results section is organised according to the four research questions. For the first three questions, it is further structured according to the four dimensions of teaching, which are specified in the following section.</Pgraph><SubHeadline>Question 1: Dimensions of teaching quality in medical education</SubHeadline><Pgraph>All target parameters used to assess teaching quality described in the published literature can be categorised into four dimensions <TextLink reference="6"></TextLink>: On the curricular level, structural (first) as well as procedural (second) aspects of teaching can be considered; the third quality criterion refers to teacher characteristics, and the fourth dimension refers to the outcome of teaching activities. The structural dimension comprises, for instance, the physical environment available for teaching, teaching materials as well as the design of a curriculum. The learning process refers to aspects such as teacher-student interaction or teaching&#47;learning atmosphere. Instructor-specific characteristics include teaching skills and the level of preparation, but also the teachers&#8217; enthusiasm as perceived by their students. The outcome dimension describes aspects such as learning outcome and the development of professional attitudes as a result of teaching.</Pgraph><Pgraph>Structures and processes related to teaching are assessed by many of the published evaluation instruments (see Question 2), especially because data collection and analysis can be automated easily. A reliable and valid assessment of individual teacher performance is a more complex endeavour. The corresponding instruments must meet high psychometric standards, especially due to potential consequences of such evaluation results for individual careers.</Pgraph><Pgraph>Defining teaching quality by related outcomes appears straightforward. In this context, Blumberg <TextLink reference="7"></TextLink> suggests three types of outcomes: She defines &#8216;educational outcome&#8217; as the development of competencies for independent, life-long learning. The term &#8216;clinical career outcomes&#8217; comprises competencies relevant for the medical profession (see also <TextLink reference="8"></TextLink>). Blumberg defines &#8216;environmental outcomes&#8217; as the development of professional attitudes towards teaching itself &#8211; in the sense that graduates consider passing on their knowledge and skills to their younger colleagues as part of their own professional role, thus shaping the environment at their teaching institutions. To date, there is no consensus on how to operationalise these three types of educational outcomes.</Pgraph><SubHeadline>Question 2: Target outcomes and assessment instruments</SubHeadline><Pgraph>As mentioned above, the following description of target outcomes and assessment instruments is guided by the four dimensions of teaching quality (structure, process, teacher, and outcome). Given that a clear-cut alignment between dimensions and individual instruments (and vice versa) is not always possible, we will elaborate on the available instruments in the context of the dimension primarily targeted. A summary of all identified instruments with a focus on medical education is presented in <TextGroup><PlainText>Table 1 </PlainText></TextGroup><ImgLink imgNo="1" imgType="table"/>.</Pgraph><Pgraph>Educational <Mark2>structures and processes</Mark2> are mainly evaluated using self-administered questionnaires that are completed by students. Some of the available instruments cover both structures and processes (&#8220;Medical Student Experience Questionnaire&#8221;; MedSEQ; 32 items <TextLink reference="9"></TextLink> and &#8220;Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin&#8221;; 12 items <TextLink reference="10"></TextLink>). Four additional instruments focus mainly on teaching-related processes and, in this context, use the term &#8216;learning environment&#8217;. The &#8220;Dundee Ready Education Environment Measure&#8221; (DREEM; 50 items <TextLink reference="11"></TextLink>) has recently become available in German <TextLink reference="12"></TextLink>. The comprehensive &#8220;Learning Environment Questionnaire&#8221; (LEQ; 65 items <TextLink reference="13"></TextLink>) yields some overlap with the more concise &#8220;Measuring the School Learning Environment Survey&#8221; (MSLES; 50 items <TextLink reference="14"></TextLink>).</Pgraph><Pgraph>The &#8220;Medical Instructional Quality&#8221; (MedIQ; 25 items <TextLink reference="15"></TextLink>) was specifically designed for evaluating clinical teaching. It covers four aspects of clinical teaching related to outpatient settings. Among other factors, the MedIQ focuses on the clinical learning environment as well as the participation of students in patient care. A comprehensive review of additional instruments for evaluating the learning environment was published in 2010 <TextLink reference="16"></TextLink>.</Pgraph><Pgraph>Numerous instruments have been designed to evaluate <Mark2>individual teachers</Mark2> (see Table 1 <ImgLink imgNo="1" imgType="table"/>). Again, self-administered questionnaires are predominantly used, in most cases containing scaled items and open answer options. Most instruments specific to medical education and assessing individual teacher performance are tailored to the clinical teaching context (e.g. bedside teaching) rather than lectures and seminars. Detailed information on the available instruments can be found in Table 1 <ImgLink imgNo="1" imgType="table"/>. There is one noteworthy questionnaire for the assessment of teaching in outpatient settings (&#8220;Student Evaluation of Teaching in Outpatient Clinics&#8221;; SETOC <TextLink reference="17"></TextLink>). Furthermore, the SFDP-26 (&#8220;Stanford Faculty Development Program&#8221; <TextLink reference="18"></TextLink>) survey, which is also available in German <TextLink reference="19"></TextLink> needs to be mentioned in this context. This tool was originally developed at the Mayo Clinic and, by mapping the seven &#8220;Stanford-Criteria for Good Teaching&#8221;, is well-grounded in theory.</Pgraph><Pgraph>As described above, the <Mark2>outcome of teaching</Mark2>, i.e. student learning outcome, is reflected not only in the accumulation of knowledge and practical skills but also in the development of professional attitudes <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Unfortunately, we did not find any instruments covering the full range of these outcomes. Some German medical schools use student performance in the written part of the second state examination as a surrogate parameter for teaching quality <TextLink reference="20"></TextLink>. However, multiple-choice (MC) questions (such as those used in state examinations) mainly assess factual knowledge. By memorising the correct answer <TextLink reference="21"></TextLink> or by deliberate practice of MC-questions <TextLink reference="22"></TextLink>, students may improve their exam results regardless of their actual knowledge. Similar limitations pertain to the Progress Test, which is used by some German medical schools. This formative assessment, which is applied repeatedly during the course of the curriculum, also uses MC-questions. Nevertheless, it is considered a useful and important source of information for students as well as curriculum evaluation owing to its longitudinal and cross-sectional design <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>In general, state examinations are characterised by high internal consistency. However, learning outcomes of individual classes&#47;courses of a given curriculum can only be assessed by analysing the exam results that were performed at the medical schools. According to a recent analysis, these exams often do not meet current quality standards <TextLink reference="24"></TextLink>. Recently, an evaluation tool estimating student learning outcome from comparative self-assessments has been developed as an alternative. The tool&#8217;s main advantage over end-of-course exams is its adjustment for initial student performance levels, thus facilitating a critical appraisal of the learning outcome created during a course <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Finally, surveys among medical school graduates can be used to assess the quality of medical education. In principle, all four dimensions of teaching quality may be measured with this method. However, the present literature search identified neither articles specific to medical education nor studies related to other types of university level teaching that systematically evaluated the quality of instruments used for this purpose.</Pgraph><SubHeadline>Question 3: Psychometric properties of assessment instruments</SubHeadline><Pgraph>Questionnaires as well as exam results may be analysed regarding their reliability and validity. The <Mark2>reliabilities</Mark2> of the instruments used to assess structural and procedural aspects of teaching are given in the last column of <TextGroup><PlainText>Table 1 </PlainText></TextGroup><ImgLink imgNo="1" imgType="table"/>. Cronbach&#8217;s &#945;, signifying the lower limit of reliability, is satisfactory for most questionnaires. Interrater reliability of evaluation data depends on the numbers of completed questionnaires <TextLink reference="26"></TextLink>. However, no studies have yet reported a minimum response rate that would be necessary for results to be deemed reliable (see below). Measuring the reliability of examinations is a prerequisite for using exam results for evaluation purposes. At German medical schools, however, these analyses are performed on less than 40&#37; of summative exams <TextLink reference="24"></TextLink>.</Pgraph><Pgraph>A well-founded interpretation of evaluation results requires the data to be valid. While content validity of examinations and evaluation instruments is usually acceptable, data on criterion and construct validity is often lacking. In addition, confounding factors potentially impacting the validity of results need to be considered. Such factors have mainly been identified for <Mark2>student ratings</Mark2>, and they are being discussed below (Question 4). However, the considerations pertaining to this aspect are mainly based on literature with no direct link to medical education.</Pgraph><Pgraph>The validity of <Mark2>examinations</Mark2> is threatened mainly by two confounding factors <TextLink reference="27"></TextLink>. Construct under-representation exists if the construct to be evaluated by the exam is not completely covered. In this case, students have an advantage if they accidentally focus their learning on those contents that are covered by the exam. The second essential confounding factor is construct-irrelevant variance. This occurs if, for instance, exam questions are constructed sub-optimally, so that the exam assesses not only obvious content knowledge but also students&#8217; abilities to cope with questions that are difficult to understand. Due to a lack of valid external criteria and necessary resources, criterion validity of examinations is usually not evaluated. The above-mentioned instrument for calculating student learning outcomes from comparative self-assessments has been shown to be construct-valid in a first study <TextLink reference="25"></TextLink>. Additional published results were not available at the time of the literature search. Similarly, we did not identify any studies on the reliability and validity of graduate surveys.</Pgraph><SubHeadline>Question 4: Questionnaire design and confounding factors </SubHeadline><Pgraph>The most common evaluation instrument in practice as well as in the identified publications is the self-administered questionnaire. When designing and using questionnaires, several aspects must be considered. As mentioned above, hardly any articles addressing this question were identified. Thus, below we present some of the pertinent findings related to questionnaire design and the most important confounding factors of self-administered evaluation instruments, mainly without a direct link to medical education. </Pgraph><Pgraph>Question type, scale options and data collection procedures may all impact on the psychometric properties of questionnaires. With respect to question type, there are open questions and scaled items. Free-text comments can yield valuable qualitative information, but not every student volunteers their opinion. Scaled items lend themselves to quantitative analyses. Global ratings that are frequently used to obtain an overall appraisal of a course (e.g., using school grades) are criticized by some authors due to their susceptibility to confounding (see below) <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>. Other authors contend that the construct of good teaching is virtually one-dimensional and thus can well be assessed using global ratings <TextLink reference="30"></TextLink>. Additional studies show that the reliability of instruments is positively related to the number of specific items contained <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>Scaled questions yield more favourable ratings if the positive anchor is placed on the left <TextLink reference="33"></TextLink>. Furthermore, the wording of items may be interpreted differently by individual students <TextLink reference="3"></TextLink>. In addition, the evaluation procedure itself needs to be considered. This factor becomes increasingly important because many medical schools have moved their evaluations to online platforms. In general, online evaluations yield lower response rates than traditional paper-based evaluations. While one study did not demonstrate an effect of this on evaluation results (in fact, students provided even more comments on the online version) <TextLink reference="34"></TextLink>, another report stated that low-performing students were less likely to participate in online evaluations than their high-performing peers <TextLink reference="35"></TextLink>. In addition, anonymous evaluations typically yield less favourable ratings than evaluations requiring students to provide identifying information <TextLink reference="36"></TextLink>. With respect to graduate surveys, it should be considered that evaluation results tend to get worse the more time has passed between exposure to teaching and data collection <TextLink reference="37"></TextLink>.</Pgraph><Pgraph> </Pgraph><Pgraph>Items that are used to evaluate individual teachers are particularly prone to confounding. It has been shown that teachers who are enthusiastic and who have a good reputation systematically receive more favourable ratings <TextLink reference="38"></TextLink>, even if the content they present is flawed <TextLink reference="39"></TextLink>, <TextLink reference="40"></TextLink>. Another important confounding factor is student interest in a course <TextLink reference="41"></TextLink>, <TextLink reference="42"></TextLink>: Courses with voluntary participation typically receive more positive ratings than compulsory courses <TextLink reference="28"></TextLink>, <TextLink reference="43"></TextLink>. Moreover, well-attended courses are generally evaluated more positively <TextLink reference="44"></TextLink>. In the context of medical education, teaching in subjects related to basic science and theoretical medicine tend to receive less favourable ratings than clinical teaching. Similarly, lectures yield worse evaluations than small-group formats <TextLink reference="37"></TextLink>.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Ergebnisse">
      <MainHeadline>Ergebnisse</MainHeadline><Pgraph>Insgesamt wurden 116 Arbeiten gefunden, davon 46 in Pubmed, 22 in PsycINFO und vier in PSYNDEX. Des Weiteren konnten 28 Arbeiten in Online-Archiven der oben genannten deutschen Zeitschriften, identifiziert werden. Die &#252;brigen 16 Arbeiten wurden als Sekund&#228;rliteratur, Empfehlung oder durch allgemeine Internetsuchmaschinen gefunden. Eine komplette Liste der 116 Artikel ist in Anhang 1 <AttachmentLink attachmentNo="1"/> verf&#252;gbar. Viele dieser Arbeiten waren jedoch nicht auf die medizinische Lehre bezogen, sondern enthielten eher allgemeine, f&#252;r die Evaluation in der Hochschullehre relevante, Betrachtungen. Zudem fanden sich nicht in allen Arbeiten konkrete Antworten auf die oben formulierten Forschungsfragen. Zur Beantwortung der ersten drei Forschungsfragen wurde auf die Inhalte derjenigen 30 Volltext-Arbeiten zur&#252;ckgegriffen, die einen direkten Bezug zum Medizinstudium aufwiesen. Hinsichtlich der vierten Forschungsfrage fanden sich in der medizinspezifischen Literatur kaum verwertbare Ergebnisse, so dass zu diesem Punkt auch die nicht-medizinspezifische Literatur einbezogen wurde (14 weitere Arbeiten). In der Komplettliste der 116 Volltext-Artikel wurden die Artikel gekennzeichnet, die zur Beantwortung der einzelnen Forschungsfragen herangezogen wurden. </Pgraph><Pgraph>Aufgrund der inhaltlich breit angelegten Forschungsfragen und folglich hohen inhaltlichen und strukturellen Heterogenit&#228;t der eingeschlossenen Arbeiten entschieden wir uns f&#252;r eine narrative Darstellung der Ergebnisse. Dieses Vorgehen wird aktuell f&#252;r &#220;bersichten empfohlen, in denen &#252;berwiegend quasi-experimentelle Studien ber&#252;cksichtigt werden. In diesem Kontext erscheinen numerische Auswertungsverfahren (z.B. Meta-Analysen) zur Bearbeitung entsprechender Fragestellungen nicht optimal, da hierdurch das Spektrum der abgedeckten Inhalte unn&#246;tig eingeengt wird <TextLink reference="4"></TextLink>. Nach aktueller medizindidaktischer Lehrmeinung <TextLink reference="5"></TextLink> k&#246;nnen narrative &#220;bersichten bei guter wissenschaftlicher Durchf&#252;hrung einen h&#246;heren Informationsgehalt bieten als gemittelte Kennzahlen. </Pgraph><Pgraph>Die Pr&#228;sentation orientiert sich an den vier oben genannten Fragen und wird innerhalb der ersten drei Forschungsfragen nach den vier verschiedenen Dimensionen der Lehre gegliedert, die im Folgenden genauer dargestellt werden.</Pgraph><SubHeadline>Frage 1: Qualit&#228;ts-Dimensionen der medizinischen Hochschullehre</SubHeadline><Pgraph>Alle in der publizierten Literatur beschriebenen Zielparameter zur Bewertung der Lehrqualit&#228;t lassen sich einer von vier Dimensionen zuordnen <TextLink reference="6"></TextLink>: Auf curricularer Ebene k&#246;nnen sowohl strukturelle als auch prozedurale Kenngr&#246;&#223;en der Lehre betrachtet werden; als drittes Qualit&#228;tskriterium stehen Dozenten-spezifische Charakteristika, als vierte Dimension das Ergebnis der Lehre zur Verf&#252;gung. Die Strukturdimension umfasst beispielweise die r&#228;umliche Ausstattung der Lehre, Arbeitsmaterialien sowie die Konzeption des Studiums. Der Lehrprozess meint Aspekte wie Interaktion oder Lehr-&#47;Lernatmosph&#228;re. Dozentenspezifische Charakteristika k&#246;nnen unter anderem das didaktische Geschick sowie die Vorbereitung, aber auch der von den Studierenden wahrgenommene Enthusiasmus von Lehrenden sein. Die Ergebnisdimension beschreibt Aspekte wie den Lernerfolg und Entwicklung professioneller Einstellungen durch die Lehre.</Pgraph><Pgraph>Lehrbezogene Strukturen und Prozesse werden von vielen publizierten Evaluationsinstrumenten erfasst (siehe <TextGroup><PlainText>Frage 2</PlainText></TextGroup>), zumal die Datenerhebung und -auswertung leicht automatisierbar ist. Die reliable und valide Bewertung der Lehrleistung individueller Dozenten ist weitaus komplexer. Insbesondere aufgrund m&#246;glicher Konsequenzen solcher Evaluationsergebnisse f&#252;r die Karriere wissenschaftlicher Mitarbeiter m&#252;ssen die entsprechenden Instrumente besonders hohen psychometrischen Anspr&#252;chen gen&#252;gen. </Pgraph><Pgraph>Eine Beurteilung der Lehrqualit&#228;t anhand der im Rahmen der Lehre erzielten Ergebnisse erscheint intuitiv. Blumberg <TextLink reference="7"></TextLink> schl&#228;gt diesbez&#252;glich drei Qualit&#228;ten vor: Als &#8222;educational outcome&#8220; bezeichnet die Autorin die Entwicklung von Fertigkeiten zum eigenst&#228;ndigen lebenslangen Lernen. Unter &#8222;clinical career outcomes&#8220; werden die f&#252;r den Arztberuf erforderlichen Kompetenzen zusammengefasst (siehe auch <TextLink reference="8"></TextLink>). Unter &#8222;environmental outcomes&#8220; versteht Blumberg die Ausbildung einer professionellen Einstellung zur Lehre selbst &#8211; in dem Sinne, dass Absolventen die Weitergabe von Wissen und Fertigkeiten als eigene professionelle Aufgabe im Beruf verstehen und somit das Klima an Ausbildungsst&#228;tten pr&#228;gen. Bislang fehlt aber ein allgemein anerkanntes Konzept zur Operationalisierung dieser &#8220;educational outcomes&#8220;.</Pgraph><SubHeadline>Frage 2: Zielgr&#246;&#223;en und Erhebungsinstrumente</SubHeadline><Pgraph>Die folgende Darstellung der Zielgr&#246;&#223;en und Erhebungsinstrumente orientiert sich wie oben bereits erw&#228;hnt an vier Dimensionen der Lehrqualit&#228;t: Struktur, Prozess, Dozent und Ergebnis. Da eine trennscharfe Zuordnung der vier Dimension zu den einzelnen Instrumenten (und umgekehrt) nicht immer m&#246;glich ist, werden die verf&#252;gbaren Instrumente im Kontext derjenigen Dimension er&#246;rtert, auf die sie in erster Linie abzielen. Eine Zusammenschau aller identifizierten medizinspezifischen Instrumente bietet Tabelle 1 <ImgLink imgNo="1" imgType="table"/>.</Pgraph><Pgraph>Lehrbezogene <Mark2>Strukturen und Prozesse</Mark2> werden vorrangig mit Hilfe von Frageb&#246;gen evaluiert, die von den Studierenden selbst ausgef&#252;llt werden. Einige der verf&#252;gbaren Instrumente decken sowohl Strukturen als auch Prozesse ab (&#8222;Medical Student Experience Questionnaire&#8220;; MedSEQ; 32 Items <TextLink reference="9"></TextLink> und &#8222;Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin&#8220;; 12 Items <TextLink reference="10"></TextLink>). Vier weitere Instrumente beziehen sich in erster Linie auf lehrbezogene Prozesse und verwenden in diesem Kontext den Begriff &#8222;Lernumgebung&#8220; (&#8222;learning environment&#8220;). Das &#8222;Dundee Ready Education Environment Measure&#8220; (DREEM; 50 Items <TextLink reference="11"></TextLink>) steht seit kurzem auch auf Deutsch zur Verf&#252;gung <TextLink reference="12"></TextLink>. Der sehr umfassende &#8222;Learning Environment Questionnaire&#8220; (LEQ; 65 Items <TextLink reference="13"></TextLink>) weist &#220;berschneidungen mit dem etwas k&#252;rzeren &#8222;Measuring the School Learning Envionment Survey&#8220; (MSLES; 50 Items <TextLink reference="14"></TextLink>) auf.</Pgraph><Pgraph>Speziell f&#252;r die Evaluation der klinischen Lehre wurde das Instrument &#8222;Medical Instructional Quality&#8220; (MedIQ; 25 Items <TextLink reference="15"></TextLink>) entwickelt, das vier Aspekte der klinischen Lehre im ambulanten Setting erfasst; unter anderem werden hier das klinische Lernumfeld und die Integration der Lernenden in die Versorgung von Patienten thematisiert. Eine umfassende &#220;bersicht &#252;ber weitere Instrumente zur Bewertung der Lernumgebung wurde im Jahr 2010 publiziert <TextLink reference="16"></TextLink>. </Pgraph><Pgraph>Zur Bewertung <Mark2>individueller Dozenten</Mark2> stehen zahlreiche Instrumente zur Verf&#252;gung (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Auch hier stehen von den Studierenden ausgef&#252;llte Evaluationsb&#246;gen meist mit skalierten Items und Freitextfeldern im Vordergrund. Die medizinspezifischen Dozenten-Evaluationsinstrumente beziehen sich in erster Linie auf die klinische Lehre (z.B. Unterricht am Krankenbett) und weniger auf Vorlesungen und Seminare. Details zu den verf&#252;gbaren Instrumenten sind der Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zu entnehmen. Hervorzuheben ist ein Bogen zur Bewertung von Dozenten, die im Kontext der ambulanten Patientenversorgung unterrichten (&#8222;Student Evaluation of Teaching in Outpatient Clinics&#8220;; SETOC <TextLink reference="17"></TextLink>). Zudem soll auf den SFDP-26 (&#8222;Stanford Faculty Development Program&#8220; <TextLink reference="18"></TextLink>)-Bogen hingewiesen werden, der auch in deutscher &#220;bersetzung verf&#252;gbar ist <TextLink reference="19"></TextLink>. Dieser urspr&#252;nglich an der Mayo Clinic entwickelte Bogen bildet die sieben &#8222;Stanford-Kriterien guter Lehre&#8220; ab und weist somit eine gute theoretische Fundierung auf. </Pgraph><Pgraph>Das <Mark2>Ergebnis der Lehre</Mark2>, d.h. der Lernerfolg der Studierenden spiegelt sich, wie oben ausgef&#252;hrt, nicht nur im Erwerb von Faktenwissen und praktischen Fertigkeiten sondern auch in der Entwicklung einer professionellen Einstellung wider <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Leider konnten keine Instrumente identifiziert werden, die dieses Spektrum ersch&#246;pfend abbilden. An einigen deutschen Fakult&#228;ten werden die Leistungen der Studierenden im schriftlichen Teil des Zweiten Staatsexamens als Indikatoren der Lehrqualit&#228;t interpretiert <TextLink reference="20"></TextLink>. Allerdings wird in Multiple Choice-Pr&#252;fungen vorrangig Faktenwissen thematisiert, und Studierende k&#246;nnen durch das Wiedererkennen der richtigen Antwort <TextLink reference="21"></TextLink> sowie durch Trainings im Umgang mit MC-Fragen <TextLink reference="22"></TextLink> ihr Pr&#252;fungsergebnis unabh&#228;ngig von ihrem Faktenwissen steigern. &#196;hnlichen Limitationen unterliegt der an einigen deutschen Fakult&#228;ten eingesetzte Progress Test. Diese formative, wiederholt w&#228;hrend des Studiums durchgef&#252;hrte Pr&#252;fungsform verwendet ebenfalls MC-Fragen. Der Test wird durch das quer- und l&#228;ngsschnittliche Design jedoch als sinnvolle Quelle f&#252;r wichtige Informationen f&#252;r den Lernenden sowie f&#252;r die Curriculumsevaluation angesehen <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>Die staatliche Examenspr&#252;fung weist in der Regel eine hohe interne Konsistenz auf. Zur Bewertung des Ergebnisses einzelner Veranstaltungen innerhalb einer Fakult&#228;t m&#252;ssen jedoch fakult&#228;tsinterne Pr&#252;fungen herangezogen werden. Diese gen&#252;gen einer aktuellen Analyse zufolge oft nicht den Qualit&#228;tsstandards <TextLink reference="24"></TextLink>. Als Alternative zur Messung des Lehr-Ergebnisses anhand von Pr&#252;fungsleistungen wurde k&#252;rzlich ein Instrument zur Absch&#228;tzung des Lernerfolgs anhand wiederholter studentischer Selbsteinsch&#228;tzungen entwickelt. Dieses bietet gegen&#252;ber Abschlusspr&#252;fungen den Vorteil, dass es auch den initialen Leistungsstand der Studierenden ber&#252;cksichtigt und somit Aussagen &#252;ber den tats&#228;chlichen Lernzuwachs w&#228;hrend einer Veranstaltung zul&#228;sst <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Schlie&#223;lich ist als Methode zur Bewertung der medizinischen Lehre die Absolventenbefragung zu nennen. Prinzipiell k&#246;nnen mit dieser Methode alle vier Dimensionen der Lehrqualit&#228;t betrachtet werden. Im Rahmen der vorliegenden Literatursuche wurden jedoch weder medizinspezifische Forschungsarbeiten noch Studien aus anderen Bereichen der Hochschullehre identifiziert, in denen die Qualit&#228;t der hierzu genutzten Instrumente systematisch untersucht wurde. </Pgraph><SubHeadline>Frage 3: Psychometrische Eigenschaften der Erhebungsinstrumente</SubHeadline><Pgraph>Sowohl studentische Evaluationsb&#246;gen als auch Pr&#252;fungen k&#246;nnen hinsichtlich ihrer Reliabilit&#228;t und Validit&#228;t beurteilt werden. Die <Mark2>Reliabilit&#228;t</Mark2> der Instrumente zur Bewertung lehrbezogener Strukturen und Prozesse ist der letzten Spalte von Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zu entnehmen. Das Cronbach&#8217;s &#945; als unteres Grenzma&#223; der Reliabilit&#228;t ist f&#252;r die meisten betrachteten Fragebogen-Instrumente zufriedenstellend. Die Interrater-Reliabilit&#228;t der Evaluation h&#228;ngt von der Anzahl der ausgef&#252;llten Evaluationsb&#246;gen ab <TextLink reference="26"></TextLink>. Allerdings liegen bislang keine Studien dazu vor, welcher absolute R&#252;cklauf mindestens erforderlich ist, um aussagekr&#228;ftige Daten zu erhalten (s.u.). Die Messung der Reliabilit&#228;t fakult&#228;tsinterner Pr&#252;fungen stellt eine wesentliche Voraussetzung f&#252;r deren Nutzung zu Evaluationszwecken dar. Bislang werden entsprechende statistische Analysen allerdings f&#252;r weniger als 40&#37; der Leistungsnachweise an deutschen Medizinischen Fakult&#228;ten angestellt <TextLink reference="24"></TextLink>.</Pgraph><Pgraph>Eine inhaltlich fundierte Interpretation von Evaluationsergebnissen setzt voraus, dass die erhobenen Daten valide sind. W&#228;hrend viele Evaluationsb&#246;gen und Pr&#252;fungen eine akzeptable Inhaltsvalidit&#228;t aufweisen, sind in der Regel keine Informationen &#252;ber ihre Kriteriums- und Konstruktvalidit&#228;t verf&#252;gbar. Zu ber&#252;cksichtigen sind au&#223;erdem St&#246;rfaktoren, die sich auf die Validit&#228;t der Ergebnisse auswirken k&#246;nnen und in erster Linie bei <Mark2>studentischen Bewertungen</Mark2> identifiziert wurden. Diese m&#246;glichen Faktoren sind unten genauer dargestellt (<TextGroup><PlainText>Frage 4</PlainText></TextGroup>); allerdings st&#252;tzen sich die Betrachtungen zu diesem Aspekt vorrangig auf Literatur ohne direkten Bezug zum Medizinstudium. </Pgraph><Pgraph>Die Validit&#228;t von <Mark2>Pr&#252;fungen</Mark2> wird im Wesentlichen durch zwei St&#246;rfaktoren gef&#228;hrdet <TextLink reference="27"></TextLink>. Eine &#8222;Konstrukt-Unterrepr&#228;sentation&#8220; liegt dann vor, wenn das zu pr&#252;fende Konstrukt in der Pr&#252;fung nicht ersch&#246;pfend behandelt wird. In diesem Fall sind Studierende im Vorteil, die (zuf&#228;llig) diejenigen Inhalte intensiver gelernt haben, die von der Pr&#252;fung abgedeckt wurden. Der zweite wesentliche St&#246;rfaktor ist die &#8222;Konstrukt-irrelevante Varianz&#8220;; sie entsteht beispielsweise dann, wenn Pr&#252;fungsfragen suboptimal konstruiert sind, so dass nicht nur die offensichtlichen Inhalte, sondern auch die Bef&#228;higung der Studierenden zum Umgang mit schwer verst&#228;ndlichen Formulierungen gepr&#252;ft wird. Die Kriteriumsvalidit&#228;t von Pr&#252;fungen wird im praktischen Lehr-Alltag in Ermangelung eines validen Au&#223;enkriteriums und der erforderlichen Ressourcen meist nicht &#252;berpr&#252;ft. Das oben erw&#228;hnte Instrument zur Absch&#228;tzung des studentischen Lernerfolgs anhand wiederholter Selbsteinsch&#228;tzungen hat sich in einer ersten Studie als konstruktvalide erwiesen <TextLink reference="25"></TextLink>; weitere publizierte Ergebnisse lagen zum Zeitpunkt der hier vorgestellten Literatursuche noch nicht vor. Auch konnten keine Studien zur Reliabilit&#228;t und Validit&#228;t von Absolventenbefragungen identifiziert werden. </Pgraph><SubHeadline>Frage 4: Fragebogenkonstruktion und St&#246;rgr&#246;&#223;en</SubHeadline><Pgraph>Das dominierende Erhebungsinstrument sowohl in der Praxis als auch in den identifizierten Publikationen sind von Studierenden auszuf&#252;llende Frageb&#246;gen. Bei der Konstruktion und dem Einsatz von Fragb&#246;gen sind jedoch einige Aspekte zu ber&#252;cksichtigen. Wie oben bereits angemerkt, lie&#223; sich f&#252;r diese Forschungsfrage bedauerlicherweise kaum medizinspezifische Literatur identifizieren. Somit sollen im Folgenden einige einschl&#228;gige Erkenntnisse zur Fragebogenkonstruktion und zu den wichtigsten St&#246;rgr&#246;&#223;en studentischer Lehrevaluationsinstrumente vornehmlich ohne direkten Bezug zum Medizinstudium dargestellt werden. </Pgraph><Pgraph>Sowohl das Fragenformat als auch die Antwortskala und das Erhebungsformat k&#246;nnen sich auf die psychometrischen Eigenschaften der Instrumente auswirken. Bez&#252;glich des Fragenformats wird zun&#228;chst zwischen Freitextfragen und skalierten Items unterschieden. Frei formulierte Evaluationskommentare k&#246;nnen wertvolle qualitative Informationen liefern, werden aber nicht von allen Studierenden abgegeben. Skalierte Items bilden die Grundlage quantitativer Analysen. Die h&#228;ufig verwendeten globalen Items zur Gesamtbewertung einer Veranstaltung (z.B. nach dem Schulnotenprinzip) werden von einigen Autoren aufgrund ihrer Anf&#228;lligkeit f&#252;r verzerrende Einfl&#252;sse (s.u.) kritisiert <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>. Andere Autoren vertreten hingegen die Ansicht, dass gute Lehre als nahezu eindimensionales Konstrukt gut mittels globaler Items beurteilt werden kann <TextLink reference="30"></TextLink>. Wieder andere Studien zeigen, dass die Reliabilit&#228;t eines Instruments umso h&#246;her ist, je mehr spezifische Items es enth&#228;lt <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>. </Pgraph><Pgraph>Bez&#252;glich der Skalierung der Antwortoptionen ist anzumerken, dass generell bessere Bewertungen zu erwarten sind, wenn sich der positive Anker der Skala links befindet <TextLink reference="33"></TextLink>. Des Weiteren ist bekannt, dass die Formulierungen der Items nicht von allen Studierenden gleich interpretiert werden <TextLink reference="3"></TextLink>. Auch das Erhebungsformat ist zu ber&#252;cksichtigen. Diesem kommt eine wachsende Bedeutung zu, da viele Fakult&#228;ten die Evaluation ihrer Lehrveranstaltungen mittlerweile &#252;ber Online-Plattformen abwickeln. Online-Evaluationen gehen zumeist mit einem geringeren R&#252;cklauf einher als traditionelle Papier-Evaluationen. Wenngleich sich dies einer Studie zufolge nicht auf die Evaluationsergebnisse auswirkt und online sogar mehr Freitext-Kommentare abgegeben werden <TextLink reference="34"></TextLink>, wurde auch berichtet, dass sich leistungsschwache Studierende weniger an Online-Evaluationen beteiligen als leistungsstarke <TextLink reference="35"></TextLink>. Des Weiteren ist anzumerken, dass anonyme Befragungen in der Regel schlechtere Bewertungen liefern als Befragungen, in denen die Studierenden sich identifizieren m&#252;ssen <TextLink reference="36"></TextLink>. Hinsichtlich der oben erw&#228;hnten Absolventenbefragungen ist zu beachten, dass Evaluationsergebnisse umso schlechter ausfallen, je gr&#246;&#223;er der zeitliche Abstand zwischen der Lehre und ihrer Bewertung ist <TextLink reference="37"></TextLink>.</Pgraph><Pgraph>Items, die zur Bewertung individueller Dozenten eingesetzt werden, zeigen sich besonders st&#246;ranf&#228;llig. So wurde wiederholt gezeigt, dass Lehrende, die enthusiastisch auftreten oder eine gute Reputation <TextLink reference="38"></TextLink> haben, systematisch besser bewertet werden &#8211; selbst wenn die von ihnen vermittelten Inhalte fehlerhaft sind <TextLink reference="39"></TextLink>, <TextLink reference="40"></TextLink>. Das studentische Interesse an einem Kurs ist ein weiterer wichtiger St&#246;rfaktor <TextLink reference="41"></TextLink>, <TextLink reference="42"></TextLink> &#8211; folglich werden Wahlkurse in der Regel besser bewertet als Pflichtkurse <TextLink reference="28"></TextLink>, <TextLink reference="43"></TextLink>. Veranstaltungen, die besser besucht sind, erhalten ebenfalls zumeist positivere Bewertungen <TextLink reference="44"></TextLink>. Speziell im Medizinstudium werden die Veranstaltungen theoretischer F&#228;cher tendenziell schlechter bewertet als die Lehre in klinischen F&#228;chern; ebenso erhalten Vorlesungen im Schnitt schlechtere Bewertungen als Kleingruppenunterricht <TextLink reference="37"></TextLink>.</Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Discussion">
      <MainHeadline>Discussion</MainHeadline><Pgraph>The present article is a broad review of the available literature on evaluation in medical education. The results suggest that teaching quality is not a univariate construct. Rather, all four &#8211; partially overlapping &#8211; dimensions (&#8216;structure&#8217;, &#8216;process&#8217;, &#8216;instructor&#8217;, and &#8216;outcome&#8217;) can and should be considered in evaluations. In addition, interpretation of evaluation results needs to be informed by the construct underlying the data collection tool. For instance, student appraisals of a teacher&#8217;s punctuality or the condition of classrooms do not allow direct conclusions to be drawn on student learning outcomes. Exam results may be used to estimate learning outcome. However, they merely reflect performance at one point in time and do not provide information on progress during a course. Progress testing is one solution to this problem, but given that it is solely based on multiple choice questions it is unable to assess practical skills or professional attitudes. In addition, it does not use a pre-post design, which would be necessary to evaluate individual courses or modules (as opposed to student cohorts or entire study programs).</Pgraph><Pgraph>The quantitative analysis of evaluation data (e.g., by calculating means of global course ratings provided by students using a grading system) facilitates comparisons across courses. However, this approach entails two risks: First, global ratings are unlikely to represent a clear-cut construct. Second, such ratings are prone to several confounding factors <TextLink reference="45"></TextLink>. If one assumes that teaching quality with all its facets can be reflected by one single mean rating, both risks threaten the reliability and validity of such global assessments. In addition to the confounding factors mentioned above, the length of data collection tools should be mentioned at this point. Some of the questionnaires listed in Table 1 <ImgLink imgNo="1" imgType="table"/> contain more than <TextGroup><PlainText>60 items</PlainText></TextGroup> and are probably not well-suited for frequent and regular use in course evaluations due to low student acceptance <TextLink reference="46"></TextLink>.</Pgraph><Pgraph>Less than half of the articles identified in the initial search were included in this review. The main reason for exclusion was a lack of relatedness to medical education. For instance, the validated questionnaire SEEQ (&#8220;Students&#8217; Evaluation of Educational Quality&#8221;) <TextLink reference="47"></TextLink> is widely used in higher education institutions in the United States. It is unclear to which extent this instrument can be generalized to medical education as its items are not specific for medical education. In addition, this questionnaire was developed for higher education in the U.S. which differs from the German setting in some respect. German instruments used to evaluate (non-medical) teaching are the HILVE (&#8220;Heidelberger Inventar zur Lehrveranstaltungs-Evaluation&#8221;) <TextLink reference="48"></TextLink> and the HILVE II. Both tools possess good psychometric properties, but again generalisability to medical education is questionable. Due to the specifics of medical education mentioned above, further psychometric testing is definitely advisable before applying this tool. </Pgraph><Pgraph>The results of this literature review do not justify general recommendations to be made for the use of specific questionnaires to evaluate medical education in Germany. One reason for this is that the choice of the data collection tool should be guided by the goal of evaluation. However, a preliminary and resource efficient solution could be to use the Marburger questionnaire (for structural and procedural aspects) and the SFDP-26 German <TextLink reference="19"></TextLink> (for teachers), as they are already available in German and possess good psychometric characteristics. Since those instruments that were mainly developed and validated in English-speaking countries cannot easily be transferred to the context of medical education in Germany, a medium-term goal should be to design a new questionnaire from existing and new items and validate this new tool in German medical schools. This process should be informed by psychometric expertise and could involve several German medical schools as part of a related research project. By using an instrument that has been mutually agreed upon at multiple locations, greater comparability of the results could be achieved. A possible development and implementation strategy is currently being discussed between MFT and AWMF.  </Pgraph><Pgraph>There is a risk that relevant publications have not been included in our final selection of papers for this review. The main limitation of the present article is that the majority of included studies were done in English-speaking countries where medical education can differ substantially from Germany (e.g., clerkships cannot readily be compared to the German &#8216;Blockpraktikum&#8217; and &#8216;Famulatur&#8217;; there is no direct equivalent to the &#8216;Praktische Jahr&#8217; in most English-speaking countries). In addition, the sources used for answering the fourth research question were largely not specific to medical education. At best, it is questionable if the insights into questionnaire design and confounding factors as they pertain to evaluation in other disciplines can readily be transferred to medical education. Finally, our search for published instruments used to assess teaching quality mainly identified self-administered questionnaires that are completed by students. Other data collection procedures (e.g., graduate surveys) might also provide helpful information. Due to limited data, we chose not to discuss these instruments in the present review.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Diskussion">
      <MainHeadline>Diskussion</MainHeadline><Pgraph>Die vorliegende Arbeit ist das Ergebnis einer breit angelegten Bestandsaufnahme der verf&#252;gbaren Literatur zur Evaluation der Lehre in der Humanmedizin. Die Ergebnisse der Recherche unterstreichen nochmals, dass die Qualit&#228;t der Lehre kein eindimensionales Konstrukt darstellt; vielmehr k&#246;nnen und sollten in Evaluationen alle vier &#8211; teilweise &#252;berlappenden &#8211; Dimensionen &#8222;Struktur&#8220;, &#8222;Prozess&#8220;, &#8222;Dozent&#8220; und &#8222;Ergebnis&#8220; betrachtet werden. Au&#223;erdem muss die Beurteilung von Evaluationsergebnissen stets vor dem Hintergrund des Konstrukts erfolgen, das dem genutzten Instrument zugrunde liegt. Konkret k&#246;nnen aus studentischen Bewertungen der P&#252;nktlichkeit von Dozenten oder der r&#228;umlichen Gegebenheiten an einer Hochschule keine unmittelbaren R&#252;ckschl&#252;sse auf den Lernerfolg der Studierenden gezogen werden. Pr&#252;fungsergebnisse k&#246;nnen zwar zur Absch&#228;tzung des Lehr-Ergebnisses herangezogen werden; sie bilden jedoch in der Regel nur den Leistungsstand zu einem festen Zeitpunkt ab und erlauben keine Bewertung des Lernerfolgs im Laufe einer Lehrveranstaltung. Der Progress Test &#252;berwindet diese Einschr&#228;nkung zwar durch seine wiederholte Durchf&#252;hrung, beinhaltet jedoch nur MC-Fragen und bildet daher keine praktischen Fertigkeiten oder professionellen Einstellungen ab. Au&#223;erdem wird er nicht vor und nach jedem Kurs&#47;Modul durchgef&#252;hrt &#8211; dies w&#228;re aber erforderlich, um einzelne Kurse&#47;Module (und nicht nur Studierendenkohorten bzw. ganze Studieng&#228;nge) zu evaluieren.</Pgraph><Pgraph>Die quantitative Analyse von Evaluationsdaten (z.B. durch Mittelwertbildung der studentischen Globalbewertung eines Kurses auf einer Schulnoten-Skala) er&#246;ffnet zwar die M&#246;glichkeit des Vergleichs zwischen Veranstaltungen; dieses Vorgehen birgt aber zwei Risiken: Erstens wird mit Globalbewertungen wahrscheinlich ein nicht trennscharf definiertes Konstrukt abgebildet, und zweitens sind solche Bewertungen einer Vielzahl verzerrender Einfl&#252;sse unterworfen <TextLink reference="45"></TextLink>. Beides wirkt sich mindernd auf die Reliabilit&#228;t und Validit&#228;t von Globalbewertungen aus, falls angenommen wird, dass die Qualit&#228;t der gesamten Lehre mit allen Facetten durch eine einzige Kennzahl abgebildet werden kann. Zus&#228;tzlich zu den zahlreichen oben genannten St&#246;rfaktoren soll an dieser Stelle auch der Umfang der Erhebungsinstrumente erw&#228;hnt werden. Einige der in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> aufgef&#252;hrten B&#246;gen enthalten &#252;ber 60 Items und eignen sich aufgrund mangelnder studentischer Akzeptanz wahrscheinlich nicht zum Einsatz im Rahmen einer regelm&#228;&#223;igen und h&#228;ufigen Veranstaltungsevaluation <TextLink reference="46"></TextLink>.</Pgraph><Pgraph>Weniger als die H&#228;lfte der identifizierten Volltext-Arbeiten haben Eingang in die hier pr&#228;sentierte Zusammenstellung gefunden. Hauptgrund f&#252;r den Ausschluss der meisten Arbeiten war ihr fehlender Bezug zum Medizinstudium. Sehr weit verbreitet ist im amerikanischen Raum beispielsweise der validierte Fragenbogen SEEQ (&#8222;Students&#8217; Evaluation of Educational Quality&#8221;) <TextLink reference="47"></TextLink>. Ob dieses Instrument auf die Medizin &#252;bertragbar ist, ist fraglich: Zum einen ist es f&#252;r die amerikanische Hochschullehre entwickelt worden, die nur eingeschr&#228;nkt mit der deutschen vergleichbar ist, zum anderen ist es kein medizinspezifisches Instrument. Weithin bekannte deutschsprachige Instrumente zur Evaluation der (nicht-medizinischen) Hochschullehre sind HILVE (&#8222;Heidelberger Inventar zur Lehrveranstaltungs-Evaluation&#8220;) <TextLink reference="48"></TextLink> und HILVE II. Beide besitzen gute psychometrische Charakteristika, aber auch hier stellt sich die Frage nach der &#220;bertragbarkeit auf den medizinischen Kontext. Aufgrund der eingangs genannten Besonderheiten des Medizinstudiums erscheint auf jeden Fall vor einem entsprechenden Einsatz eine erneute psychometrische Testung in diesem Setting geboten. </Pgraph><Pgraph>Generelle Empfehlungen zum Einsatz spezifischer Instrumente im Medizinstudium an deutschen Fakult&#228;ten lassen sich aus den Ergebnissen der Literatursuche nicht ableiten, da die Wahl des Instruments sich wie oben dargestellt am Evaluationsziel orientieren sollte. Eine vorl&#228;ufige, ressourcensparende L&#246;sung k&#246;nnte darin bestehen, die bereits in deutscher Sprache verf&#252;gbaren und mit guten psychometrischen Charakteristika ausgestatteten B&#246;gen Marburger Fragebogen (f&#252;r Strukturen und Prozesse) und SFDP-26 German <TextLink reference="19"></TextLink> (f&#252;r Dozenten) einzusetzen. Aufgrund der eingeschr&#228;nkten &#220;bertragbarkeit der vornehmlich im angels&#228;chsischen Sprachraum entwickelten und validierten Instrumente auf den Kontext des deutschen Medizinstudiums sollte mittelfristig angestrebt werden, aus bereits verf&#252;gbaren, teilweise aber auch neu konstruierten Items einen neuen Fragebogen zu erstellen, der dann direkt an deutschen Fakult&#228;ten evaluiert wird. Dieser Prozess muss von psychometrischer Expertise begleitet werden und k&#246;nnte im Rahmen eines entsprechenden Forschungsprojekts mehrere interessierte medizinische Fakult&#228;ten einbeziehen. Mit Hilfe eines gemeinsam konsentierten Instrumentes k&#246;nnte durch die Nutzung an mehreren Standorten eine h&#246;here Vergleichbarkeit der Ergebnisse erreicht werden. Bez&#252;glich einer m&#246;glichen Entwicklungs- und Implementierungsstrategie finden zurzeit weitergehende Konsultationen zwischen MFT und AWMF statt. </Pgraph><Pgraph>Neben der M&#246;glichkeit, dass relevante Publikationen in unserer Literatursuche nicht enthalten sind, ist die Hauptlimitation der vorliegenden Arbeit, dass ein Gro&#223;teil der betrachteten Literatur aus dem anglo-amerikanischen Sprachraum stammt mit zuweilen erheblichen Unterschieden gegen&#252;ber dem Medizinstudium in Deutschland (z.B. eingeschr&#228;nkte &#220;bertragbarkeit angels&#228;chsischer &#8222;clerkships&#8220; auf deutsche Blockpraktika und Famulaturen; Fehlen eines direkten &#196;quivalents zum Praktischen Jahr in den angels&#228;chsischen Studieng&#228;ngen). Zudem bezogen sich die Quellen, auf die bei der vierten Forschungsfrage zur&#252;ckgegriffen wurde, gr&#246;&#223;tenteils nicht prim&#228;r auf das Medizinstudium. Es ist zumindest fraglich, ob Erkenntnisse zur Fragebogenkonstruktion und St&#246;rgr&#246;&#223;en in der Evaluation aus anderen Disziplinen sich ohne weiteres auf das Studium der Humanmedizin &#252;bertragen lassen. Schlie&#223;lich lieferte die von uns angestellte Suche nach publizierten Instrumenten zur Beurteilung der Lehrqualit&#228;t haupts&#228;chlich Frageb&#246;gen, die im Rahmen einer studentischen Evaluation eingesetzt werden k&#246;nnen. Andere Verfahren (z.B. Absolventenbefragungen) k&#246;nnten ebenfalls hilfreiche Informationen liefern; aufgrund der diesbez&#252;glich limitierten Datenlage wurde auf eine entsprechende Diskussion im Rahmen dieser &#220;bersicht verzichtet. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Conclusion">
      <MainHeadline>Conclusion</MainHeadline><Pgraph>The evaluation of medical education is mainly based on student ratings of structural and procedural aspects of teaching as well as the performance of individual teachers. The present review identified several reliable instruments to assess these three dimensions of teaching quality. However, evaluation research unrelated to medicine has identified a number of confounding factors impacting on student ratings, thereby threatening the validity of these instruments. These confounding factors should be considered or re-addressed when using student ratings to evaluate medical education. In Germany, the assessment of teaching quality based on exam performance is problematic as there is currently no comprehensive quality control of summative exams at German medical schools. Graduate surveys are not widely used and rely on instruments with unknown validity and reliability.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Fazit">
      <MainHeadline>Fazit</MainHeadline><Pgraph>Die Evaluation der medizinischen Hochschullehre st&#252;tzt sich in erster Linie auf studentische Bewertungen, die sich auf lehrbezogene Strukturen und Prozesse sowie die Leistung individueller Dozenten beziehen. In der vorliegenden Recherche wurden einige reliable Instrumente zur Betrachtung dieser drei Dimensionen der Lehrqualit&#228;t identifiziert; allerdings sind zumindest einige St&#246;rfaktoren aus nicht medizinichscher Literatur bekannt, die sich auf das studentische Bewertungsverhalten auswirken und somit die Validit&#228;t der Erhebungsinstrumente einschr&#228;nken. Diese St&#246;rfaktoren sollten auch bei der Nutzung studentischer Evaluationen zur Bewertung der medizinischen Lehre Ber&#252;cksichtigung finden bzw. neu gepr&#252;ft werden. Die Bewertung der Lehrqualit&#228;t anhand von Pr&#252;fungsergebnissen ist aufgrund der bisher ungesicherten Qualit&#228;t fakult&#228;tsinterner Pr&#252;fungen in Deutschland problematisch; Absolventenbefragungen werden nicht fl&#228;chendeckend und mit Instrumenten ungewisser Validit&#228;t und Reliabilit&#228;t durchgef&#252;hrt. </Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Clinical and practical implications">
      <MainHeadline>Clinical and practical implications</MainHeadline><Pgraph><UnorderedList><ListItem level="1">The quality of medical education is a multi-dimensional construct; the four basic dimensions for assessing teaching quality are structures, processes, teacher characteristics, and learning outcome.</ListItem><ListItem level="1">To assess structures, processes and individual teachers in medical education, several instruments with good psychometric characteristics are available. The assessment of learning outcome is limited mainly due to unknown or insufficient reliability and validity of summative exams in medical schools.</ListItem><ListItem level="1">When designing and implementing evaluation instruments, the confounding factors presented in this review must be taken into account as far as they are likely to generalise from other fields of university level teaching to medical education.</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Konsequenzen f&#252;r Klinik und Praxis">
      <MainHeadline>Konsequenzen f&#252;r Klinik und Praxis</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Die Qualit&#228;t der medizinischen Lehre ist ein mehrdimensionales Konstrukt; die wesentlichen vier Dimensionen, anhand derer die Lehrqualit&#228;t beurteilt werden kann, sind Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis.</ListItem><ListItem level="1">F&#252;r die Bewertung von Strukturen, Prozessen und individuellen Dozenten im Medizinstudium stehen verschiedene Instrumente mit guten psychometrischen Charakteristika zur Verf&#252;gung. Die Messung des Lehr-Ergebnisses ist aufgrund der gr&#246;&#223;tenteils unbekannten bzw. unbefriedigenden Reliabilit&#228;t und Validit&#228;t fakult&#228;tsinterner Pr&#252;fungen zurzeit noch erheblichen Limitationen unterworfen.</ListItem><ListItem level="1">Bei der Konzeption und Nutzung von Evaluationsinstrumenten m&#252;ssen die in dieser Arbeit dargestellten St&#246;rgr&#246;&#223;en ber&#252;cksichtigt werden, insofern diese aus anderen Lehr-Kontexten bekannten Faktoren auf das Medizinstudium &#252;bertragbar sind.  </ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock language="en" linked="yes" name="Notes">
      <MainHeadline>Notes</MainHeadline><SubHeadline>Competing interests</SubHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph><SubHeadline>Authorship</SubHeadline><Pgraph>The authors Herrmann-Lingen C and Raupach T contributed equally to this work.</Pgraph></TextBlock>
    <TextBlock language="de" linked="yes" name="Anmerkungen">
      <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erkl&#228;ren, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph><SubHeadline>Autorenschaft</SubHeadline><Pgraph>Die Autoren Herrmann-Lingen C and Raupach T haben gleicherma&#223;en zu der Arbeit beigetragen.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>DeGEval &#8211; Gesellschaft f&#252;r Evaluation e.V.</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2002</RefYear>
        <RefBookTitle>Standards f&#252;r Evaluation</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>DeGEval &#8211; Gesellschaft f&#252;r Evaluation e.V., editor. Standards f&#252;r Evaluation. K&#246;ln: DeGEval; 2002.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Kogan JR</RefAuthor>
        <RefAuthor>Shea JA</RefAuthor>
        <RefTitle>Course evaluation in medical education</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Teach Teach Educ</RefJournal>
        <RefPage>251-64</RefPage>
        <RefTotal>Kogan JR, Shea JA. Course evaluation in medical education. Teach Teach Educ. 2007;23(3):251-64. DOI: 10.1016&#47;j.tate.2006.12.020</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1016&#47;j.tate.2006.12.020</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Billings-Gagliardi S</RefAuthor>
        <RefAuthor>Barrett SV</RefAuthor>
        <RefAuthor>Mazor KM</RefAuthor>
        <RefTitle>Interpreting course evaluation results: insights from thinkaloud interviews with medical students</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>1061-70</RefPage>
        <RefTotal>Billings-Gagliardi S, Barrett SV, Mazor KM. Interpreting course evaluation results: insights from thinkaloud interviews with medical students. Med Educ. 2004 Oct;38(10):1061-70. DOI: 10.1111&#47;j.1365-2929.2004.01953.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2929.2004.01953.x</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Colliver JA</RefAuthor>
        <RefAuthor>Kucera K</RefAuthor>
        <RefAuthor>Verhulst SJ</RefAuthor>
        <RefTitle>Meta-analysis of quasi-experimental research: are systematic narrative reviews indicated&#63;</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>858-65</RefPage>
        <RefTotal>Colliver JA, Kucera K, Verhulst SJ. Meta-analysis of quasi-experimental research: are systematic narrative reviews indicated&#63; Med Educ. 2008 Sep;42(9):858-65. DOI: 10.1111&#47;j.1365-2923.2008.03144.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2008.03144.x</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Eva KW</RefAuthor>
        <RefTitle>On the limits of systematicity</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>852-3</RefPage>
        <RefTotal>Eva KW. On the limits of systematicity. Med Educ. 2008 Sep;42(9):852-3. DOI: 10.1111&#47;j.1365-2923.2008.03140.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.1365-2923.2008.03140.x</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Gibson KA</RefAuthor>
        <RefAuthor>Boyle P</RefAuthor>
        <RefAuthor>Black DA</RefAuthor>
        <RefAuthor>Cunningham M</RefAuthor>
        <RefAuthor>Grimm MC</RefAuthor>
        <RefAuthor>McNeil HP</RefAuthor>
        <RefTitle>Enhancing evaluation in an undergraduate medical education program</RefTitle>
        <RefYear>2008</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>787-93</RefPage>
        <RefTotal>Gibson KA, Boyle P, Black DA, Cunningham M, Grimm MC, McNeil HP. Enhancing evaluation in an undergraduate medical education program. Acad Med. 2008 Aug;83(8):787-93. DOI: 10.1097&#47;ACM.0b013e31817eb8ab</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e31817eb8ab</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Blumberg P</RefAuthor>
        <RefTitle>Multidimensional outcome considerations in assessing the efficacy of medical educational programs</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Teach Learn Med</RefJournal>
        <RefPage>210-4</RefPage>
        <RefTotal>Blumberg P. Multidimensional outcome considerations in assessing the efficacy of medical educational programs. Teach Learn Med. 2003;15(3):210-4. DOI: 10.1207&#47;S15328015TLM1503&#95;10</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1207&#47;S15328015TLM1503&#95;10</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Frank JR</RefAuthor>
        <RefAuthor>Danoff D</RefAuthor>
        <RefTitle>The CanMEDS initiative: implementing an outcomes-based framework of physician competencies</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>642-7</RefPage>
        <RefTotal>Frank JR, Danoff D. The CanMEDS initiative: implementing an outcomes-based framework of physician competencies. Med Teach. 2007 Sep;29(7):642-7. DOI: 10.1080&#47;01421590701746983</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;01421590701746983</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Boyle P</RefAuthor>
        <RefAuthor>Grimm MC</RefAuthor>
        <RefAuthor>McNeil HP</RefAuthor>
        <RefAuthor>Scicluna H</RefAuthor>
        <RefTitle>The UNSW Medicine Student Experience Questionnaire (MedSEQ)</RefTitle>
        <RefYear>San</RefYear>
        <RefTotal>Boyle P, Grimm MC, McNeil HP, Scicluna H. The UNSW Medicine Student Experience Questionnaire (MedSEQ). San Francisco: Academia; 2009. Available from: http:&#47;&#47;www.academia.edu&#47;5252480&#47;Medicine&#95;Student&#95;Experience&#95;Questionnaire&#95;MEDSEQ&#95;UNSW</RefTotal>
        <RefLink>http:&#47;&#47;www.academia.edu&#47;5252480&#47;Medicine&#95;Student&#95;Experience&#95;Questionnaire&#95;MEDSEQ&#95;UNSW</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Krebs K</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2006</RefYear>
        <RefBookTitle>Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin: Eine Untersuchung zur Reliabilit&#228;t und Dimensionalit&#228;t des Marburger Fragebogens zur Evaluation des Lehrangebots am Fachbereich Medizin &#91;Dissertation&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Krebs K. Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin: Eine Untersuchung zur Reliabilit&#228;t und Dimensionalit&#228;t des Marburger Fragebogens zur Evaluation des Lehrangebots am Fachbereich Medizin &#91;Dissertation&#93;. Marburg: Philipps-Universit&#228;t Marburg; 2006. Available from: http:&#47;&#47;archiv.ub.uni-marburg.de&#47;diss&#47;z2006&#47;0387&#47;pdf&#47;dkk.pdf</RefTotal>
        <RefLink>http:&#47;&#47;archiv.ub.uni-marburg.de&#47;diss&#47;z2006&#47;0387&#47;pdf&#47;dkk.pdf</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Roff S</RefAuthor>
        <RefTitle>The Dundee Ready Educational Environment Measure (DREEM)&#8211; a generic instrument for measuring students&#39; perceptions of undergraduate health professions curricula</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>322-5</RefPage>
        <RefTotal>Roff S. The Dundee Ready Educational Environment Measure (DREEM)&#8211; a generic instrument for measuring students&#39; perceptions of undergraduate health professions curricula. Med Teach. 2005 Jun;27(4):322-5. DOI: 10.1080&#47;01421590500151054</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;01421590500151054</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Rotthoff T</RefAuthor>
        <RefAuthor>Ostapczuk MS</RefAuthor>
        <RefAuthor>De Bruin J</RefAuthor>
        <RefAuthor>Decking U</RefAuthor>
        <RefAuthor>Schneider M</RefAuthor>
        <RefAuthor>Ritz-Timme S</RefAuthor>
        <RefTitle>Assessing the learning environment of a faculty: psychometric validation of the German version of the Dundee Ready Education Environment Measure with students and teachers</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>e624-36</RefPage>
        <RefTotal>Rotthoff T, Ostapczuk MS, De Bruin J, Decking U, Schneider M, Ritz-Timme S. Assessing the learning environment of a faculty: psychometric validation of the German version of the Dundee Ready Education Environment Measure with students and teachers. Med Teach. 2011;33(11):e624-36. DOI: 10.3109&#47;0142159X.2011.610841</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.610841</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Rothman AI</RefAuthor>
        <RefAuthor>Ayoade F</RefAuthor>
        <RefTitle>The development of a learning environment: a questionnaire for use in curriculum evaluation</RefTitle>
        <RefYear>1970</RefYear>
        <RefJournal>J Med Educ</RefJournal>
        <RefPage>754-9</RefPage>
        <RefTotal>Rothman AI, Ayoade F. The development of a learning environment: a questionnaire for use in curriculum evaluation. J Med Educ. 1970;45(10):754-9. DOI: 10.1097&#47;00001888-197010000-00006</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-197010000-00006</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Marshall RE</RefAuthor>
        <RefTitle>Measuring the medical school learning environment</RefTitle>
        <RefYear>1978</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>98-104</RefPage>
        <RefTotal>Marshall RE. Measuring the medical school learning environment. Acad Med. 1978;53(2):98-104. DOI: 10.1097&#47;00001888-197802000-00003</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-197802000-00003</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>James PA</RefAuthor>
        <RefAuthor>Osborne JW</RefAuthor>
        <RefTitle>A measure of medical instructional quality in ambulatory settings: the MedIQ</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Fam Med</RefJournal>
        <RefPage>263-9</RefPage>
        <RefTotal>James PA, Osborne JW. A measure of medical instructional quality in ambulatory settings: the MedIQ. Fam Med. 1999 Apr;31(4):263-9.</RefTotal>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Soemantri D</RefAuthor>
        <RefAuthor>Herrera C</RefAuthor>
        <RefAuthor>Riquelme A</RefAuthor>
        <RefTitle>Measuring the educational environment in health professions studies: a systematic review</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>947-52</RefPage>
        <RefTotal>Soemantri D, Herrera C, Riquelme A. Measuring the educational environment in health professions studies: a systematic review. Med Teach. 2010;32(12):947-52. DOI: 10.3109&#47;01421591003686229</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;01421591003686229</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Zuberi RW</RefAuthor>
        <RefAuthor>Bordage G</RefAuthor>
        <RefAuthor>Norman GR</RefAuthor>
        <RefTitle>Validation of the SETOC instrument &#8211; Student evaluation of teaching in outpatient clinics</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal>
        <RefPage>55-69</RefPage>
        <RefTotal>Zuberi RW, Bordage G, Norman GR. Validation of the SETOC instrument &#8211; Student evaluation of teaching in outpatient clinics. Adv Health Sci Educ Theory Pract. 2007 Feb;12(1):55-69. DOI: 10.1007&#47;s10459-005-2328-y</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s10459-005-2328-y</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Litzelman DK</RefAuthor>
        <RefAuthor>Stratos GA</RefAuthor>
        <RefAuthor>Marriott DJ</RefAuthor>
        <RefAuthor>Skeff KM</RefAuthor>
        <RefTitle>Factorial validation of a widely disseminated educational framework for evaluating clinical teachers</RefTitle>
        <RefYear>1998</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>688-95</RefPage>
        <RefTotal>Litzelman DK, Stratos GA, Marriott DJ, Skeff KM. Factorial validation of a widely disseminated educational framework for evaluating clinical teachers. Acad Med. 1998;73(6):688-95. DOI: 10.1097&#47;00001888-199806000-00016</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199806000-00016</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Iblher P</RefAuthor>
        <RefAuthor>Zupanic M</RefAuthor>
        <RefAuthor>H&#228;rtel C</RefAuthor>
        <RefAuthor>Heinze H</RefAuthor>
        <RefAuthor>Schmucker P</RefAuthor>
        <RefAuthor>Fischer MR</RefAuthor>
        <RefTitle>Der Fragebogen &#34;SFDP26-German&#34;: Ein verl&#228;ssliches Instrument zur Evaluation des klinischen Unterrichts&#63;</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc30</RefPage>
        <RefTotal>Iblher P, Zupanic M, H&#228;rtel C, Heinze H, Schmucker P, Fischer MR. Der Fragebogen &#34;SFDP26-German&#34;: Ein verl&#228;ssliches Instrument zur Evaluation des klinischen Unterrichts&#63; &#91;The Questionnaire &#34;SFDP26-German&#34;: a reliable tool for evaluation of clinical teaching&#63;&#93;. GMS Z Med Ausbild. 2011;28(2):Doc30. DOI: 10.3205&#47;zma000742</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000742</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Herzig S</RefAuthor>
        <RefAuthor>Marschall B</RefAuthor>
        <RefAuthor>Nast-Kolb D</RefAuthor>
        <RefAuthor>Soboll S</RefAuthor>
        <RefAuthor>Rump LC</RefAuthor>
        <RefAuthor>Hilgers RD</RefAuthor>
        <RefTitle>Positionspapier der nordrhein-westf&#228;lischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe f&#252;r die Lehre</RefTitle>
        <RefYear>2007</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc109</RefPage>
        <RefTotal>Herzig S, Marschall B, Nast-Kolb D, Soboll S, Rump LC, Hilgers RD. Positionspapier der nordrhein-westf&#228;lischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe f&#252;r die Lehre &#91;Distribution of government funds according to teaching performance&#93;. GMS Z Med Ausbild. 2007;24(2):Doc109. Available from: http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2007-24&#47;zma000403.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2007-24&#47;zma000403.shtml</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Schulze J</RefAuthor>
        <RefAuthor>Drolshagen S</RefAuthor>
        <RefTitle>Format und Durchf&#252;hrung schriftlicher Pr&#252;fungen</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc44</RefPage>
        <RefTotal>Schulze J, Drolshagen S. Format und Durchf&#252;hrung schriftlicher Pr&#252;fungen &#91;Format and implementation of written assessments&#93;. GMS Z Med Ausbild. 2006; 23(3):Doc44. Available from: http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000263.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000263.shtml</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Mahamed A</RefAuthor>
        <RefAuthor>Gregory PA</RefAuthor>
        <RefAuthor>Austin Z</RefAuthor>
        <RefTitle>&#34;Testwiseness&#34; among international pharmacy graduates and Canadian senior pharmacy students</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Am J Pharm Educ</RefJournal>
        <RefPage>131</RefPage>
        <RefTotal>Mahamed A, Gregory PA, Austin Z. &#34;Testwiseness&#34; among international pharmacy graduates and Canadian senior pharmacy students. Am J Pharm Educ. 2006 Dec;70(6):131. DOI: 10.5688&#47;aj7006131</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.5688&#47;aj7006131</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Freeman A</RefAuthor>
        <RefAuthor>Van Der Vleuten C</RefAuthor>
        <RefAuthor>Nouns Z</RefAuthor>
        <RefAuthor>Ricketts C</RefAuthor>
        <RefTitle>Progress testing internationally</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>451-5</RefPage>
        <RefTotal>Freeman A, Van Der Vleuten C, Nouns Z, Ricketts C. Progress testing internationally. Med Teach. 2010;32(6):451-5. DOI: 10.3109&#47;0142159X.2010.485231</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2010.485231</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>M&#246;ltner A</RefAuthor>
        <RefAuthor>Duelli R</RefAuthor>
        <RefAuthor>Resch F</RefAuthor>
        <RefAuthor>Schultz JH</RefAuthor>
        <RefAuthor>J&#252;nger J</RefAuthor>
        <RefTitle>Fakult&#228;tsinterne Pr&#252;fungen an den deutschen medizinischen Fakult&#228;ten</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc44</RefPage>
        <RefTotal>M&#246;ltner A, Duelli R, Resch F, Schultz JH, J&#252;nger J. Fakult&#228;tsinterne Pr&#252;fungen an den deutschen medizinischen Fakult&#228;ten &#91;School-specific assessment in German medical schools&#93;. GMS Z Med Ausbild. 2010;27(3):Doc44. DOI: 10.3205&#47;zma000681</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3205&#47;zma000681</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Raupach T</RefAuthor>
        <RefAuthor>M&#252;nscher C</RefAuthor>
        <RefAuthor>Beissbarth T</RefAuthor>
        <RefAuthor>Burckhardt G</RefAuthor>
        <RefAuthor>Pukrop T</RefAuthor>
        <RefTitle>Towards outcome-based programme evaluation: using student comparative self-assessments to determine teaching effectiveness</RefTitle>
        <RefYear>2011</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>e446-53</RefPage>
        <RefTotal>Raupach T, M&#252;nscher C, Beissbarth T, Burckhardt G, Pukrop T. Towards outcome-based programme evaluation: using student comparative self-assessments to determine teaching effectiveness. Med Teach. 2011;33(8):e446-53. DOI: 10.3109&#47;0142159X.2011.586751</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.3109&#47;0142159X.2011.586751</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Spiel C</RefAuthor>
        <RefAuthor>Schober B</RefAuthor>
        <RefAuthor>Reimann R</RefAuthor>
        <RefTitle>Evaluation of curricula in higher education: challenges for evaluators</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>Eval Rev</RefJournal>
        <RefPage>430-50</RefPage>
        <RefTotal>Spiel C, Schober B, Reimann R. Evaluation of curricula in higher education: challenges for evaluators. Eval Rev. 2006 Aug;30(4):430-50. DOI: 10.1177&#47;0193841X05285077</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;0193841X05285077</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Downing SM</RefAuthor>
        <RefAuthor>Haladyna TM</RefAuthor>
        <RefTitle>Validity threats: overcoming interference with proposed interpretations of assessment data</RefTitle>
        <RefYear>2004</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>327-33</RefPage>
        <RefTotal>Downing SM, Haladyna TM. Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ. 2004;38(3):327-33. DOI: 10.1046&#47;j.1365-2923.2004.01777.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1046&#47;j.1365-2923.2004.01777.x</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Aleamoni LM</RefAuthor>
        <RefTitle>Student rating myths versus research facts from 1924 to 1998</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>J Pers Eval Educ</RefJournal>
        <RefPage>153-66</RefPage>
        <RefTotal>Aleamoni LM. Student rating myths versus research facts from 1924 to 1998. J Pers Eval Educ. 1999;13(2):153-66. DOI: 10.1023&#47;A:1008168421283</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1023&#47;A:1008168421283</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Marsh HW</RefAuthor>
        <RefAuthor>Roche LA</RefAuthor>
        <RefTitle>Making students&#39; evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>Am Psychol</RefJournal>
        <RefPage>1187-97</RefPage>
        <RefTotal>Marsh HW, Roche LA. Making students&#39; evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. Am Psychol. 1997;52(11):1187-97. DOI: 10.1037&#47;0003-066X.52.11.1187</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0003-066X.52.11.1187</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>d&#39;Apollonia S</RefAuthor>
        <RefAuthor>Abrami PC</RefAuthor>
        <RefTitle>Navigating student ratings of instruction</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>Am Psychol</RefJournal>
        <RefPage>1198-208</RefPage>
        <RefTotal>d&#39;Apollonia S, Abrami PC. Navigating student ratings of instruction. Am Psychol. 1997;52(11):1198-208. DOI: 10.1037&#47;0003-066X.52.11.1198</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0003-066X.52.11.1198</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Jackson DL</RefAuthor>
        <RefAuthor>Teal CR</RefAuthor>
        <RefAuthor>Raines SJ</RefAuthor>
        <RefAuthor>Nansel TR</RefAuthor>
        <RefAuthor>Force RC</RefAuthor>
        <RefAuthor>Burdsal CA</RefAuthor>
        <RefTitle>The dimensions of students&#39; perceptions of teaching effectiveness</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Educ Psychol Meas</RefJournal>
        <RefPage>580-96</RefPage>
        <RefTotal>Jackson DL, Teal CR, Raines SJ, Nansel TR, Force RC, Burdsal CA. The dimensions of students&#39; perceptions of teaching effectiveness. Educ Psychol Meas. 1999;59(4):580-96. DOI: 10.1177&#47;00131649921970035</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1177&#47;00131649921970035</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Marsh HW</RefAuthor>
        <RefTitle>Students&#39; evaluations of university teaching: Dimensionality, reliability, validity, potential baises, and utility</RefTitle>
        <RefYear>1984</RefYear>
        <RefJournal>J Educ Psychol</RefJournal>
        <RefPage>707-54</RefPage>
        <RefTotal>Marsh HW. Students&#39; evaluations of university teaching: Dimensionality, reliability, validity, potential baises, and utility. J Educ Psychol. 1984;76(5):707-54. DOI: 10.1037&#47;0022-0663.76.5.707</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0022-0663.76.5.707</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Albanese M</RefAuthor>
        <RefAuthor>Prucha C</RefAuthor>
        <RefAuthor>Barnet JH</RefAuthor>
        <RefAuthor>Gjerde CL</RefAuthor>
        <RefTitle>The effect of right or left placement of the positive response on Likert-type scales used by medical students for rating instruction</RefTitle>
        <RefYear>1997</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>627-30</RefPage>
        <RefTotal>Albanese M, Prucha C, Barnet JH, Gjerde CL. The effect of right or left placement of the positive response on Likert-type scales used by medical students for rating instruction. Acad Med. 1997 Jul;72(7):627-30. DOI: 10.1097&#47;00001888-199707000-00015</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-199707000-00015</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Sorenson DL</RefAuthor>
        <RefAuthor>Johnson TD</RefAuthor>
        <RefTitle>Online student ratings of instruction</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>New Dir Teach Learn</RefJournal>
        <RefPage>1-112</RefPage>
        <RefTotal>Sorenson DL, Johnson TD. Online student ratings of instruction. New Dir Teach Learn. 2003;2003(96):1-112.</RefTotal>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Adams MJ</RefAuthor>
        <RefAuthor>Umbach PD</RefAuthor>
        <RefTitle>Nonresponse and online student evaluations of teaching: Understanding the influence of salience, fatigue, and academic environments</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>Res High Educ</RefJournal>
        <RefPage>576-91</RefPage>
        <RefTotal>Adams MJ, Umbach PD. Nonresponse and online student evaluations of teaching: Understanding the influence of salience, fatigue, and academic environments. Res High Educ. 2012;53(5):576-91. DOI: 10.1007&#47;s11162-011-9240-5</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s11162-011-9240-5</RefLink>
      </Reference>
      <Reference refNo="36">
        <RefAuthor>Afonso NM</RefAuthor>
        <RefAuthor>Cardozo LJ</RefAuthor>
        <RefAuthor>Mascarenhas OA</RefAuthor>
        <RefAuthor>Aranha AN</RefAuthor>
        <RefAuthor>Shah C</RefAuthor>
        <RefTitle>Are anonymous evaluations a better assessment of faculty teaching performance&#63; A comparative analysis of open and anonymous evaluation processes</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Fam Med</RefJournal>
        <RefPage>43-7</RefPage>
        <RefTotal>Afonso NM, Cardozo LJ, Mascarenhas OA, Aranha AN, Shah C. Are anonymous evaluations a better assessment of faculty teaching performance&#63; A comparative analysis of open and anonymous evaluation processes. Fam Med. 2005 Jan;37(1):43-7.</RefTotal>
      </Reference>
      <Reference refNo="37">
        <RefAuthor>van den Bussche H</RefAuthor>
        <RefAuthor>Weidtmann K</RefAuthor>
        <RefAuthor>Kohler N</RefAuthor>
        <RefAuthor>Frost M</RefAuthor>
        <RefAuthor>Kaduszkiewicz H</RefAuthor>
        <RefTitle>Evaluation der &#228;rztlichen Ausbildung: Methodische Probleme der Durchf&#252;hrung und der Interpretation von Ergebnissen</RefTitle>
        <RefYear>2006</RefYear>
        <RefJournal>GMS Z Med Ausbild</RefJournal>
        <RefPage>Doc37</RefPage>
        <RefTotal>van den Bussche H, Weidtmann K, Kohler N, Frost M, Kaduszkiewicz H. Evaluation der &#228;rztlichen Ausbildung: Methodische Probleme der Durchf&#252;hrung und der Interpretation von Ergebnissen &#91;Evaluation of medical education: methodological problems of implementation and interpretation of results&#93;. GMS Z Med Ausbild. 2006;23(2):Doc37. Available from: http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000256.shtml</RefTotal>
        <RefLink>http:&#47;&#47;www.egms.de&#47;en&#47;journals&#47;zma&#47;2006-23&#47;zma000256.shtml</RefLink>
      </Reference>
      <Reference refNo="38">
        <RefAuthor>Griffin BW</RefAuthor>
        <RefTitle>Instructor reputation and student ratings of instruction</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Contemp Educ Psychol</RefJournal>
        <RefPage>534-52</RefPage>
        <RefTotal>Griffin BW. Instructor reputation and student ratings of instruction. Contemp Educ Psychol. 2001 Oct;26(4):534-52. DOI: 10.1006&#47;ceps.2000.1075</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1006&#47;ceps.2000.1075</RefLink>
      </Reference>
      <Reference refNo="39">
        <RefAuthor>Marsh HW</RefAuthor>
        <RefAuthor>Ware JE</RefAuthor>
        <RefTitle>Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>J Educ Psychol</RefJournal>
        <RefPage>126-34</RefPage>
        <RefTotal>Marsh HW, Ware JE. Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect. J Educ Psychol. 1982;74(1):126-34. DOI: 10.1037&#47;0022-0663.74.1.126</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0022-0663.74.1.126</RefLink>
      </Reference>
      <Reference refNo="40">
        <RefAuthor>Naftulin DH</RefAuthor>
        <RefAuthor>Ware JE</RefAuthor>
        <RefAuthor>Donnelly FA</RefAuthor>
        <RefTitle>The Doctor Fox Lecture: a paradigm of educational seduction</RefTitle>
        <RefYear>1973</RefYear>
        <RefJournal>J Med Educ</RefJournal>
        <RefPage>630-5</RefPage>
        <RefTotal>Naftulin DH, Ware JE, Donnelly FA. The Doctor Fox Lecture: a paradigm of educational seduction. J Med Educ. 1973 Jul;48(7):630-5. DOI: 10.1097&#47;00001888-197307000-00003</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-197307000-00003</RefLink>
      </Reference>
      <Reference refNo="41">
        <RefAuthor>Prave RS</RefAuthor>
        <RefAuthor>Baril GL</RefAuthor>
        <RefTitle>Instructor ratings: Controlling for bias from Initial student interest</RefTitle>
        <RefYear>1993</RefYear>
        <RefJournal>J Educ Bus</RefJournal>
        <RefPage>362-6</RefPage>
        <RefTotal>Prave RS, Baril GL. Instructor ratings: Controlling for bias from Initial student interest. J Educ Bus. 1993;68(6):362-6. DOI: 10.1080&#47;08832323.1993.10117644</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;08832323.1993.10117644</RefLink>
      </Reference>
      <Reference refNo="42">
        <RefAuthor>Cashin WE</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1988</RefYear>
        <RefBookTitle>Student ratings of teaching: A summary of the research</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Cashin WE. Student ratings of teaching: A summary of the research. East Lansing, MI, USA: Office of Faculty and Organizational Development at Michigan State University; 1988. (IDEA Paper; No.20). Available from: http:&#47;&#47;ideaedu.org&#47;wp-content&#47;uploads&#47;2014&#47;11&#47;idea-paper&#95;50.pdf</RefTotal>
        <RefLink>http:&#47;&#47;ideaedu.org&#47;wp-content&#47;uploads&#47;2014&#47;11&#47;idea-paper&#95;50.pdf</RefLink>
      </Reference>
      <Reference refNo="43">
        <RefAuthor>Ting KF</RefAuthor>
        <RefTitle>A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience</RefTitle>
        <RefYear>2000</RefYear>
        <RefJournal>Res High Educ</RefJournal>
        <RefPage>637-61</RefPage>
        <RefTotal>Ting KF. A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Res High Educ. 2000;41(5):637-61. DOI: 10.1023&#47;A:1007075516271</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1023&#47;A:1007075516271</RefLink>
      </Reference>
      <Reference refNo="44">
        <RefAuthor>Abrami PC</RefAuthor>
        <RefAuthor>D&#39;Apollonia S</RefAuthor>
        <RefAuthor>Cohen PA</RefAuthor>
        <RefTitle>Validity of student ratings of instruction: What we know and what we do not</RefTitle>
        <RefYear>1990</RefYear>
        <RefJournal>J Educ Psychol</RefJournal>
        <RefPage>219-31</RefPage>
        <RefTotal>Abrami PC, D&#39;Apollonia S, Cohen PA. Validity of student ratings of instruction: What we know and what we do not. J Educ Psychol. 1990;82(2):219-31. DOI: 10.1037&#47;0022-0663.82.2.219</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1037&#47;0022-0663.82.2.219</RefLink>
      </Reference>
      <Reference refNo="45">
        <RefAuthor>Schiekirka S</RefAuthor>
        <RefAuthor>Raupach T</RefAuthor>
        <RefTitle>A systematic review of factors influencing student ratings in undergraduate medical education course evaluations</RefTitle>
        <RefYear>2015</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>30</RefPage>
        <RefTotal>Schiekirka S, Raupach T. A systematic review of factors influencing student ratings in undergraduate medical education course evaluations. BMC Med Educ. 2015 Mar 5;15:30. DOI: 10.1186&#47;s12909-015-0311-8</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;s12909-015-0311-8</RefLink>
      </Reference>
      <Reference refNo="46">
        <RefAuthor>Schiekirka S</RefAuthor>
        <RefAuthor>Reinhardt D</RefAuthor>
        <RefAuthor>Heim S</RefAuthor>
        <RefAuthor>Fabry G</RefAuthor>
        <RefAuthor>Pukrop T</RefAuthor>
        <RefAuthor>Anders S</RefAuthor>
        <RefAuthor>Raupach T</RefAuthor>
        <RefTitle>Student perceptions of evaluation in undergraduate medical education: A qualitative study from one medical school</RefTitle>
        <RefYear>2012</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>45</RefPage>
        <RefTotal>Schiekirka S, Reinhardt D, Heim S, Fabry G, Pukrop T, Anders S, Raupach T. Student perceptions of evaluation in undergraduate medical education: A qualitative study from one medical school. BMC Med Educ. 2012 Jun 22;12:45. DOI: 10.1186&#47;1472-6920-12-45</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1186&#47;1472-6920-12-45</RefLink>
      </Reference>
      <Reference refNo="47">
        <RefAuthor>Marsh HW</RefAuthor>
        <RefTitle>SEEQ: A reliable, valid, and useful instrument for collecting students&#39; evaluations of university teaching</RefTitle>
        <RefYear>1982</RefYear>
        <RefJournal>Brit J Psychol</RefJournal>
        <RefPage>77-95</RefPage>
        <RefTotal>Marsh HW. SEEQ: A reliable, valid, and useful instrument for collecting students&#39; evaluations of university teaching. Brit J Psychol. 1982;52(1):77-95. DOI: 10.1111&#47;j.2044-8279.1982.tb02505.x</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1111&#47;j.2044-8279.1982.tb02505.x</RefLink>
      </Reference>
      <Reference refNo="48">
        <RefAuthor>Rindermann H</RefAuthor>
        <RefAuthor>Schofield N</RefAuthor>
        <RefTitle>Generalizability of Multidimensional Student Ratings of University Instruction Across Courses and Teachers</RefTitle>
        <RefYear>2001</RefYear>
        <RefJournal>Res High Educ</RefJournal>
        <RefPage>377-99</RefPage>
        <RefTotal>Rindermann H, Schofield N. Generalizability of Multidimensional Student Ratings of University Instruction Across Courses and Teachers. Res High Educ. 2001;42(4):377-99. DOI: 10.1023&#47;A:1011050724796</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1023&#47;A:1011050724796</RefLink>
      </Reference>
      <Reference refNo="49">
        <RefAuthor>Stalmeijer RE</RefAuthor>
        <RefAuthor>Dolmans DH</RefAuthor>
        <RefAuthor>Wolfhagen IH</RefAuthor>
        <RefAuthor>Muijtjens AM</RefAuthor>
        <RefAuthor>Scherpbier AJ</RefAuthor>
        <RefTitle>The Maastricht Clinical Teaching Questionnaire (MCTQ) as a valid and reliable instrument for the evaluation of clinical teachers</RefTitle>
        <RefYear>2010</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>1732-8</RefPage>
        <RefTotal>Stalmeijer RE, Dolmans DH, Wolfhagen IH, Muijtjens AM, Scherpbier AJ. The Maastricht Clinical Teaching Questionnaire (MCTQ) as a valid and reliable instrument for the evaluation of clinical teachers. Acad Med. 2010 Nov;85(11):1732-8. DOI: 10.1097&#47;ACM.0b013e3181f554d6</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;ACM.0b013e3181f554d6</RefLink>
      </Reference>
      <Reference refNo="50">
        <RefAuthor>Irby DM</RefAuthor>
        <RefAuthor>Gillmore GM</RefAuthor>
        <RefAuthor>Ramsey PG</RefAuthor>
        <RefTitle>Factors affecting ratings of clinical teachers by medical students and residents</RefTitle>
        <RefYear>1987</RefYear>
        <RefJournal>Acad Med</RefJournal>
        <RefPage>1-7</RefPage>
        <RefTotal>Irby DM, Gillmore GM, Ramsey PG. Factors affecting ratings of clinical teachers by medical students and residents. Acad Med. 1987;62(1):1-7. DOI: 10.1097&#47;00001888-198701000-00001</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1097&#47;00001888-198701000-00001</RefLink>
      </Reference>
      <Reference refNo="51">
        <RefAuthor>Beckman TJ</RefAuthor>
        <RefAuthor>Lee MC</RefAuthor>
        <RefAuthor>Rohren CH</RefAuthor>
        <RefAuthor>Pankratz VS</RefAuthor>
        <RefTitle>Evaluating an instrument for the peer review of inpatient teaching</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Teach</RefJournal>
        <RefPage>131-5</RefPage>
        <RefTotal>Beckman TJ, Lee MC, Rohren CH, Pankratz VS. Evaluating an instrument for the peer review of inpatient teaching. Med Teach. 2003 Mar;25(2):131-5. DOI: 10.1080&#47;0142159031000092508</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;0142159031000092508</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Summary of all identified evaluation instruments for teaching quality</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Zusammenschau aller identifizierten Instrumente zur Lehrevaluation</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>1</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <Attachment>
          <MediaNo>1</MediaNo>
          <MediaID filename="000219.a1.pdf" mimeType="application/pdf" origFilename="000219&#95;Appendix.pdf" size="150485" url="">1</MediaID>
          <AttachmentTitle language="en">Complete list of the literature</AttachmentTitle>
          <AttachmentTitle language="de">Aufstellung der Gesamtliteratur</AttachmentTitle>
        </Attachment>
        <NoOfAttachments>1</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>