Evaluation in medical education: A topical review of target parameters, data collection tools and confounding factors

000219 10.3205/000219 urn:nbn:de:0183-0002197 Review Article Übersichtsarbeit Evaluation in medical education: A topical review of target parameters, data collection tools and confounding factors Evaluation im Medizinstudium: Zielgrößen, Erhebungsinstrumente und Störfaktoren – eine Annäherung Schiekirka Schiekirka Sarah S Dipl.-Psych.

Universitätsmedizin Göttingen, Studiendekanat, Humboldtallee 38, 37073 Göttingen, Germany, Phone: +49-(0)551-39-12302, Fax: +49-(0)551/39-13012302Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Germany

Universitätsmedizin Göttingen, Studiendekanat, Humboldtallee 38, 37073 Göttingen, Deutschland, Tel.: +49-(0)551-39-12302, Fax: +49-(0)551/39-13012302Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Deutschland

sarah.schiekirka@med.uni-goettingen.de author Feufel Feufel Markus A. MA

Charité – Universitätsmedizin Berlin, Prodekanat für Studium und Lehre, Berlin, Germany Max-Planck-Institut für Bildungsforschung, Forschungsbereich Adaptives Verhalten und Kognition und Harding Zentrum für Risikokommunikation, Berlin, Germany

Charité – Universitätsmedizin Berlin, Prodekanat für Studium und Lehre, Berlin, Deutschland Max-Planck-Institut für Bildungsforschung, Forschungsbereich Adaptives Verhalten und Kognition und Harding Zentrum für Risikokommunikation, Berlin, Deutschland

author Herrmann-Lingen Herrmann-Lingen Christoph C

Universitätsmedizin Göttingen, Klinik für Psychosomatische Medizin und Psychotherapie, Göttingen, Germany Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften, Düsseldorf, Germany

Universitätsmedizin Göttingen, Klinik für Psychosomatische Medizin und Psychotherapie, Göttingen, Deutschland Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften, Düsseldorf, Deutschland

author Raupach Raupach Tobias T

Universitätsmedizin Göttingen, Klinik für Kardiologie und Pneumologie, Göttingen, Germany University College London, Health Behaviour Research Centre, London, Great Britain

Universitätsmedizin Göttingen, Klinik für Kardiologie und Pneumologie, Göttingen, Deutschland University College London, Health Behaviour Research Centre, London, Großbritannien

author German Medical Science GMS Publishing House

Düsseldorf

610 evaluation medical education dimension confounder questionnaire Evaluation Medizinstudium Dimension Störfaktor Fragebogen Medical Education Medizinische Ausbildung 20150402 20150831 20150916 engl germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 1612-3174 13 GMS German Medical Science GMS Ger Med Sci 15 Hintergrund und Fragestellung: Die Evaluation ist fester Bestandteil der Lehre an Medizinischen Fakultäten. Gemäß den Standards der Deutschen Gesellschaft für Evaluation müssen Evaluationsinstrumente eine faire und genaue Beurteilung der Lehrqualität erlauben. Entsprechend müssen die genutzten Erhebungsinstrumente eine hohe Reliabilität und Validität aufweisen. In dieser Übersichtsarbeit wird die verfügbare Literatur zur Evaluation des Medizinstudiums mit Hinblick auf die möglichen Dimensionen der Lehrqualität, die psychometrischen Eigenschaften der Instrumente und potentielle Störfaktoren dargestellt.Methoden: Ausgehend von einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX wurde eine Literatur-Recherche zur Evaluation im Medizinstudium durchgeführt. Berücksichtigung fanden Arbeiten, die bis zum 30.6.2011 in die Datenbanken aufgenommen wurden sowie „graue Literatur“. Die Ergebnisse werden in narrativer Form präsentiert.Ergebnisse: Es wurden vier Dimensionen der Lehrqualität im Medizinstudium identifiziert: Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis. Zur Betrachtung der ersten drei Dimensionen werden in erster Linie studentische Bewertungen herangezogen. Hierfür liegen einige reliable, in deutscher Sprache verfügbare Instrumente vor. Die Validität studentischer Bewertungen wird jedoch durch zahlreiche potentielle Störfaktoren eingeschränkt. Zur Beurteilung des Lehr-Ergebnisses werden vor allem Prüfungsleistungen herangezogen, deren Nutzbarkeit allerdings aufgrund methodischer Probleme eingeschränkt sein kann. Zudem genügen nicht alle Prüfungen an deutschen medizinischen Fakultäten den gängigen Qualitätsstandards.Folgerung: Die Auswahl von Instrumenten zur Evaluation des Medizinstudiums sollte sich daran orientieren, welche Dimension der Lehre beurteilt werden soll. Entsprechend können Evaluationsergebnisse auch nur vor dem Hintergrund des vom genutzten Erhebungsinstrument abgebildeten Konstrukts und dessen spezifischen Störfaktoren interpretiert werden. Background and objective: Evaluation is an integral part of education in German medical schools. According to the quality standards set by the German Society for Evaluation, evaluation tools must provide an accurate and fair appraisal of teaching quality. Thus, data collection tools must be highly reliable and valid. This review summarises the current literature on evaluation of medical education with regard to the possible dimensions of teaching quality, the psychometric properties of survey instruments and potential confounding factors.Methods: We searched Pubmed, PsycINFO and PSYNDEX for literature on evaluation in medical education and included studies published up until June 30, 2011 as well as articles identified in the “grey literature”. Results are presented as a narrative review.Results: We identified four dimensions of teaching quality: structure, process, teacher characteristics, and outcome. Student ratings are predominantly used to address the first three dimensions, and a number of reliable tools are available for this purpose. However, potential confounders of student ratings pose a threat to the validity of these instruments. Outcome is usually operationalised in terms of student performance on examinations, but methodological problems may limit the usability of these data for evaluation purposes. In addition, not all examinations at German medical schools meet current quality standards.Conclusion: The choice of tools for evaluating medical education should be guided by the dimension that is targeted by the evaluation. Likewise, evaluation results can only be interpreted within the context of the construct addressed by the data collection tool that was used as well as its specific confounding factors. IntroductionMedical education must meet high standards because medical school graduates – mainly physician practitioners – carry great responsibility. In order to assess the quality of education, evaluations are performed at all German medical schools. No less than 10 years ago, the German Society for Evaluation established standards for the evaluation of university level education. According to these standards, evaluation instruments must permit a fair, accurate, and reliable assessment of teaching quality . Medical education differs from other study programs in that it offers restricted choice of courses and uses unique teaching formats such as problem-based learning and bedside teaching , . Seemingly generic teaching formats (e.g., lectures) may be supplemented by elements specific to medical education (e.g., live presentations of patient case histories). Thus, it is questionable whether evaluation instruments from other study programs can readily be transferred to medical education. In general, to assess the reliability and, in particular, the validity of evaluation procedures, the construct of ‘good teaching’ underlying an evaluation instrument must be known. This article presents the results of a broad literature search on ‘evaluation in medical education’, funded by the Association of the Scientific Medical Societies in Germany (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften e.V., AWMF). Search results were discussed by a joint committee of the AWMF and the Medizinische Fakultätentag (MFT). The literature search intended to answer the following questions:Which dimensions of teaching quality can be assessed in the context of medical education?Which evaluation instruments are currently used, and which outcomes do they target?What are the psychometric properties of these evaluation instruments?What needs to be considered when designing questionnaires for evaluation in medical education, and which confounding factors must be considered when interpreting results? EinleitungDas Medizinstudium muss höchsten Qualitätsstandards genügen, da die Absolventen medizinischer Fakultäten – in erster Linie Ärztinnen und Ärzte – große Verantwortung tragen. Zur Bewertung der Qualität der Lehre werden an allen deutschen medizinischen Fakultäten Evaluationen durchgeführt. Die Deutsche Gesellschaft für Evaluation hat bereits vor über zehn Jahren Standards für die Evaluation der Hochschullehre festgelegt. Diesen zufolge müssen Evaluationsinstrumente eine faire, genaue und verlässliche Beurteilung der Lehrqualität erlauben . Auch ist zu berücksichtigen, dass das Medizinstudium einige Besonderheiten gegenüber anderen Studiengängen aufweist , , beispielweise wenig Freiheiten bezüglich der Kurswahl sowie spezifische Unterrichtsformen wie das Problem-orientierte Lernen (POL) oder der Unterricht am Krankenbett (UaK). Selbst in scheinbar allgemeintypischen Veranstaltungstypen wie Vorlesungen können Besonderheiten wie Patientenvorstellungen auftreten. Somit ist fraglich, ob Evaluationsinstrumente aus anderen Studiengängen problemlos auf die Lehre im Medizinstudium übertragbar sind. Grundsätzlich muss zur Beurteilung der Reliabilität und insbesondere der Validität der eingesetzten Verfahren zunächst bekannt sein, welches Konstrukt von „guter Lehre“ einem Evaluationsinstrument zugrunde liegt. In der vorliegenden Arbeit werden die Ergebnisse einer breit angelegten Literaturrecherche zum Thema „Evaluation im Studium der Humanmedizin“ vorgestellt, die von der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) finanziert wurde. Die Ergebnisse wurden im Anschluss an die Recherche in einem gemeinsamen Gremium der AWMF und des Medizinischen Fakultätentags diskutiert. Im Rahmen der Literaturrecherche sollten folgende Leitfragen beantwortet werden:In welchen Dimensionen kann die Qualität der medizinischen Lehre erfasst werden?Welche Instrumente kommen derzeit zum Einsatz und welche Zielgrößen werden von ihnen betrachtet?Welche psychometrischen Eigenschaften besitzen diese Erhebungsinstrumente? Was ist bei der Konstruktion von Fragebögen für die Evaluation im Medizinstudium zu beachten, und welche Störgrößen müssen bei der Interpretation der Ergebnisse berücksichtigt werden? MethodsIn order to address these questions, we conducted a comprehensive literature search including original research, systematic reviews, dissertations and the so-called ‘grey literature’ published in German or English. We searched Pubmed, PsycINFO, and PSYNDEX (keywords: ‘medical education’, ‘undergraduate medical education’, ‘medical curriculum’ combined with ‘evaluation’, ‘evaluation of teaching effectiveness’ and ‘student ratings’ and their German translations: ‘Medizinische Ausbildung’, ‘Medizinstudium’/‘Studium der Medizin’, ‘medizinisches Curriculum’, ‘Evaluation’, ‘Lehrevaluation’, ‘studentische Bewertungen’) for relevant articles that have been added to the respective databases up to July 30, 2011.Additional relevant papers were identified from reference lists of published reports. In addition, we searched the online archives of the following journals: Deutsche Medizinische Wochenschrift, GMS Zeitschrift für Medizinische Ausbildung, Hochschulmanagement, Qualität in der Wissenschaft as well as Wissenschaftsmanagement. We consulted experts in the field of medical education for recommendations of relevant articles and used Google to find additional publications. The literature was analysed until saturation was reached (i.e., until no additional content was identified with respect to the research questions).During a second, more in-depth analysis of identified publications, we extracted those articles that provided answers to the four research questions. Content extraction was guided by a checklist prompting researchers to enter information on the dimension of teaching quality assessed as well as the data collection tool (if available along with its psychometric properties, such as Cronbach’s alpha). MethodenZur Beantwortung der genannten Forschungsfragen erfolgte eine breit angelegte Literaturrecherche, in die publizierte Original- und Übersichtsarbeiten, Dissertationen sowie so genannte „Graue Literatur“ in deutscher und englischer Sprache einbezogen wurden. In einer Schlagwortsuche in Pubmed, PsycINFO und PSYNDEX (Begriffe: „medical education“, „undergraduate medical education“, „medical curriculum“ kombiniert mit „evaluation“, „evaluation of teaching effectiveness“ und „student ratings“ bzw. die analogen deutschen Begriffe: „Medizinische Ausbildung“, „Medizinstudium“/„Studium der Medizin“, „medizinisches Curriculum“, „Evaluation“, „Lehrevaluation“, „studentische Bewertungen“) wurden zunächst relevante Arbeiten identifiziert, die seit Beginn der Erfassung in den jeweiligen Datenbanken bis zum 30.6.2011 publiziert wurden. Eine Durchsicht der Literaturverzeichnisse dieser Arbeiten lieferte Hinweise auf weitere relevante Beiträge. Des Weiteren fand eine Suche direkt in den Online-Archiven folgender Zeitschriften statt: Deutsche Medizinische Wochenschrift, GMS Zeitschrift für Medizinische Ausbildung, Hochschulmanagement, Qualität in der Wissenschaft sowie Wissenschaftsmanagement. Ebenfalls wurde persönlichen Literaturempfehlungen von Experten auf dem Gebiet der medizinischen Ausbildungsforschung gefolgt und mittels der allgemeinen Internetsuchmaschine Google gesucht. Die Literatur wurde im Hinblick auf die Forschungsfragen gesichtet, bis eine inhaltliche Sättigung erreicht war (d.h. bis keine neuen inhaltlichen Aspekte mehr identifiziert werden konnten). Aus den identifizierten Publikationen wurden in einer zweiten, tiefergehenden Durchsicht diejenigen Arbeiten extrahiert, aus denen Antworten auf die vier oben genannten Forschungsfragen abgeleitet werden konnten. Die inhaltliche Extraktion erfolgte anhand einer Vorlage, in die jeweils die betrachtete Dimension der Lehrqualität und das genutzte Datenerhebungsinstrument (falls verfügbar mitsamt den psychometrischen Eigenschaften, insbesondere Cronbach’s α) eingetragen wurde. ResultsA total of 116 articles were retrieved. Of these, 46 were found in Pubmed, 22 in PsychINFO, and 4 in PSYNDEX. In addition, 28 articles were identified in the online archives of the above-mentioned German journals. The remaining 16 articles were identified as secondary literature, by recommendation, or via Internet search engines. A complete list of all 116 articles is available in Attachment 1 . Many of these articles were not specific to medical education, but focused on general issues related to evaluation of university level teaching. Furthermore, not all articles provided specific answers to the aforementioned research questions. In order to answer the first three research questions, we included 30 articles with a specific focus on medical education. With respect to the fourth research question, hardly any relevant results were identified in the literature specific to medical education. Thus, 14 additional articles without a specific focus on medical education were included. The complete list of all 116 identified articles provides information on which articles were used to answer the research questions.Due to the broadly defined research questions and, consequently, due to the high structural and content-related heterogeneity of the identified articles, we decided to present the results in form of a narrative. This approach is currently being recommended for review articles that are mainly based on quasi-experimental studies. In this context, numerical analyses (e.g., meta-analyses) seem less well-suited to answer relevant research questions because they unnecessarily constrain the range of contents covered . According to current perspectives in the field of medical didactics , if performed according to good scientific practice, narrative reviews may yield higher informational value than averaged figures.The results section is organised according to the four research questions. For the first three questions, it is further structured according to the four dimensions of teaching, which are specified in the following section.Question 1: Dimensions of teaching quality in medical educationAll target parameters used to assess teaching quality described in the published literature can be categorised into four dimensions : On the curricular level, structural (first) as well as procedural (second) aspects of teaching can be considered; the third quality criterion refers to teacher characteristics, and the fourth dimension refers to the outcome of teaching activities. The structural dimension comprises, for instance, the physical environment available for teaching, teaching materials as well as the design of a curriculum. The learning process refers to aspects such as teacher-student interaction or teaching/learning atmosphere. Instructor-specific characteristics include teaching skills and the level of preparation, but also the teachers’ enthusiasm as perceived by their students. The outcome dimension describes aspects such as learning outcome and the development of professional attitudes as a result of teaching.Structures and processes related to teaching are assessed by many of the published evaluation instruments (see Question 2), especially because data collection and analysis can be automated easily. A reliable and valid assessment of individual teacher performance is a more complex endeavour. The corresponding instruments must meet high psychometric standards, especially due to potential consequences of such evaluation results for individual careers.Defining teaching quality by related outcomes appears straightforward. In this context, Blumberg suggests three types of outcomes: She defines ‘educational outcome’ as the development of competencies for independent, life-long learning. The term ‘clinical career outcomes’ comprises competencies relevant for the medical profession (see also ). Blumberg defines ‘environmental outcomes’ as the development of professional attitudes towards teaching itself – in the sense that graduates consider passing on their knowledge and skills to their younger colleagues as part of their own professional role, thus shaping the environment at their teaching institutions. To date, there is no consensus on how to operationalise these three types of educational outcomes.Question 2: Target outcomes and assessment instrumentsAs mentioned above, the following description of target outcomes and assessment instruments is guided by the four dimensions of teaching quality (structure, process, teacher, and outcome). Given that a clear-cut alignment between dimensions and individual instruments (and vice versa) is not always possible, we will elaborate on the available instruments in the context of the dimension primarily targeted. A summary of all identified instruments with a focus on medical education is presented in Table 1 </PlainText></TextGroup><ImgLink imgNo="1" imgType="table"/>.</Pgraph><Pgraph>Educational <Mark2>structures and processes</Mark2> are mainly evaluated using self-administered questionnaires that are completed by students. Some of the available instruments cover both structures and processes (“Medical Student Experience Questionnaire”; MedSEQ; 32 items <TextLink reference="9"></TextLink> and “Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin”; 12 items <TextLink reference="10"></TextLink>). Four additional instruments focus mainly on teaching-related processes and, in this context, use the term ‘learning environment’. The “Dundee Ready Education Environment Measure” (DREEM; 50 items <TextLink reference="11"></TextLink>) has recently become available in German <TextLink reference="12"></TextLink>. The comprehensive “Learning Environment Questionnaire” (LEQ; 65 items <TextLink reference="13"></TextLink>) yields some overlap with the more concise “Measuring the School Learning Environment Survey” (MSLES; 50 items <TextLink reference="14"></TextLink>).</Pgraph><Pgraph>The “Medical Instructional Quality” (MedIQ; 25 items <TextLink reference="15"></TextLink>) was specifically designed for evaluating clinical teaching. It covers four aspects of clinical teaching related to outpatient settings. Among other factors, the MedIQ focuses on the clinical learning environment as well as the participation of students in patient care. A comprehensive review of additional instruments for evaluating the learning environment was published in 2010 <TextLink reference="16"></TextLink>.</Pgraph><Pgraph>Numerous instruments have been designed to evaluate <Mark2>individual teachers</Mark2> (see Table 1 <ImgLink imgNo="1" imgType="table"/>). Again, self-administered questionnaires are predominantly used, in most cases containing scaled items and open answer options. Most instruments specific to medical education and assessing individual teacher performance are tailored to the clinical teaching context (e.g. bedside teaching) rather than lectures and seminars. Detailed information on the available instruments can be found in Table 1 <ImgLink imgNo="1" imgType="table"/>. There is one noteworthy questionnaire for the assessment of teaching in outpatient settings (“Student Evaluation of Teaching in Outpatient Clinics”; SETOC <TextLink reference="17"></TextLink>). Furthermore, the SFDP-26 (“Stanford Faculty Development Program” <TextLink reference="18"></TextLink>) survey, which is also available in German <TextLink reference="19"></TextLink> needs to be mentioned in this context. This tool was originally developed at the Mayo Clinic and, by mapping the seven “Stanford-Criteria for Good Teaching”, is well-grounded in theory.</Pgraph><Pgraph>As described above, the <Mark2>outcome of teaching</Mark2>, i.e. student learning outcome, is reflected not only in the accumulation of knowledge and practical skills but also in the development of professional attitudes <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Unfortunately, we did not find any instruments covering the full range of these outcomes. Some German medical schools use student performance in the written part of the second state examination as a surrogate parameter for teaching quality <TextLink reference="20"></TextLink>. However, multiple-choice (MC) questions (such as those used in state examinations) mainly assess factual knowledge. By memorising the correct answer <TextLink reference="21"></TextLink> or by deliberate practice of MC-questions <TextLink reference="22"></TextLink>, students may improve their exam results regardless of their actual knowledge. Similar limitations pertain to the Progress Test, which is used by some German medical schools. This formative assessment, which is applied repeatedly during the course of the curriculum, also uses MC-questions. Nevertheless, it is considered a useful and important source of information for students as well as curriculum evaluation owing to its longitudinal and cross-sectional design <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>In general, state examinations are characterised by high internal consistency. However, learning outcomes of individual classes/courses of a given curriculum can only be assessed by analysing the exam results that were performed at the medical schools. According to a recent analysis, these exams often do not meet current quality standards <TextLink reference="24"></TextLink>. Recently, an evaluation tool estimating student learning outcome from comparative self-assessments has been developed as an alternative. The tool’s main advantage over end-of-course exams is its adjustment for initial student performance levels, thus facilitating a critical appraisal of the learning outcome created during a course <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Finally, surveys among medical school graduates can be used to assess the quality of medical education. In principle, all four dimensions of teaching quality may be measured with this method. However, the present literature search identified neither articles specific to medical education nor studies related to other types of university level teaching that systematically evaluated the quality of instruments used for this purpose.</Pgraph><SubHeadline>Question 3: Psychometric properties of assessment instruments</SubHeadline><Pgraph>Questionnaires as well as exam results may be analysed regarding their reliability and validity. The <Mark2>reliabilities</Mark2> of the instruments used to assess structural and procedural aspects of teaching are given in the last column of <TextGroup><PlainText>Table 1 </PlainText></TextGroup><ImgLink imgNo="1" imgType="table"/>. Cronbach’s α, signifying the lower limit of reliability, is satisfactory for most questionnaires. Interrater reliability of evaluation data depends on the numbers of completed questionnaires <TextLink reference="26"></TextLink>. However, no studies have yet reported a minimum response rate that would be necessary for results to be deemed reliable (see below). Measuring the reliability of examinations is a prerequisite for using exam results for evaluation purposes. At German medical schools, however, these analyses are performed on less than 40% of summative exams <TextLink reference="24"></TextLink>.</Pgraph><Pgraph>A well-founded interpretation of evaluation results requires the data to be valid. While content validity of examinations and evaluation instruments is usually acceptable, data on criterion and construct validity is often lacking. In addition, confounding factors potentially impacting the validity of results need to be considered. Such factors have mainly been identified for <Mark2>student ratings</Mark2>, and they are being discussed below (Question 4). However, the considerations pertaining to this aspect are mainly based on literature with no direct link to medical education.</Pgraph><Pgraph>The validity of <Mark2>examinations</Mark2> is threatened mainly by two confounding factors <TextLink reference="27"></TextLink>. Construct under-representation exists if the construct to be evaluated by the exam is not completely covered. In this case, students have an advantage if they accidentally focus their learning on those contents that are covered by the exam. The second essential confounding factor is construct-irrelevant variance. This occurs if, for instance, exam questions are constructed sub-optimally, so that the exam assesses not only obvious content knowledge but also students’ abilities to cope with questions that are difficult to understand. Due to a lack of valid external criteria and necessary resources, criterion validity of examinations is usually not evaluated. The above-mentioned instrument for calculating student learning outcomes from comparative self-assessments has been shown to be construct-valid in a first study <TextLink reference="25"></TextLink>. Additional published results were not available at the time of the literature search. Similarly, we did not identify any studies on the reliability and validity of graduate surveys.</Pgraph><SubHeadline>Question 4: Questionnaire design and confounding factors </SubHeadline><Pgraph>The most common evaluation instrument in practice as well as in the identified publications is the self-administered questionnaire. When designing and using questionnaires, several aspects must be considered. As mentioned above, hardly any articles addressing this question were identified. Thus, below we present some of the pertinent findings related to questionnaire design and the most important confounding factors of self-administered evaluation instruments, mainly without a direct link to medical education. </Pgraph><Pgraph>Question type, scale options and data collection procedures may all impact on the psychometric properties of questionnaires. With respect to question type, there are open questions and scaled items. Free-text comments can yield valuable qualitative information, but not every student volunteers their opinion. Scaled items lend themselves to quantitative analyses. Global ratings that are frequently used to obtain an overall appraisal of a course (e.g., using school grades) are criticized by some authors due to their susceptibility to confounding (see below) <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>. Other authors contend that the construct of good teaching is virtually one-dimensional and thus can well be assessed using global ratings <TextLink reference="30"></TextLink>. Additional studies show that the reliability of instruments is positively related to the number of specific items contained <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>Scaled questions yield more favourable ratings if the positive anchor is placed on the left <TextLink reference="33"></TextLink>. Furthermore, the wording of items may be interpreted differently by individual students <TextLink reference="3"></TextLink>. In addition, the evaluation procedure itself needs to be considered. This factor becomes increasingly important because many medical schools have moved their evaluations to online platforms. In general, online evaluations yield lower response rates than traditional paper-based evaluations. While one study did not demonstrate an effect of this on evaluation results (in fact, students provided even more comments on the online version) <TextLink reference="34"></TextLink>, another report stated that low-performing students were less likely to participate in online evaluations than their high-performing peers <TextLink reference="35"></TextLink>. In addition, anonymous evaluations typically yield less favourable ratings than evaluations requiring students to provide identifying information <TextLink reference="36"></TextLink>. With respect to graduate surveys, it should be considered that evaluation results tend to get worse the more time has passed between exposure to teaching and data collection <TextLink reference="37"></TextLink>.</Pgraph><Pgraph> </Pgraph><Pgraph>Items that are used to evaluate individual teachers are particularly prone to confounding. It has been shown that teachers who are enthusiastic and who have a good reputation systematically receive more favourable ratings <TextLink reference="38"></TextLink>, even if the content they present is flawed <TextLink reference="39"></TextLink>, <TextLink reference="40"></TextLink>. Another important confounding factor is student interest in a course <TextLink reference="41"></TextLink>, <TextLink reference="42"></TextLink>: Courses with voluntary participation typically receive more positive ratings than compulsory courses <TextLink reference="28"></TextLink>, <TextLink reference="43"></TextLink>. Moreover, well-attended courses are generally evaluated more positively <TextLink reference="44"></TextLink>. In the context of medical education, teaching in subjects related to basic science and theoretical medicine tend to receive less favourable ratings than clinical teaching. Similarly, lectures yield worse evaluations than small-group formats <TextLink reference="37"></TextLink>.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Ergebnisse"> <MainHeadline>Ergebnisse</MainHeadline><Pgraph>Insgesamt wurden 116 Arbeiten gefunden, davon 46 in Pubmed, 22 in PsycINFO und vier in PSYNDEX. Des Weiteren konnten 28 Arbeiten in Online-Archiven der oben genannten deutschen Zeitschriften, identifiziert werden. Die übrigen 16 Arbeiten wurden als Sekundärliteratur, Empfehlung oder durch allgemeine Internetsuchmaschinen gefunden. Eine komplette Liste der 116 Artikel ist in Anhang 1 <AttachmentLink attachmentNo="1"/> verfügbar. Viele dieser Arbeiten waren jedoch nicht auf die medizinische Lehre bezogen, sondern enthielten eher allgemeine, für die Evaluation in der Hochschullehre relevante, Betrachtungen. Zudem fanden sich nicht in allen Arbeiten konkrete Antworten auf die oben formulierten Forschungsfragen. Zur Beantwortung der ersten drei Forschungsfragen wurde auf die Inhalte derjenigen 30 Volltext-Arbeiten zurückgegriffen, die einen direkten Bezug zum Medizinstudium aufwiesen. Hinsichtlich der vierten Forschungsfrage fanden sich in der medizinspezifischen Literatur kaum verwertbare Ergebnisse, so dass zu diesem Punkt auch die nicht-medizinspezifische Literatur einbezogen wurde (14 weitere Arbeiten). In der Komplettliste der 116 Volltext-Artikel wurden die Artikel gekennzeichnet, die zur Beantwortung der einzelnen Forschungsfragen herangezogen wurden. </Pgraph><Pgraph>Aufgrund der inhaltlich breit angelegten Forschungsfragen und folglich hohen inhaltlichen und strukturellen Heterogenität der eingeschlossenen Arbeiten entschieden wir uns für eine narrative Darstellung der Ergebnisse. Dieses Vorgehen wird aktuell für Übersichten empfohlen, in denen überwiegend quasi-experimentelle Studien berücksichtigt werden. In diesem Kontext erscheinen numerische Auswertungsverfahren (z.B. Meta-Analysen) zur Bearbeitung entsprechender Fragestellungen nicht optimal, da hierdurch das Spektrum der abgedeckten Inhalte unnötig eingeengt wird <TextLink reference="4"></TextLink>. Nach aktueller medizindidaktischer Lehrmeinung <TextLink reference="5"></TextLink> können narrative Übersichten bei guter wissenschaftlicher Durchführung einen höheren Informationsgehalt bieten als gemittelte Kennzahlen. </Pgraph><Pgraph>Die Präsentation orientiert sich an den vier oben genannten Fragen und wird innerhalb der ersten drei Forschungsfragen nach den vier verschiedenen Dimensionen der Lehre gegliedert, die im Folgenden genauer dargestellt werden.</Pgraph><SubHeadline>Frage 1: Qualitäts-Dimensionen der medizinischen Hochschullehre</SubHeadline><Pgraph>Alle in der publizierten Literatur beschriebenen Zielparameter zur Bewertung der Lehrqualität lassen sich einer von vier Dimensionen zuordnen <TextLink reference="6"></TextLink>: Auf curricularer Ebene können sowohl strukturelle als auch prozedurale Kenngrößen der Lehre betrachtet werden; als drittes Qualitätskriterium stehen Dozenten-spezifische Charakteristika, als vierte Dimension das Ergebnis der Lehre zur Verfügung. Die Strukturdimension umfasst beispielweise die räumliche Ausstattung der Lehre, Arbeitsmaterialien sowie die Konzeption des Studiums. Der Lehrprozess meint Aspekte wie Interaktion oder Lehr-/Lernatmosphäre. Dozentenspezifische Charakteristika können unter anderem das didaktische Geschick sowie die Vorbereitung, aber auch der von den Studierenden wahrgenommene Enthusiasmus von Lehrenden sein. Die Ergebnisdimension beschreibt Aspekte wie den Lernerfolg und Entwicklung professioneller Einstellungen durch die Lehre.</Pgraph><Pgraph>Lehrbezogene Strukturen und Prozesse werden von vielen publizierten Evaluationsinstrumenten erfasst (siehe <TextGroup><PlainText>Frage 2</PlainText></TextGroup>), zumal die Datenerhebung und -auswertung leicht automatisierbar ist. Die reliable und valide Bewertung der Lehrleistung individueller Dozenten ist weitaus komplexer. Insbesondere aufgrund möglicher Konsequenzen solcher Evaluationsergebnisse für die Karriere wissenschaftlicher Mitarbeiter müssen die entsprechenden Instrumente besonders hohen psychometrischen Ansprüchen genügen. </Pgraph><Pgraph>Eine Beurteilung der Lehrqualität anhand der im Rahmen der Lehre erzielten Ergebnisse erscheint intuitiv. Blumberg <TextLink reference="7"></TextLink> schlägt diesbezüglich drei Qualitäten vor: Als „educational outcome“ bezeichnet die Autorin die Entwicklung von Fertigkeiten zum eigenständigen lebenslangen Lernen. Unter „clinical career outcomes“ werden die für den Arztberuf erforderlichen Kompetenzen zusammengefasst (siehe auch <TextLink reference="8"></TextLink>). Unter „environmental outcomes“ versteht Blumberg die Ausbildung einer professionellen Einstellung zur Lehre selbst – in dem Sinne, dass Absolventen die Weitergabe von Wissen und Fertigkeiten als eigene professionelle Aufgabe im Beruf verstehen und somit das Klima an Ausbildungsstätten prägen. Bislang fehlt aber ein allgemein anerkanntes Konzept zur Operationalisierung dieser “educational outcomes“.</Pgraph><SubHeadline>Frage 2: Zielgrößen und Erhebungsinstrumente</SubHeadline><Pgraph>Die folgende Darstellung der Zielgrößen und Erhebungsinstrumente orientiert sich wie oben bereits erwähnt an vier Dimensionen der Lehrqualität: Struktur, Prozess, Dozent und Ergebnis. Da eine trennscharfe Zuordnung der vier Dimension zu den einzelnen Instrumenten (und umgekehrt) nicht immer möglich ist, werden die verfügbaren Instrumente im Kontext derjenigen Dimension erörtert, auf die sie in erster Linie abzielen. Eine Zusammenschau aller identifizierten medizinspezifischen Instrumente bietet Tabelle 1 <ImgLink imgNo="1" imgType="table"/>.</Pgraph><Pgraph>Lehrbezogene <Mark2>Strukturen und Prozesse</Mark2> werden vorrangig mit Hilfe von Fragebögen evaluiert, die von den Studierenden selbst ausgefüllt werden. Einige der verfügbaren Instrumente decken sowohl Strukturen als auch Prozesse ab („Medical Student Experience Questionnaire“; MedSEQ; 32 Items <TextLink reference="9"></TextLink> und „Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin“; 12 Items <TextLink reference="10"></TextLink>). Vier weitere Instrumente beziehen sich in erster Linie auf lehrbezogene Prozesse und verwenden in diesem Kontext den Begriff „Lernumgebung“ („learning environment“). Das „Dundee Ready Education Environment Measure“ (DREEM; 50 Items <TextLink reference="11"></TextLink>) steht seit kurzem auch auf Deutsch zur Verfügung <TextLink reference="12"></TextLink>. Der sehr umfassende „Learning Environment Questionnaire“ (LEQ; 65 Items <TextLink reference="13"></TextLink>) weist Überschneidungen mit dem etwas kürzeren „Measuring the School Learning Envionment Survey“ (MSLES; 50 Items <TextLink reference="14"></TextLink>) auf.</Pgraph><Pgraph>Speziell für die Evaluation der klinischen Lehre wurde das Instrument „Medical Instructional Quality“ (MedIQ; 25 Items <TextLink reference="15"></TextLink>) entwickelt, das vier Aspekte der klinischen Lehre im ambulanten Setting erfasst; unter anderem werden hier das klinische Lernumfeld und die Integration der Lernenden in die Versorgung von Patienten thematisiert. Eine umfassende Übersicht über weitere Instrumente zur Bewertung der Lernumgebung wurde im Jahr 2010 publiziert <TextLink reference="16"></TextLink>. </Pgraph><Pgraph>Zur Bewertung <Mark2>individueller Dozenten</Mark2> stehen zahlreiche Instrumente zur Verfügung (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table"/>). Auch hier stehen von den Studierenden ausgefüllte Evaluationsbögen meist mit skalierten Items und Freitextfeldern im Vordergrund. Die medizinspezifischen Dozenten-Evaluationsinstrumente beziehen sich in erster Linie auf die klinische Lehre (z.B. Unterricht am Krankenbett) und weniger auf Vorlesungen und Seminare. Details zu den verfügbaren Instrumenten sind der Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zu entnehmen. Hervorzuheben ist ein Bogen zur Bewertung von Dozenten, die im Kontext der ambulanten Patientenversorgung unterrichten („Student Evaluation of Teaching in Outpatient Clinics“; SETOC <TextLink reference="17"></TextLink>). Zudem soll auf den SFDP-26 („Stanford Faculty Development Program“ <TextLink reference="18"></TextLink>)-Bogen hingewiesen werden, der auch in deutscher Übersetzung verfügbar ist <TextLink reference="19"></TextLink>. Dieser ursprünglich an der Mayo Clinic entwickelte Bogen bildet die sieben „Stanford-Kriterien guter Lehre“ ab und weist somit eine gute theoretische Fundierung auf. </Pgraph><Pgraph>Das <Mark2>Ergebnis der Lehre</Mark2>, d.h. der Lernerfolg der Studierenden spiegelt sich, wie oben ausgeführt, nicht nur im Erwerb von Faktenwissen und praktischen Fertigkeiten sondern auch in der Entwicklung einer professionellen Einstellung wider <TextLink reference="7"></TextLink>, <TextLink reference="8"></TextLink>. Leider konnten keine Instrumente identifiziert werden, die dieses Spektrum erschöpfend abbilden. An einigen deutschen Fakultäten werden die Leistungen der Studierenden im schriftlichen Teil des Zweiten Staatsexamens als Indikatoren der Lehrqualität interpretiert <TextLink reference="20"></TextLink>. Allerdings wird in Multiple Choice-Prüfungen vorrangig Faktenwissen thematisiert, und Studierende können durch das Wiedererkennen der richtigen Antwort <TextLink reference="21"></TextLink> sowie durch Trainings im Umgang mit MC-Fragen <TextLink reference="22"></TextLink> ihr Prüfungsergebnis unabhängig von ihrem Faktenwissen steigern. Ähnlichen Limitationen unterliegt der an einigen deutschen Fakultäten eingesetzte Progress Test. Diese formative, wiederholt während des Studiums durchgeführte Prüfungsform verwendet ebenfalls MC-Fragen. Der Test wird durch das quer- und längsschnittliche Design jedoch als sinnvolle Quelle für wichtige Informationen für den Lernenden sowie für die Curriculumsevaluation angesehen <TextLink reference="23"></TextLink>.</Pgraph><Pgraph>Die staatliche Examensprüfung weist in der Regel eine hohe interne Konsistenz auf. Zur Bewertung des Ergebnisses einzelner Veranstaltungen innerhalb einer Fakultät müssen jedoch fakultätsinterne Prüfungen herangezogen werden. Diese genügen einer aktuellen Analyse zufolge oft nicht den Qualitätsstandards <TextLink reference="24"></TextLink>. Als Alternative zur Messung des Lehr-Ergebnisses anhand von Prüfungsleistungen wurde kürzlich ein Instrument zur Abschätzung des Lernerfolgs anhand wiederholter studentischer Selbsteinschätzungen entwickelt. Dieses bietet gegenüber Abschlussprüfungen den Vorteil, dass es auch den initialen Leistungsstand der Studierenden berücksichtigt und somit Aussagen über den tatsächlichen Lernzuwachs während einer Veranstaltung zulässt <TextLink reference="25"></TextLink>.</Pgraph><Pgraph>Schließlich ist als Methode zur Bewertung der medizinischen Lehre die Absolventenbefragung zu nennen. Prinzipiell können mit dieser Methode alle vier Dimensionen der Lehrqualität betrachtet werden. Im Rahmen der vorliegenden Literatursuche wurden jedoch weder medizinspezifische Forschungsarbeiten noch Studien aus anderen Bereichen der Hochschullehre identifiziert, in denen die Qualität der hierzu genutzten Instrumente systematisch untersucht wurde. </Pgraph><SubHeadline>Frage 3: Psychometrische Eigenschaften der Erhebungsinstrumente</SubHeadline><Pgraph>Sowohl studentische Evaluationsbögen als auch Prüfungen können hinsichtlich ihrer Reliabilität und Validität beurteilt werden. Die <Mark2>Reliabilität</Mark2> der Instrumente zur Bewertung lehrbezogener Strukturen und Prozesse ist der letzten Spalte von Tabelle 1 <ImgLink imgNo="1" imgType="table"/> zu entnehmen. Das Cronbach’s α als unteres Grenzmaß der Reliabilität ist für die meisten betrachteten Fragebogen-Instrumente zufriedenstellend. Die Interrater-Reliabilität der Evaluation hängt von der Anzahl der ausgefüllten Evaluationsbögen ab <TextLink reference="26"></TextLink>. Allerdings liegen bislang keine Studien dazu vor, welcher absolute Rücklauf mindestens erforderlich ist, um aussagekräftige Daten zu erhalten (s.u.). Die Messung der Reliabilität fakultätsinterner Prüfungen stellt eine wesentliche Voraussetzung für deren Nutzung zu Evaluationszwecken dar. Bislang werden entsprechende statistische Analysen allerdings für weniger als 40% der Leistungsnachweise an deutschen Medizinischen Fakultäten angestellt <TextLink reference="24"></TextLink>.</Pgraph><Pgraph>Eine inhaltlich fundierte Interpretation von Evaluationsergebnissen setzt voraus, dass die erhobenen Daten valide sind. Während viele Evaluationsbögen und Prüfungen eine akzeptable Inhaltsvalidität aufweisen, sind in der Regel keine Informationen über ihre Kriteriums- und Konstruktvalidität verfügbar. Zu berücksichtigen sind außerdem Störfaktoren, die sich auf die Validität der Ergebnisse auswirken können und in erster Linie bei <Mark2>studentischen Bewertungen</Mark2> identifiziert wurden. Diese möglichen Faktoren sind unten genauer dargestellt (<TextGroup><PlainText>Frage 4</PlainText></TextGroup>); allerdings stützen sich die Betrachtungen zu diesem Aspekt vorrangig auf Literatur ohne direkten Bezug zum Medizinstudium. </Pgraph><Pgraph>Die Validität von <Mark2>Prüfungen</Mark2> wird im Wesentlichen durch zwei Störfaktoren gefährdet <TextLink reference="27"></TextLink>. Eine „Konstrukt-Unterrepräsentation“ liegt dann vor, wenn das zu prüfende Konstrukt in der Prüfung nicht erschöpfend behandelt wird. In diesem Fall sind Studierende im Vorteil, die (zufällig) diejenigen Inhalte intensiver gelernt haben, die von der Prüfung abgedeckt wurden. Der zweite wesentliche Störfaktor ist die „Konstrukt-irrelevante Varianz“; sie entsteht beispielsweise dann, wenn Prüfungsfragen suboptimal konstruiert sind, so dass nicht nur die offensichtlichen Inhalte, sondern auch die Befähigung der Studierenden zum Umgang mit schwer verständlichen Formulierungen geprüft wird. Die Kriteriumsvalidität von Prüfungen wird im praktischen Lehr-Alltag in Ermangelung eines validen Außenkriteriums und der erforderlichen Ressourcen meist nicht überprüft. Das oben erwähnte Instrument zur Abschätzung des studentischen Lernerfolgs anhand wiederholter Selbsteinschätzungen hat sich in einer ersten Studie als konstruktvalide erwiesen <TextLink reference="25"></TextLink>; weitere publizierte Ergebnisse lagen zum Zeitpunkt der hier vorgestellten Literatursuche noch nicht vor. Auch konnten keine Studien zur Reliabilität und Validität von Absolventenbefragungen identifiziert werden. </Pgraph><SubHeadline>Frage 4: Fragebogenkonstruktion und Störgrößen</SubHeadline><Pgraph>Das dominierende Erhebungsinstrument sowohl in der Praxis als auch in den identifizierten Publikationen sind von Studierenden auszufüllende Fragebögen. Bei der Konstruktion und dem Einsatz von Fragbögen sind jedoch einige Aspekte zu berücksichtigen. Wie oben bereits angemerkt, ließ sich für diese Forschungsfrage bedauerlicherweise kaum medizinspezifische Literatur identifizieren. Somit sollen im Folgenden einige einschlägige Erkenntnisse zur Fragebogenkonstruktion und zu den wichtigsten Störgrößen studentischer Lehrevaluationsinstrumente vornehmlich ohne direkten Bezug zum Medizinstudium dargestellt werden. </Pgraph><Pgraph>Sowohl das Fragenformat als auch die Antwortskala und das Erhebungsformat können sich auf die psychometrischen Eigenschaften der Instrumente auswirken. Bezüglich des Fragenformats wird zunächst zwischen Freitextfragen und skalierten Items unterschieden. Frei formulierte Evaluationskommentare können wertvolle qualitative Informationen liefern, werden aber nicht von allen Studierenden abgegeben. Skalierte Items bilden die Grundlage quantitativer Analysen. Die häufig verwendeten globalen Items zur Gesamtbewertung einer Veranstaltung (z.B. nach dem Schulnotenprinzip) werden von einigen Autoren aufgrund ihrer Anfälligkeit für verzerrende Einflüsse (s.u.) kritisiert <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>. Andere Autoren vertreten hingegen die Ansicht, dass gute Lehre als nahezu eindimensionales Konstrukt gut mittels globaler Items beurteilt werden kann <TextLink reference="30"></TextLink>. Wieder andere Studien zeigen, dass die Reliabilität eines Instruments umso höher ist, je mehr spezifische Items es enthält <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>. </Pgraph><Pgraph>Bezüglich der Skalierung der Antwortoptionen ist anzumerken, dass generell bessere Bewertungen zu erwarten sind, wenn sich der positive Anker der Skala links befindet <TextLink reference="33"></TextLink>. Des Weiteren ist bekannt, dass die Formulierungen der Items nicht von allen Studierenden gleich interpretiert werden <TextLink reference="3"></TextLink>. Auch das Erhebungsformat ist zu berücksichtigen. Diesem kommt eine wachsende Bedeutung zu, da viele Fakultäten die Evaluation ihrer Lehrveranstaltungen mittlerweile über Online-Plattformen abwickeln. Online-Evaluationen gehen zumeist mit einem geringeren Rücklauf einher als traditionelle Papier-Evaluationen. Wenngleich sich dies einer Studie zufolge nicht auf die Evaluationsergebnisse auswirkt und online sogar mehr Freitext-Kommentare abgegeben werden <TextLink reference="34"></TextLink>, wurde auch berichtet, dass sich leistungsschwache Studierende weniger an Online-Evaluationen beteiligen als leistungsstarke <TextLink reference="35"></TextLink>. Des Weiteren ist anzumerken, dass anonyme Befragungen in der Regel schlechtere Bewertungen liefern als Befragungen, in denen die Studierenden sich identifizieren müssen <TextLink reference="36"></TextLink>. Hinsichtlich der oben erwähnten Absolventenbefragungen ist zu beachten, dass Evaluationsergebnisse umso schlechter ausfallen, je größer der zeitliche Abstand zwischen der Lehre und ihrer Bewertung ist <TextLink reference="37"></TextLink>.</Pgraph><Pgraph>Items, die zur Bewertung individueller Dozenten eingesetzt werden, zeigen sich besonders störanfällig. So wurde wiederholt gezeigt, dass Lehrende, die enthusiastisch auftreten oder eine gute Reputation <TextLink reference="38"></TextLink> haben, systematisch besser bewertet werden – selbst wenn die von ihnen vermittelten Inhalte fehlerhaft sind <TextLink reference="39"></TextLink>, <TextLink reference="40"></TextLink>. Das studentische Interesse an einem Kurs ist ein weiterer wichtiger Störfaktor <TextLink reference="41"></TextLink>, <TextLink reference="42"></TextLink> – folglich werden Wahlkurse in der Regel besser bewertet als Pflichtkurse <TextLink reference="28"></TextLink>, <TextLink reference="43"></TextLink>. Veranstaltungen, die besser besucht sind, erhalten ebenfalls zumeist positivere Bewertungen <TextLink reference="44"></TextLink>. Speziell im Medizinstudium werden die Veranstaltungen theoretischer Fächer tendenziell schlechter bewertet als die Lehre in klinischen Fächern; ebenso erhalten Vorlesungen im Schnitt schlechtere Bewertungen als Kleingruppenunterricht <TextLink reference="37"></TextLink>.</Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Discussion"> <MainHeadline>Discussion</MainHeadline><Pgraph>The present article is a broad review of the available literature on evaluation in medical education. The results suggest that teaching quality is not a univariate construct. Rather, all four – partially overlapping – dimensions (‘structure’, ‘process’, ‘instructor’, and ‘outcome’) can and should be considered in evaluations. In addition, interpretation of evaluation results needs to be informed by the construct underlying the data collection tool. For instance, student appraisals of a teacher’s punctuality or the condition of classrooms do not allow direct conclusions to be drawn on student learning outcomes. Exam results may be used to estimate learning outcome. However, they merely reflect performance at one point in time and do not provide information on progress during a course. Progress testing is one solution to this problem, but given that it is solely based on multiple choice questions it is unable to assess practical skills or professional attitudes. In addition, it does not use a pre-post design, which would be necessary to evaluate individual courses or modules (as opposed to student cohorts or entire study programs).</Pgraph><Pgraph>The quantitative analysis of evaluation data (e.g., by calculating means of global course ratings provided by students using a grading system) facilitates comparisons across courses. However, this approach entails two risks: First, global ratings are unlikely to represent a clear-cut construct. Second, such ratings are prone to several confounding factors <TextLink reference="45"></TextLink>. If one assumes that teaching quality with all its facets can be reflected by one single mean rating, both risks threaten the reliability and validity of such global assessments. In addition to the confounding factors mentioned above, the length of data collection tools should be mentioned at this point. Some of the questionnaires listed in Table 1 <ImgLink imgNo="1" imgType="table"/> contain more than <TextGroup><PlainText>60 items</PlainText></TextGroup> and are probably not well-suited for frequent and regular use in course evaluations due to low student acceptance <TextLink reference="46"></TextLink>.</Pgraph><Pgraph>Less than half of the articles identified in the initial search were included in this review. The main reason for exclusion was a lack of relatedness to medical education. For instance, the validated questionnaire SEEQ (“Students’ Evaluation of Educational Quality”) <TextLink reference="47"></TextLink> is widely used in higher education institutions in the United States. It is unclear to which extent this instrument can be generalized to medical education as its items are not specific for medical education. In addition, this questionnaire was developed for higher education in the U.S. which differs from the German setting in some respect. German instruments used to evaluate (non-medical) teaching are the HILVE (“Heidelberger Inventar zur Lehrveranstaltungs-Evaluation”) <TextLink reference="48"></TextLink> and the HILVE II. Both tools possess good psychometric properties, but again generalisability to medical education is questionable. Due to the specifics of medical education mentioned above, further psychometric testing is definitely advisable before applying this tool. </Pgraph><Pgraph>The results of this literature review do not justify general recommendations to be made for the use of specific questionnaires to evaluate medical education in Germany. One reason for this is that the choice of the data collection tool should be guided by the goal of evaluation. However, a preliminary and resource efficient solution could be to use the Marburger questionnaire (for structural and procedural aspects) and the SFDP-26 German <TextLink reference="19"></TextLink> (for teachers), as they are already available in German and possess good psychometric characteristics. Since those instruments that were mainly developed and validated in English-speaking countries cannot easily be transferred to the context of medical education in Germany, a medium-term goal should be to design a new questionnaire from existing and new items and validate this new tool in German medical schools. This process should be informed by psychometric expertise and could involve several German medical schools as part of a related research project. By using an instrument that has been mutually agreed upon at multiple locations, greater comparability of the results could be achieved. A possible development and implementation strategy is currently being discussed between MFT and AWMF. </Pgraph><Pgraph>There is a risk that relevant publications have not been included in our final selection of papers for this review. The main limitation of the present article is that the majority of included studies were done in English-speaking countries where medical education can differ substantially from Germany (e.g., clerkships cannot readily be compared to the German ‘Blockpraktikum’ and ‘Famulatur’; there is no direct equivalent to the ‘Praktische Jahr’ in most English-speaking countries). In addition, the sources used for answering the fourth research question were largely not specific to medical education. At best, it is questionable if the insights into questionnaire design and confounding factors as they pertain to evaluation in other disciplines can readily be transferred to medical education. Finally, our search for published instruments used to assess teaching quality mainly identified self-administered questionnaires that are completed by students. Other data collection procedures (e.g., graduate surveys) might also provide helpful information. Due to limited data, we chose not to discuss these instruments in the present review.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Diskussion"> <MainHeadline>Diskussion</MainHeadline><Pgraph>Die vorliegende Arbeit ist das Ergebnis einer breit angelegten Bestandsaufnahme der verfügbaren Literatur zur Evaluation der Lehre in der Humanmedizin. Die Ergebnisse der Recherche unterstreichen nochmals, dass die Qualität der Lehre kein eindimensionales Konstrukt darstellt; vielmehr können und sollten in Evaluationen alle vier – teilweise überlappenden – Dimensionen „Struktur“, „Prozess“, „Dozent“ und „Ergebnis“ betrachtet werden. Außerdem muss die Beurteilung von Evaluationsergebnissen stets vor dem Hintergrund des Konstrukts erfolgen, das dem genutzten Instrument zugrunde liegt. Konkret können aus studentischen Bewertungen der Pünktlichkeit von Dozenten oder der räumlichen Gegebenheiten an einer Hochschule keine unmittelbaren Rückschlüsse auf den Lernerfolg der Studierenden gezogen werden. Prüfungsergebnisse können zwar zur Abschätzung des Lehr-Ergebnisses herangezogen werden; sie bilden jedoch in der Regel nur den Leistungsstand zu einem festen Zeitpunkt ab und erlauben keine Bewertung des Lernerfolgs im Laufe einer Lehrveranstaltung. Der Progress Test überwindet diese Einschränkung zwar durch seine wiederholte Durchführung, beinhaltet jedoch nur MC-Fragen und bildet daher keine praktischen Fertigkeiten oder professionellen Einstellungen ab. Außerdem wird er nicht vor und nach jedem Kurs/Modul durchgeführt – dies wäre aber erforderlich, um einzelne Kurse/Module (und nicht nur Studierendenkohorten bzw. ganze Studiengänge) zu evaluieren.</Pgraph><Pgraph>Die quantitative Analyse von Evaluationsdaten (z.B. durch Mittelwertbildung der studentischen Globalbewertung eines Kurses auf einer Schulnoten-Skala) eröffnet zwar die Möglichkeit des Vergleichs zwischen Veranstaltungen; dieses Vorgehen birgt aber zwei Risiken: Erstens wird mit Globalbewertungen wahrscheinlich ein nicht trennscharf definiertes Konstrukt abgebildet, und zweitens sind solche Bewertungen einer Vielzahl verzerrender Einflüsse unterworfen <TextLink reference="45"></TextLink>. Beides wirkt sich mindernd auf die Reliabilität und Validität von Globalbewertungen aus, falls angenommen wird, dass die Qualität der gesamten Lehre mit allen Facetten durch eine einzige Kennzahl abgebildet werden kann. Zusätzlich zu den zahlreichen oben genannten Störfaktoren soll an dieser Stelle auch der Umfang der Erhebungsinstrumente erwähnt werden. Einige der in Tabelle 1 <ImgLink imgNo="1" imgType="table"/> aufgeführten Bögen enthalten über 60 Items und eignen sich aufgrund mangelnder studentischer Akzeptanz wahrscheinlich nicht zum Einsatz im Rahmen einer regelmäßigen und häufigen Veranstaltungsevaluation <TextLink reference="46"></TextLink>.</Pgraph><Pgraph>Weniger als die Hälfte der identifizierten Volltext-Arbeiten haben Eingang in die hier präsentierte Zusammenstellung gefunden. Hauptgrund für den Ausschluss der meisten Arbeiten war ihr fehlender Bezug zum Medizinstudium. Sehr weit verbreitet ist im amerikanischen Raum beispielsweise der validierte Fragenbogen SEEQ („Students’ Evaluation of Educational Quality”) <TextLink reference="47"></TextLink>. Ob dieses Instrument auf die Medizin übertragbar ist, ist fraglich: Zum einen ist es für die amerikanische Hochschullehre entwickelt worden, die nur eingeschränkt mit der deutschen vergleichbar ist, zum anderen ist es kein medizinspezifisches Instrument. Weithin bekannte deutschsprachige Instrumente zur Evaluation der (nicht-medizinischen) Hochschullehre sind HILVE („Heidelberger Inventar zur Lehrveranstaltungs-Evaluation“) <TextLink reference="48"></TextLink> und HILVE II. Beide besitzen gute psychometrische Charakteristika, aber auch hier stellt sich die Frage nach der Übertragbarkeit auf den medizinischen Kontext. Aufgrund der eingangs genannten Besonderheiten des Medizinstudiums erscheint auf jeden Fall vor einem entsprechenden Einsatz eine erneute psychometrische Testung in diesem Setting geboten. </Pgraph><Pgraph>Generelle Empfehlungen zum Einsatz spezifischer Instrumente im Medizinstudium an deutschen Fakultäten lassen sich aus den Ergebnissen der Literatursuche nicht ableiten, da die Wahl des Instruments sich wie oben dargestellt am Evaluationsziel orientieren sollte. Eine vorläufige, ressourcensparende Lösung könnte darin bestehen, die bereits in deutscher Sprache verfügbaren und mit guten psychometrischen Charakteristika ausgestatteten Bögen Marburger Fragebogen (für Strukturen und Prozesse) und SFDP-26 German <TextLink reference="19"></TextLink> (für Dozenten) einzusetzen. Aufgrund der eingeschränkten Übertragbarkeit der vornehmlich im angelsächsischen Sprachraum entwickelten und validierten Instrumente auf den Kontext des deutschen Medizinstudiums sollte mittelfristig angestrebt werden, aus bereits verfügbaren, teilweise aber auch neu konstruierten Items einen neuen Fragebogen zu erstellen, der dann direkt an deutschen Fakultäten evaluiert wird. Dieser Prozess muss von psychometrischer Expertise begleitet werden und könnte im Rahmen eines entsprechenden Forschungsprojekts mehrere interessierte medizinische Fakultäten einbeziehen. Mit Hilfe eines gemeinsam konsentierten Instrumentes könnte durch die Nutzung an mehreren Standorten eine höhere Vergleichbarkeit der Ergebnisse erreicht werden. Bezüglich einer möglichen Entwicklungs- und Implementierungsstrategie finden zurzeit weitergehende Konsultationen zwischen MFT und AWMF statt. </Pgraph><Pgraph>Neben der Möglichkeit, dass relevante Publikationen in unserer Literatursuche nicht enthalten sind, ist die Hauptlimitation der vorliegenden Arbeit, dass ein Großteil der betrachteten Literatur aus dem anglo-amerikanischen Sprachraum stammt mit zuweilen erheblichen Unterschieden gegenüber dem Medizinstudium in Deutschland (z.B. eingeschränkte Übertragbarkeit angelsächsischer „clerkships“ auf deutsche Blockpraktika und Famulaturen; Fehlen eines direkten Äquivalents zum Praktischen Jahr in den angelsächsischen Studiengängen). Zudem bezogen sich die Quellen, auf die bei der vierten Forschungsfrage zurückgegriffen wurde, größtenteils nicht primär auf das Medizinstudium. Es ist zumindest fraglich, ob Erkenntnisse zur Fragebogenkonstruktion und Störgrößen in der Evaluation aus anderen Disziplinen sich ohne weiteres auf das Studium der Humanmedizin übertragen lassen. Schließlich lieferte die von uns angestellte Suche nach publizierten Instrumenten zur Beurteilung der Lehrqualität hauptsächlich Fragebögen, die im Rahmen einer studentischen Evaluation eingesetzt werden können. Andere Verfahren (z.B. Absolventenbefragungen) könnten ebenfalls hilfreiche Informationen liefern; aufgrund der diesbezüglich limitierten Datenlage wurde auf eine entsprechende Diskussion im Rahmen dieser Übersicht verzichtet. </Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Conclusion"> <MainHeadline>Conclusion</MainHeadline><Pgraph>The evaluation of medical education is mainly based on student ratings of structural and procedural aspects of teaching as well as the performance of individual teachers. The present review identified several reliable instruments to assess these three dimensions of teaching quality. However, evaluation research unrelated to medicine has identified a number of confounding factors impacting on student ratings, thereby threatening the validity of these instruments. These confounding factors should be considered or re-addressed when using student ratings to evaluate medical education. In Germany, the assessment of teaching quality based on exam performance is problematic as there is currently no comprehensive quality control of summative exams at German medical schools. Graduate surveys are not widely used and rely on instruments with unknown validity and reliability.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Fazit"> <MainHeadline>Fazit</MainHeadline><Pgraph>Die Evaluation der medizinischen Hochschullehre stützt sich in erster Linie auf studentische Bewertungen, die sich auf lehrbezogene Strukturen und Prozesse sowie die Leistung individueller Dozenten beziehen. In der vorliegenden Recherche wurden einige reliable Instrumente zur Betrachtung dieser drei Dimensionen der Lehrqualität identifiziert; allerdings sind zumindest einige Störfaktoren aus nicht medizinichscher Literatur bekannt, die sich auf das studentische Bewertungsverhalten auswirken und somit die Validität der Erhebungsinstrumente einschränken. Diese Störfaktoren sollten auch bei der Nutzung studentischer Evaluationen zur Bewertung der medizinischen Lehre Berücksichtigung finden bzw. neu geprüft werden. Die Bewertung der Lehrqualität anhand von Prüfungsergebnissen ist aufgrund der bisher ungesicherten Qualität fakultätsinterner Prüfungen in Deutschland problematisch; Absolventenbefragungen werden nicht flächendeckend und mit Instrumenten ungewisser Validität und Reliabilität durchgeführt. </Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Clinical and practical implications"> <MainHeadline>Clinical and practical implications</MainHeadline><Pgraph><UnorderedList><ListItem level="1">The quality of medical education is a multi-dimensional construct; the four basic dimensions for assessing teaching quality are structures, processes, teacher characteristics, and learning outcome.</ListItem><ListItem level="1">To assess structures, processes and individual teachers in medical education, several instruments with good psychometric characteristics are available. The assessment of learning outcome is limited mainly due to unknown or insufficient reliability and validity of summative exams in medical schools.</ListItem><ListItem level="1">When designing and implementing evaluation instruments, the confounding factors presented in this review must be taken into account as far as they are likely to generalise from other fields of university level teaching to medical education.</ListItem></UnorderedList></Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Konsequenzen für Klinik und Praxis"> <MainHeadline>Konsequenzen für Klinik und Praxis</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Die Qualität der medizinischen Lehre ist ein mehrdimensionales Konstrukt; die wesentlichen vier Dimensionen, anhand derer die Lehrqualität beurteilt werden kann, sind Strukturen, Prozesse, Dozenten-Charakteristika und das Lehr-Ergebnis.</ListItem><ListItem level="1">Für die Bewertung von Strukturen, Prozessen und individuellen Dozenten im Medizinstudium stehen verschiedene Instrumente mit guten psychometrischen Charakteristika zur Verfügung. Die Messung des Lehr-Ergebnisses ist aufgrund der größtenteils unbekannten bzw. unbefriedigenden Reliabilität und Validität fakultätsinterner Prüfungen zurzeit noch erheblichen Limitationen unterworfen.</ListItem><ListItem level="1">Bei der Konzeption und Nutzung von Evaluationsinstrumenten müssen die in dieser Arbeit dargestellten Störgrößen berücksichtigt werden, insofern diese aus anderen Lehr-Kontexten bekannten Faktoren auf das Medizinstudium übertragbar sind. </ListItem></UnorderedList></Pgraph></TextBlock> <TextBlock language="en" linked="yes" name="Notes"> <MainHeadline>Notes</MainHeadline><SubHeadline>Competing interests</SubHeadline><Pgraph>The authors declare that they have no competing interests.</Pgraph><SubHeadline>Authorship</SubHeadline><Pgraph>The authors Herrmann-Lingen C and Raupach T contributed equally to this work.</Pgraph></TextBlock> <TextBlock language="de" linked="yes" name="Anmerkungen"> <MainHeadline>Anmerkungen</MainHeadline><SubHeadline>Interessenkonflikte</SubHeadline><Pgraph>Die Autoren erklären, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel haben.</Pgraph><SubHeadline>Autorenschaft</SubHeadline><Pgraph>Die Autoren Herrmann-Lingen C and Raupach T haben gleichermaßen zu der Arbeit beigetragen.</Pgraph></TextBlock> <References linked="yes"> <Reference refNo="1"> <RefAuthor>DeGEval – Gesellschaft für Evaluation e.V.</RefAuthor> <RefTitle></RefTitle> <RefYear>2002</RefYear> <RefBookTitle>Standards für Evaluation</RefBookTitle> <RefPage></RefPage> <RefTotal>DeGEval – Gesellschaft für Evaluation e.V., editor. Standards für Evaluation. Köln: DeGEval; 2002.</RefTotal> </Reference> <Reference refNo="2"> <RefAuthor>Kogan JR</RefAuthor> <RefAuthor>Shea JA</RefAuthor> <RefTitle>Course evaluation in medical education</RefTitle> <RefYear>2007</RefYear> <RefJournal>Teach Teach Educ</RefJournal> <RefPage>251-64</RefPage> <RefTotal>Kogan JR, Shea JA. Course evaluation in medical education. Teach Teach Educ. 2007;23(3):251-64. DOI: 10.1016/j.tate.2006.12.020</RefTotal> <RefLink>http://dx.doi.org/10.1016/j.tate.2006.12.020</RefLink> </Reference> <Reference refNo="3"> <RefAuthor>Billings-Gagliardi S</RefAuthor> <RefAuthor>Barrett SV</RefAuthor> <RefAuthor>Mazor KM</RefAuthor> <RefTitle>Interpreting course evaluation results: insights from thinkaloud interviews with medical students</RefTitle> <RefYear>2004</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>1061-70</RefPage> <RefTotal>Billings-Gagliardi S, Barrett SV, Mazor KM. Interpreting course evaluation results: insights from thinkaloud interviews with medical students. Med Educ. 2004 Oct;38(10):1061-70. DOI: 10.1111/j.1365-2929.2004.01953.x</RefTotal> <RefLink>http://dx.doi.org/10.1111/j.1365-2929.2004.01953.x</RefLink> </Reference> <Reference refNo="4"> <RefAuthor>Colliver JA</RefAuthor> <RefAuthor>Kucera K</RefAuthor> <RefAuthor>Verhulst SJ</RefAuthor> <RefTitle>Meta-analysis of quasi-experimental research: are systematic narrative reviews indicated?</RefTitle> <RefYear>2008</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>858-65</RefPage> <RefTotal>Colliver JA, Kucera K, Verhulst SJ. Meta-analysis of quasi-experimental research: are systematic narrative reviews indicated? Med Educ. 2008 Sep;42(9):858-65. DOI: 10.1111/j.1365-2923.2008.03144.x</RefTotal> <RefLink>http://dx.doi.org/10.1111/j.1365-2923.2008.03144.x</RefLink> </Reference> <Reference refNo="5"> <RefAuthor>Eva KW</RefAuthor> <RefTitle>On the limits of systematicity</RefTitle> <RefYear>2008</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>852-3</RefPage> <RefTotal>Eva KW. On the limits of systematicity. Med Educ. 2008 Sep;42(9):852-3. DOI: 10.1111/j.1365-2923.2008.03140.x</RefTotal> <RefLink>http://dx.doi.org/10.1111/j.1365-2923.2008.03140.x</RefLink> </Reference> <Reference refNo="6"> <RefAuthor>Gibson KA</RefAuthor> <RefAuthor>Boyle P</RefAuthor> <RefAuthor>Black DA</RefAuthor> <RefAuthor>Cunningham M</RefAuthor> <RefAuthor>Grimm MC</RefAuthor> <RefAuthor>McNeil HP</RefAuthor> <RefTitle>Enhancing evaluation in an undergraduate medical education program</RefTitle> <RefYear>2008</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>787-93</RefPage> <RefTotal>Gibson KA, Boyle P, Black DA, Cunningham M, Grimm MC, McNeil HP. Enhancing evaluation in an undergraduate medical education program. Acad Med. 2008 Aug;83(8):787-93. DOI: 10.1097/ACM.0b013e31817eb8ab</RefTotal> <RefLink>http://dx.doi.org/10.1097/ACM.0b013e31817eb8ab</RefLink> </Reference> <Reference refNo="7"> <RefAuthor>Blumberg P</RefAuthor> <RefTitle>Multidimensional outcome considerations in assessing the efficacy of medical educational programs</RefTitle> <RefYear>2003</RefYear> <RefJournal>Teach Learn Med</RefJournal> <RefPage>210-4</RefPage> <RefTotal>Blumberg P. Multidimensional outcome considerations in assessing the efficacy of medical educational programs. Teach Learn Med. 2003;15(3):210-4. DOI: 10.1207/S15328015TLM1503_10</RefTotal> <RefLink>http://dx.doi.org/10.1207/S15328015TLM1503_10</RefLink> </Reference> <Reference refNo="8"> <RefAuthor>Frank JR</RefAuthor> <RefAuthor>Danoff D</RefAuthor> <RefTitle>The CanMEDS initiative: implementing an outcomes-based framework of physician competencies</RefTitle> <RefYear>2007</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>642-7</RefPage> <RefTotal>Frank JR, Danoff D. The CanMEDS initiative: implementing an outcomes-based framework of physician competencies. Med Teach. 2007 Sep;29(7):642-7. DOI: 10.1080/01421590701746983</RefTotal> <RefLink>http://dx.doi.org/10.1080/01421590701746983</RefLink> </Reference> <Reference refNo="9"> <RefAuthor>Boyle P</RefAuthor> <RefAuthor>Grimm MC</RefAuthor> <RefAuthor>McNeil HP</RefAuthor> <RefAuthor>Scicluna H</RefAuthor> <RefTitle>The UNSW Medicine Student Experience Questionnaire (MedSEQ)</RefTitle> <RefYear>San</RefYear> <RefTotal>Boyle P, Grimm MC, McNeil HP, Scicluna H. The UNSW Medicine Student Experience Questionnaire (MedSEQ). San Francisco: Academia; 2009. Available from: http://www.academia.edu/5252480/Medicine_Student_Experience_Questionnaire_MEDSEQ_UNSW</RefTotal> <RefLink>http://www.academia.edu/5252480/Medicine_Student_Experience_Questionnaire_MEDSEQ_UNSW</RefLink> </Reference> <Reference refNo="10"> <RefAuthor>Krebs K</RefAuthor> <RefTitle></RefTitle> <RefYear>2006</RefYear> <RefBookTitle>Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin: Eine Untersuchung zur Reliabilität und Dimensionalität des Marburger Fragebogens zur Evaluation des Lehrangebots am Fachbereich Medizin [Dissertation]</RefBookTitle> <RefPage></RefPage> <RefTotal>Krebs K. Marburger Fragebogen zur Evaluation des Lehrangebots in der Medizin: Eine Untersuchung zur Reliabilität und Dimensionalität des Marburger Fragebogens zur Evaluation des Lehrangebots am Fachbereich Medizin [Dissertation]. Marburg: Philipps-Universität Marburg; 2006. Available from: http://archiv.ub.uni-marburg.de/diss/z2006/0387/pdf/dkk.pdf</RefTotal> <RefLink>http://archiv.ub.uni-marburg.de/diss/z2006/0387/pdf/dkk.pdf</RefLink> </Reference> <Reference refNo="11"> <RefAuthor>Roff S</RefAuthor> <RefTitle>The Dundee Ready Educational Environment Measure (DREEM)– a generic instrument for measuring students' perceptions of undergraduate health professions curricula</RefTitle> <RefYear>2005</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>322-5</RefPage> <RefTotal>Roff S. The Dundee Ready Educational Environment Measure (DREEM)– a generic instrument for measuring students' perceptions of undergraduate health professions curricula. Med Teach. 2005 Jun;27(4):322-5. DOI: 10.1080/01421590500151054</RefTotal> <RefLink>http://dx.doi.org/10.1080/01421590500151054</RefLink> </Reference> <Reference refNo="12"> <RefAuthor>Rotthoff T</RefAuthor> <RefAuthor>Ostapczuk MS</RefAuthor> <RefAuthor>De Bruin J</RefAuthor> <RefAuthor>Decking U</RefAuthor> <RefAuthor>Schneider M</RefAuthor> <RefAuthor>Ritz-Timme S</RefAuthor> <RefTitle>Assessing the learning environment of a faculty: psychometric validation of the German version of the Dundee Ready Education Environment Measure with students and teachers</RefTitle> <RefYear>2011</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>e624-36</RefPage> <RefTotal>Rotthoff T, Ostapczuk MS, De Bruin J, Decking U, Schneider M, Ritz-Timme S. Assessing the learning environment of a faculty: psychometric validation of the German version of the Dundee Ready Education Environment Measure with students and teachers. Med Teach. 2011;33(11):e624-36. DOI: 10.3109/0142159X.2011.610841</RefTotal> <RefLink>http://dx.doi.org/10.3109/0142159X.2011.610841</RefLink> </Reference> <Reference refNo="13"> <RefAuthor>Rothman AI</RefAuthor> <RefAuthor>Ayoade F</RefAuthor> <RefTitle>The development of a learning environment: a questionnaire for use in curriculum evaluation</RefTitle> <RefYear>1970</RefYear> <RefJournal>J Med Educ</RefJournal> <RefPage>754-9</RefPage> <RefTotal>Rothman AI, Ayoade F. The development of a learning environment: a questionnaire for use in curriculum evaluation. J Med Educ. 1970;45(10):754-9. DOI: 10.1097/00001888-197010000-00006</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-197010000-00006</RefLink> </Reference> <Reference refNo="14"> <RefAuthor>Marshall RE</RefAuthor> <RefTitle>Measuring the medical school learning environment</RefTitle> <RefYear>1978</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>98-104</RefPage> <RefTotal>Marshall RE. Measuring the medical school learning environment. Acad Med. 1978;53(2):98-104. DOI: 10.1097/00001888-197802000-00003</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-197802000-00003</RefLink> </Reference> <Reference refNo="15"> <RefAuthor>James PA</RefAuthor> <RefAuthor>Osborne JW</RefAuthor> <RefTitle>A measure of medical instructional quality in ambulatory settings: the MedIQ</RefTitle> <RefYear>1999</RefYear> <RefJournal>Fam Med</RefJournal> <RefPage>263-9</RefPage> <RefTotal>James PA, Osborne JW. A measure of medical instructional quality in ambulatory settings: the MedIQ. Fam Med. 1999 Apr;31(4):263-9.</RefTotal> </Reference> <Reference refNo="16"> <RefAuthor>Soemantri D</RefAuthor> <RefAuthor>Herrera C</RefAuthor> <RefAuthor>Riquelme A</RefAuthor> <RefTitle>Measuring the educational environment in health professions studies: a systematic review</RefTitle> <RefYear>2010</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>947-52</RefPage> <RefTotal>Soemantri D, Herrera C, Riquelme A. Measuring the educational environment in health professions studies: a systematic review. Med Teach. 2010;32(12):947-52. DOI: 10.3109/01421591003686229</RefTotal> <RefLink>http://dx.doi.org/10.3109/01421591003686229</RefLink> </Reference> <Reference refNo="17"> <RefAuthor>Zuberi RW</RefAuthor> <RefAuthor>Bordage G</RefAuthor> <RefAuthor>Norman GR</RefAuthor> <RefTitle>Validation of the SETOC instrument – Student evaluation of teaching in outpatient clinics</RefTitle> <RefYear>2007</RefYear> <RefJournal>Adv Health Sci Educ Theory Pract</RefJournal> <RefPage>55-69</RefPage> <RefTotal>Zuberi RW, Bordage G, Norman GR. Validation of the SETOC instrument – Student evaluation of teaching in outpatient clinics. Adv Health Sci Educ Theory Pract. 2007 Feb;12(1):55-69. DOI: 10.1007/s10459-005-2328-y</RefTotal> <RefLink>http://dx.doi.org/10.1007/s10459-005-2328-y</RefLink> </Reference> <Reference refNo="18"> <RefAuthor>Litzelman DK</RefAuthor> <RefAuthor>Stratos GA</RefAuthor> <RefAuthor>Marriott DJ</RefAuthor> <RefAuthor>Skeff KM</RefAuthor> <RefTitle>Factorial validation of a widely disseminated educational framework for evaluating clinical teachers</RefTitle> <RefYear>1998</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>688-95</RefPage> <RefTotal>Litzelman DK, Stratos GA, Marriott DJ, Skeff KM. Factorial validation of a widely disseminated educational framework for evaluating clinical teachers. Acad Med. 1998;73(6):688-95. DOI: 10.1097/00001888-199806000-00016</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-199806000-00016</RefLink> </Reference> <Reference refNo="19"> <RefAuthor>Iblher P</RefAuthor> <RefAuthor>Zupanic M</RefAuthor> <RefAuthor>Härtel C</RefAuthor> <RefAuthor>Heinze H</RefAuthor> <RefAuthor>Schmucker P</RefAuthor> <RefAuthor>Fischer MR</RefAuthor> <RefTitle>Der Fragebogen "SFDP26-German": Ein verlässliches Instrument zur Evaluation des klinischen Unterrichts?</RefTitle> <RefYear>2011</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc30</RefPage> <RefTotal>Iblher P, Zupanic M, Härtel C, Heinze H, Schmucker P, Fischer MR. Der Fragebogen "SFDP26-German": Ein verlässliches Instrument zur Evaluation des klinischen Unterrichts? [The Questionnaire "SFDP26-German": a reliable tool for evaluation of clinical teaching?]. GMS Z Med Ausbild. 2011;28(2):Doc30. DOI: 10.3205/zma000742</RefTotal> <RefLink>http://dx.doi.org/10.3205/zma000742</RefLink> </Reference> <Reference refNo="20"> <RefAuthor>Herzig S</RefAuthor> <RefAuthor>Marschall B</RefAuthor> <RefAuthor>Nast-Kolb D</RefAuthor> <RefAuthor>Soboll S</RefAuthor> <RefAuthor>Rump LC</RefAuthor> <RefAuthor>Hilgers RD</RefAuthor> <RefTitle>Positionspapier der nordrhein-westfälischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe für die Lehre</RefTitle> <RefYear>2007</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc109</RefPage> <RefTotal>Herzig S, Marschall B, Nast-Kolb D, Soboll S, Rump LC, Hilgers RD. Positionspapier der nordrhein-westfälischen Studiendekane zur hochschulvergleichenden leistungsorientierten Mittelvergabe für die Lehre [Distribution of government funds according to teaching performance]. GMS Z Med Ausbild. 2007;24(2):Doc109. Available from: http://www.egms.de/en/journals/zma/2007-24/zma000403.shtml</RefTotal> <RefLink>http://www.egms.de/en/journals/zma/2007-24/zma000403.shtml</RefLink> </Reference> <Reference refNo="21"> <RefAuthor>Schulze J</RefAuthor> <RefAuthor>Drolshagen S</RefAuthor> <RefTitle>Format und Durchführung schriftlicher Prüfungen</RefTitle> <RefYear>2006</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc44</RefPage> <RefTotal>Schulze J, Drolshagen S. Format und Durchführung schriftlicher Prüfungen [Format and implementation of written assessments]. GMS Z Med Ausbild. 2006; 23(3):Doc44. Available from: http://www.egms.de/en/journals/zma/2006-23/zma000263.shtml</RefTotal> <RefLink>http://www.egms.de/en/journals/zma/2006-23/zma000263.shtml</RefLink> </Reference> <Reference refNo="22"> <RefAuthor>Mahamed A</RefAuthor> <RefAuthor>Gregory PA</RefAuthor> <RefAuthor>Austin Z</RefAuthor> <RefTitle>"Testwiseness" among international pharmacy graduates and Canadian senior pharmacy students</RefTitle> <RefYear>2006</RefYear> <RefJournal>Am J Pharm Educ</RefJournal> <RefPage>131</RefPage> <RefTotal>Mahamed A, Gregory PA, Austin Z. "Testwiseness" among international pharmacy graduates and Canadian senior pharmacy students. Am J Pharm Educ. 2006 Dec;70(6):131. DOI: 10.5688/aj7006131</RefTotal> <RefLink>http://dx.doi.org/10.5688/aj7006131</RefLink> </Reference> <Reference refNo="23"> <RefAuthor>Freeman A</RefAuthor> <RefAuthor>Van Der Vleuten C</RefAuthor> <RefAuthor>Nouns Z</RefAuthor> <RefAuthor>Ricketts C</RefAuthor> <RefTitle>Progress testing internationally</RefTitle> <RefYear>2010</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>451-5</RefPage> <RefTotal>Freeman A, Van Der Vleuten C, Nouns Z, Ricketts C. Progress testing internationally. Med Teach. 2010;32(6):451-5. DOI: 10.3109/0142159X.2010.485231</RefTotal> <RefLink>http://dx.doi.org/10.3109/0142159X.2010.485231</RefLink> </Reference> <Reference refNo="24"> <RefAuthor>Möltner A</RefAuthor> <RefAuthor>Duelli R</RefAuthor> <RefAuthor>Resch F</RefAuthor> <RefAuthor>Schultz JH</RefAuthor> <RefAuthor>Jünger J</RefAuthor> <RefTitle>Fakultätsinterne Prüfungen an den deutschen medizinischen Fakultäten</RefTitle> <RefYear>2010</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc44</RefPage> <RefTotal>Möltner A, Duelli R, Resch F, Schultz JH, Jünger J. Fakultätsinterne Prüfungen an den deutschen medizinischen Fakultäten [School-specific assessment in German medical schools]. GMS Z Med Ausbild. 2010;27(3):Doc44. DOI: 10.3205/zma000681</RefTotal> <RefLink>http://dx.doi.org/10.3205/zma000681</RefLink> </Reference> <Reference refNo="25"> <RefAuthor>Raupach T</RefAuthor> <RefAuthor>Münscher C</RefAuthor> <RefAuthor>Beissbarth T</RefAuthor> <RefAuthor>Burckhardt G</RefAuthor> <RefAuthor>Pukrop T</RefAuthor> <RefTitle>Towards outcome-based programme evaluation: using student comparative self-assessments to determine teaching effectiveness</RefTitle> <RefYear>2011</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>e446-53</RefPage> <RefTotal>Raupach T, Münscher C, Beissbarth T, Burckhardt G, Pukrop T. Towards outcome-based programme evaluation: using student comparative self-assessments to determine teaching effectiveness. Med Teach. 2011;33(8):e446-53. DOI: 10.3109/0142159X.2011.586751</RefTotal> <RefLink>http://dx.doi.org/10.3109/0142159X.2011.586751</RefLink> </Reference> <Reference refNo="26"> <RefAuthor>Spiel C</RefAuthor> <RefAuthor>Schober B</RefAuthor> <RefAuthor>Reimann R</RefAuthor> <RefTitle>Evaluation of curricula in higher education: challenges for evaluators</RefTitle> <RefYear>2006</RefYear> <RefJournal>Eval Rev</RefJournal> <RefPage>430-50</RefPage> <RefTotal>Spiel C, Schober B, Reimann R. Evaluation of curricula in higher education: challenges for evaluators. Eval Rev. 2006 Aug;30(4):430-50. DOI: 10.1177/0193841X05285077</RefTotal> <RefLink>http://dx.doi.org/10.1177/0193841X05285077</RefLink> </Reference> <Reference refNo="27"> <RefAuthor>Downing SM</RefAuthor> <RefAuthor>Haladyna TM</RefAuthor> <RefTitle>Validity threats: overcoming interference with proposed interpretations of assessment data</RefTitle> <RefYear>2004</RefYear> <RefJournal>Med Educ</RefJournal> <RefPage>327-33</RefPage> <RefTotal>Downing SM, Haladyna TM. Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ. 2004;38(3):327-33. DOI: 10.1046/j.1365-2923.2004.01777.x</RefTotal> <RefLink>http://dx.doi.org/10.1046/j.1365-2923.2004.01777.x</RefLink> </Reference> <Reference refNo="28"> <RefAuthor>Aleamoni LM</RefAuthor> <RefTitle>Student rating myths versus research facts from 1924 to 1998</RefTitle> <RefYear>1999</RefYear> <RefJournal>J Pers Eval Educ</RefJournal> <RefPage>153-66</RefPage> <RefTotal>Aleamoni LM. Student rating myths versus research facts from 1924 to 1998. J Pers Eval Educ. 1999;13(2):153-66. DOI: 10.1023/A:1008168421283</RefTotal> <RefLink>http://dx.doi.org/10.1023/A:1008168421283</RefLink> </Reference> <Reference refNo="29"> <RefAuthor>Marsh HW</RefAuthor> <RefAuthor>Roche LA</RefAuthor> <RefTitle>Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility</RefTitle> <RefYear>1997</RefYear> <RefJournal>Am Psychol</RefJournal> <RefPage>1187-97</RefPage> <RefTotal>Marsh HW, Roche LA. Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. Am Psychol. 1997;52(11):1187-97. DOI: 10.1037/0003-066X.52.11.1187</RefTotal> <RefLink>http://dx.doi.org/10.1037/0003-066X.52.11.1187</RefLink> </Reference> <Reference refNo="30"> <RefAuthor>d'Apollonia S</RefAuthor> <RefAuthor>Abrami PC</RefAuthor> <RefTitle>Navigating student ratings of instruction</RefTitle> <RefYear>1997</RefYear> <RefJournal>Am Psychol</RefJournal> <RefPage>1198-208</RefPage> <RefTotal>d'Apollonia S, Abrami PC. Navigating student ratings of instruction. Am Psychol. 1997;52(11):1198-208. DOI: 10.1037/0003-066X.52.11.1198</RefTotal> <RefLink>http://dx.doi.org/10.1037/0003-066X.52.11.1198</RefLink> </Reference> <Reference refNo="31"> <RefAuthor>Jackson DL</RefAuthor> <RefAuthor>Teal CR</RefAuthor> <RefAuthor>Raines SJ</RefAuthor> <RefAuthor>Nansel TR</RefAuthor> <RefAuthor>Force RC</RefAuthor> <RefAuthor>Burdsal CA</RefAuthor> <RefTitle>The dimensions of students' perceptions of teaching effectiveness</RefTitle> <RefYear>1999</RefYear> <RefJournal>Educ Psychol Meas</RefJournal> <RefPage>580-96</RefPage> <RefTotal>Jackson DL, Teal CR, Raines SJ, Nansel TR, Force RC, Burdsal CA. The dimensions of students' perceptions of teaching effectiveness. Educ Psychol Meas. 1999;59(4):580-96. DOI: 10.1177/00131649921970035</RefTotal> <RefLink>http://dx.doi.org/10.1177/00131649921970035</RefLink> </Reference> <Reference refNo="32"> <RefAuthor>Marsh HW</RefAuthor> <RefTitle>Students' evaluations of university teaching: Dimensionality, reliability, validity, potential baises, and utility</RefTitle> <RefYear>1984</RefYear> <RefJournal>J Educ Psychol</RefJournal> <RefPage>707-54</RefPage> <RefTotal>Marsh HW. Students' evaluations of university teaching: Dimensionality, reliability, validity, potential baises, and utility. J Educ Psychol. 1984;76(5):707-54. DOI: 10.1037/0022-0663.76.5.707</RefTotal> <RefLink>http://dx.doi.org/10.1037/0022-0663.76.5.707</RefLink> </Reference> <Reference refNo="33"> <RefAuthor>Albanese M</RefAuthor> <RefAuthor>Prucha C</RefAuthor> <RefAuthor>Barnet JH</RefAuthor> <RefAuthor>Gjerde CL</RefAuthor> <RefTitle>The effect of right or left placement of the positive response on Likert-type scales used by medical students for rating instruction</RefTitle> <RefYear>1997</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>627-30</RefPage> <RefTotal>Albanese M, Prucha C, Barnet JH, Gjerde CL. The effect of right or left placement of the positive response on Likert-type scales used by medical students for rating instruction. Acad Med. 1997 Jul;72(7):627-30. DOI: 10.1097/00001888-199707000-00015</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-199707000-00015</RefLink> </Reference> <Reference refNo="34"> <RefAuthor>Sorenson DL</RefAuthor> <RefAuthor>Johnson TD</RefAuthor> <RefTitle>Online student ratings of instruction</RefTitle> <RefYear>2003</RefYear> <RefJournal>New Dir Teach Learn</RefJournal> <RefPage>1-112</RefPage> <RefTotal>Sorenson DL, Johnson TD. Online student ratings of instruction. New Dir Teach Learn. 2003;2003(96):1-112.</RefTotal> </Reference> <Reference refNo="35"> <RefAuthor>Adams MJ</RefAuthor> <RefAuthor>Umbach PD</RefAuthor> <RefTitle>Nonresponse and online student evaluations of teaching: Understanding the influence of salience, fatigue, and academic environments</RefTitle> <RefYear>2012</RefYear> <RefJournal>Res High Educ</RefJournal> <RefPage>576-91</RefPage> <RefTotal>Adams MJ, Umbach PD. Nonresponse and online student evaluations of teaching: Understanding the influence of salience, fatigue, and academic environments. Res High Educ. 2012;53(5):576-91. DOI: 10.1007/s11162-011-9240-5</RefTotal> <RefLink>http://dx.doi.org/10.1007/s11162-011-9240-5</RefLink> </Reference> <Reference refNo="36"> <RefAuthor>Afonso NM</RefAuthor> <RefAuthor>Cardozo LJ</RefAuthor> <RefAuthor>Mascarenhas OA</RefAuthor> <RefAuthor>Aranha AN</RefAuthor> <RefAuthor>Shah C</RefAuthor> <RefTitle>Are anonymous evaluations a better assessment of faculty teaching performance? A comparative analysis of open and anonymous evaluation processes</RefTitle> <RefYear>2005</RefYear> <RefJournal>Fam Med</RefJournal> <RefPage>43-7</RefPage> <RefTotal>Afonso NM, Cardozo LJ, Mascarenhas OA, Aranha AN, Shah C. Are anonymous evaluations a better assessment of faculty teaching performance? A comparative analysis of open and anonymous evaluation processes. Fam Med. 2005 Jan;37(1):43-7.</RefTotal> </Reference> <Reference refNo="37"> <RefAuthor>van den Bussche H</RefAuthor> <RefAuthor>Weidtmann K</RefAuthor> <RefAuthor>Kohler N</RefAuthor> <RefAuthor>Frost M</RefAuthor> <RefAuthor>Kaduszkiewicz H</RefAuthor> <RefTitle>Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen</RefTitle> <RefYear>2006</RefYear> <RefJournal>GMS Z Med Ausbild</RefJournal> <RefPage>Doc37</RefPage> <RefTotal>van den Bussche H, Weidtmann K, Kohler N, Frost M, Kaduszkiewicz H. Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen [Evaluation of medical education: methodological problems of implementation and interpretation of results]. GMS Z Med Ausbild. 2006;23(2):Doc37. Available from: http://www.egms.de/en/journals/zma/2006-23/zma000256.shtml</RefTotal> <RefLink>http://www.egms.de/en/journals/zma/2006-23/zma000256.shtml</RefLink> </Reference> <Reference refNo="38"> <RefAuthor>Griffin BW</RefAuthor> <RefTitle>Instructor reputation and student ratings of instruction</RefTitle> <RefYear>2001</RefYear> <RefJournal>Contemp Educ Psychol</RefJournal> <RefPage>534-52</RefPage> <RefTotal>Griffin BW. Instructor reputation and student ratings of instruction. Contemp Educ Psychol. 2001 Oct;26(4):534-52. DOI: 10.1006/ceps.2000.1075</RefTotal> <RefLink>http://dx.doi.org/10.1006/ceps.2000.1075</RefLink> </Reference> <Reference refNo="39"> <RefAuthor>Marsh HW</RefAuthor> <RefAuthor>Ware JE</RefAuthor> <RefTitle>Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect</RefTitle> <RefYear>1982</RefYear> <RefJournal>J Educ Psychol</RefJournal> <RefPage>126-34</RefPage> <RefTotal>Marsh HW, Ware JE. Effects of expressiveness, content coverage, and incentive on multidimensional student rating scales: New interpretations of the Dr. Fox effect. J Educ Psychol. 1982;74(1):126-34. DOI: 10.1037/0022-0663.74.1.126</RefTotal> <RefLink>http://dx.doi.org/10.1037/0022-0663.74.1.126</RefLink> </Reference> <Reference refNo="40"> <RefAuthor>Naftulin DH</RefAuthor> <RefAuthor>Ware JE</RefAuthor> <RefAuthor>Donnelly FA</RefAuthor> <RefTitle>The Doctor Fox Lecture: a paradigm of educational seduction</RefTitle> <RefYear>1973</RefYear> <RefJournal>J Med Educ</RefJournal> <RefPage>630-5</RefPage> <RefTotal>Naftulin DH, Ware JE, Donnelly FA. The Doctor Fox Lecture: a paradigm of educational seduction. J Med Educ. 1973 Jul;48(7):630-5. DOI: 10.1097/00001888-197307000-00003</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-197307000-00003</RefLink> </Reference> <Reference refNo="41"> <RefAuthor>Prave RS</RefAuthor> <RefAuthor>Baril GL</RefAuthor> <RefTitle>Instructor ratings: Controlling for bias from Initial student interest</RefTitle> <RefYear>1993</RefYear> <RefJournal>J Educ Bus</RefJournal> <RefPage>362-6</RefPage> <RefTotal>Prave RS, Baril GL. Instructor ratings: Controlling for bias from Initial student interest. J Educ Bus. 1993;68(6):362-6. DOI: 10.1080/08832323.1993.10117644</RefTotal> <RefLink>http://dx.doi.org/10.1080/08832323.1993.10117644</RefLink> </Reference> <Reference refNo="42"> <RefAuthor>Cashin WE</RefAuthor> <RefTitle></RefTitle> <RefYear>1988</RefYear> <RefBookTitle>Student ratings of teaching: A summary of the research</RefBookTitle> <RefPage></RefPage> <RefTotal>Cashin WE. Student ratings of teaching: A summary of the research. East Lansing, MI, USA: Office of Faculty and Organizational Development at Michigan State University; 1988. (IDEA Paper; No.20). Available from: http://ideaedu.org/wp-content/uploads/2014/11/idea-paper_50.pdf</RefTotal> <RefLink>http://ideaedu.org/wp-content/uploads/2014/11/idea-paper_50.pdf</RefLink> </Reference> <Reference refNo="43"> <RefAuthor>Ting KF</RefAuthor> <RefTitle>A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience</RefTitle> <RefYear>2000</RefYear> <RefJournal>Res High Educ</RefJournal> <RefPage>637-61</RefPage> <RefTotal>Ting KF. A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Res High Educ. 2000;41(5):637-61. DOI: 10.1023/A:1007075516271</RefTotal> <RefLink>http://dx.doi.org/10.1023/A:1007075516271</RefLink> </Reference> <Reference refNo="44"> <RefAuthor>Abrami PC</RefAuthor> <RefAuthor>D'Apollonia S</RefAuthor> <RefAuthor>Cohen PA</RefAuthor> <RefTitle>Validity of student ratings of instruction: What we know and what we do not</RefTitle> <RefYear>1990</RefYear> <RefJournal>J Educ Psychol</RefJournal> <RefPage>219-31</RefPage> <RefTotal>Abrami PC, D'Apollonia S, Cohen PA. Validity of student ratings of instruction: What we know and what we do not. J Educ Psychol. 1990;82(2):219-31. DOI: 10.1037/0022-0663.82.2.219</RefTotal> <RefLink>http://dx.doi.org/10.1037/0022-0663.82.2.219</RefLink> </Reference> <Reference refNo="45"> <RefAuthor>Schiekirka S</RefAuthor> <RefAuthor>Raupach T</RefAuthor> <RefTitle>A systematic review of factors influencing student ratings in undergraduate medical education course evaluations</RefTitle> <RefYear>2015</RefYear> <RefJournal>BMC Med Educ</RefJournal> <RefPage>30</RefPage> <RefTotal>Schiekirka S, Raupach T. A systematic review of factors influencing student ratings in undergraduate medical education course evaluations. BMC Med Educ. 2015 Mar 5;15:30. DOI: 10.1186/s12909-015-0311-8</RefTotal> <RefLink>http://dx.doi.org/10.1186/s12909-015-0311-8</RefLink> </Reference> <Reference refNo="46"> <RefAuthor>Schiekirka S</RefAuthor> <RefAuthor>Reinhardt D</RefAuthor> <RefAuthor>Heim S</RefAuthor> <RefAuthor>Fabry G</RefAuthor> <RefAuthor>Pukrop T</RefAuthor> <RefAuthor>Anders S</RefAuthor> <RefAuthor>Raupach T</RefAuthor> <RefTitle>Student perceptions of evaluation in undergraduate medical education: A qualitative study from one medical school</RefTitle> <RefYear>2012</RefYear> <RefJournal>BMC Med Educ</RefJournal> <RefPage>45</RefPage> <RefTotal>Schiekirka S, Reinhardt D, Heim S, Fabry G, Pukrop T, Anders S, Raupach T. Student perceptions of evaluation in undergraduate medical education: A qualitative study from one medical school. BMC Med Educ. 2012 Jun 22;12:45. DOI: 10.1186/1472-6920-12-45</RefTotal> <RefLink>http://dx.doi.org/10.1186/1472-6920-12-45</RefLink> </Reference> <Reference refNo="47"> <RefAuthor>Marsh HW</RefAuthor> <RefTitle>SEEQ: A reliable, valid, and useful instrument for collecting students' evaluations of university teaching</RefTitle> <RefYear>1982</RefYear> <RefJournal>Brit J Psychol</RefJournal> <RefPage>77-95</RefPage> <RefTotal>Marsh HW. SEEQ: A reliable, valid, and useful instrument for collecting students' evaluations of university teaching. Brit J Psychol. 1982;52(1):77-95. DOI: 10.1111/j.2044-8279.1982.tb02505.x</RefTotal> <RefLink>http://dx.doi.org/10.1111/j.2044-8279.1982.tb02505.x</RefLink> </Reference> <Reference refNo="48"> <RefAuthor>Rindermann H</RefAuthor> <RefAuthor>Schofield N</RefAuthor> <RefTitle>Generalizability of Multidimensional Student Ratings of University Instruction Across Courses and Teachers</RefTitle> <RefYear>2001</RefYear> <RefJournal>Res High Educ</RefJournal> <RefPage>377-99</RefPage> <RefTotal>Rindermann H, Schofield N. Generalizability of Multidimensional Student Ratings of University Instruction Across Courses and Teachers. Res High Educ. 2001;42(4):377-99. DOI: 10.1023/A:1011050724796</RefTotal> <RefLink>http://dx.doi.org/10.1023/A:1011050724796</RefLink> </Reference> <Reference refNo="49"> <RefAuthor>Stalmeijer RE</RefAuthor> <RefAuthor>Dolmans DH</RefAuthor> <RefAuthor>Wolfhagen IH</RefAuthor> <RefAuthor>Muijtjens AM</RefAuthor> <RefAuthor>Scherpbier AJ</RefAuthor> <RefTitle>The Maastricht Clinical Teaching Questionnaire (MCTQ) as a valid and reliable instrument for the evaluation of clinical teachers</RefTitle> <RefYear>2010</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>1732-8</RefPage> <RefTotal>Stalmeijer RE, Dolmans DH, Wolfhagen IH, Muijtjens AM, Scherpbier AJ. The Maastricht Clinical Teaching Questionnaire (MCTQ) as a valid and reliable instrument for the evaluation of clinical teachers. Acad Med. 2010 Nov;85(11):1732-8. DOI: 10.1097/ACM.0b013e3181f554d6</RefTotal> <RefLink>http://dx.doi.org/10.1097/ACM.0b013e3181f554d6</RefLink> </Reference> <Reference refNo="50"> <RefAuthor>Irby DM</RefAuthor> <RefAuthor>Gillmore GM</RefAuthor> <RefAuthor>Ramsey PG</RefAuthor> <RefTitle>Factors affecting ratings of clinical teachers by medical students and residents</RefTitle> <RefYear>1987</RefYear> <RefJournal>Acad Med</RefJournal> <RefPage>1-7</RefPage> <RefTotal>Irby DM, Gillmore GM, Ramsey PG. Factors affecting ratings of clinical teachers by medical students and residents. Acad Med. 1987;62(1):1-7. DOI: 10.1097/00001888-198701000-00001</RefTotal> <RefLink>http://dx.doi.org/10.1097/00001888-198701000-00001</RefLink> </Reference> <Reference refNo="51"> <RefAuthor>Beckman TJ</RefAuthor> <RefAuthor>Lee MC</RefAuthor> <RefAuthor>Rohren CH</RefAuthor> <RefAuthor>Pankratz VS</RefAuthor> <RefTitle>Evaluating an instrument for the peer review of inpatient teaching</RefTitle> <RefYear>2003</RefYear> <RefJournal>Med Teach</RefJournal> <RefPage>131-5</RefPage> <RefTotal>Beckman TJ, Lee MC, Rohren CH, Pankratz VS. Evaluating an instrument for the peer review of inpatient teaching. Med Teach. 2003 Mar;25(2):131-5. DOI: 10.1080/0142159031000092508</RefTotal> <RefLink>http://dx.doi.org/10.1080/0142159031000092508</RefLink> </Reference> </References> <Media> <Tables> <Table format="png"> <MediaNo>1</MediaNo> <MediaID language="en">1en</MediaID> <MediaID language="de">1de</MediaID> <Caption language="en"><Pgraph><Mark1>Table 1: Summary of all identified evaluation instruments for teaching quality</Mark1></Pgraph></Caption> <Caption language="de"><Pgraph><Mark1>Tabelle 1: Zusammenschau aller identifizierten Instrumente zur Lehrevaluation</Mark1></Pgraph></Caption> </Table> <NoOfTables>1</NoOfTables> </Tables> <Figures> <NoOfPictures>0</NoOfPictures> </Figures> <InlineFigures> <NoOfPictures>0</NoOfPictures> </InlineFigures> <Attachments> <Attachment> <MediaNo>1</MediaNo> <MediaID filename="000219.a1.pdf" mimeType="application/pdf" origFilename="000219_Appendix.pdf" size="150485" url="">1</MediaID> <AttachmentTitle language="en">Complete list of the literature</AttachmentTitle> <AttachmentTitle language="de">Aufstellung der Gesamtliteratur</AttachmentTitle> </Attachment> <NoOfAttachments>1</NoOfAttachments> </Attachments> </Media> </OrigData> </GmsArticle>