<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>zma001803</Identifier>
    <IdentifierDoi>10.3205/zma001803</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-zma0018034</IdentifierUrn>
    <ArticleType language="en">how to</ArticleType>
    <ArticleType language="de">Gewusst wie</ArticleType>
    <TitleGroup>
      <Title language="en">How do I develop a psychological test or questionnaire&#63;</Title>
      <TitleTranslated language="de">Wie entwickle ich ein psychologisches Test- oder Fragebogenverfahren&#63;</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Giesler</Lastname>
          <LastnameHeading>Giesler</LastnameHeading>
          <Firstname>Marianne</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address language="en">Freiburg i. Brsg., Germany<Affiliation>Freiburg i. Brsg., Germany</Affiliation></Address>
        <Address language="de">Freiburg i. Brsg., Deutschland<Affiliation>Freiburg i. Brsg., Deutschland</Affiliation></Address>
        <Email>Dr&#95;M&#95;Giesler&#64;t-online.de</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Fabry</Lastname>
          <LastnameHeading>Fabry</LastnameHeading>
          <Firstname>G&#246;tz</Firstname>
          <Initials>G</Initials>
        </PersonNames>
        <Address language="en">
          <Affiliation>University Freiburg, Department of Medical Psychology and Medical Sociology, Freiburg i. Brsg., Germany</Affiliation>
        </Address>
        <Address language="de">
          <Affiliation>Universit&#228;t Freiburg, Institut f&#252;r Medizinische Psychologie und Medizinische Soziologie, Freiburg i. Brsg., Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">phases of test- and questionnaire construction</Keyword>
      <Keyword language="en">reliability</Keyword>
      <Keyword language="en">validity</Keyword>
      <Keyword language="en">generation and wording of items</Keyword>
      <Keyword language="de">Phasen der Test- bzw. Fragebogenkonstruktion</Keyword>
      <Keyword language="de">Reliabilit&#228;t</Keyword>
      <Keyword language="de">Validit&#228;t</Keyword>
      <Keyword language="de">Generierung und Formulierung von Items</Keyword>
      <SectionHeading language="en">research methods</SectionHeading>
      <SectionHeading language="de">Forschungsmethoden</SectionHeading>
    </SubjectGroup>
    <DateReceived>20250120</DateReceived>
    <DateRevised>20250513</DateRevised>
    <DateAccepted>20250728</DateAccepted>
    <DatePublishedList>
      <DatePublished>20260115</DatePublished>
    </DatePublishedList>
    <Language>engl</Language>
    <LanguageTranslation>germ</LanguageTranslation>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>2366-5017</ISSN>
        <Volume>43</Volume>
        <Issue>1</Issue>
        <JournalTitle>GMS Journal for Medical Education</JournalTitle>
        <JournalTitleAbbr>GMS J Med Educ</JournalTitleAbbr>
        <IssueTitle>Research in Health Profession Education/Ausbildungsforschung in Gesundheitsberufen</IssueTitle>
      </Journal>
    </SourceGroup>
    <ArticleNo>9</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph>Ziel dieses <Mark2>Gewusst-wie-Artikels</Mark2> ist es, &#196;rztinnen und &#196;rzte sowie anderen Gesundheitsfachkr&#228;ften, die im Bereich Medizinische Ausbildungsforschung t&#228;tig sind, ein Grundverst&#228;ndnis der Konstruktion von Test- oder Fragebogenverfahren zu vermitteln. Die Konstruktion solcher Verfahren ist insgesamt zu komplex, um sie auf einigen wenigen Seiten zu beschreiben. Daher kann dieser Beitrag Leserinnen und Leser lediglich in die Lage versetzen, solche Verfahren grob zu bewerten, bzw. eine Vorstellung davon zu vermitteln, wie solche Verfahren im Allgemeinen konstruiert werden.</Pgraph><Pgraph>Der Beitrag skizziert verschiedene Phasen der Test- bzw. Fragebogenkonstruktion. Er beginnt mit der <Mark2>inhaltlichen Phase</Mark2>, in der ein Konstrukt nach M&#246;glichkeit mit R&#252;ckgriff auf Theorien und Modelle definiert wird. Hier werden Items formuliert, ein Antwortformat ausgew&#228;hlt, die Instruktion formuliert und Vortests durchgef&#252;hrt. In der <Mark2>strukturellen Phase</Mark2> wird die Struktur des Tests bzw. Fragebogens mittels geeigneter teststatistischer Verfahren und Kennwerte &#252;berpr&#252;ft. In einer letzten Phase (<Mark2>externe Phase</Mark2>) werden weitere Belege f&#252;r die Validit&#228;t von Test- bzw. Fragebogenergebnissen gesammelt. Die Validierung solcher Verfahren stellt jedoch keinen abschlie&#223;enden Schritt der Test- bzw. Fragebogenkonstruktion dar, denn sie wird in allen Phasen der Test- bzw. Fragebogenkonstruktion ber&#252;cksichtigt. Die Validierung von Test- und Fragebogenverfahren ist theoretisch und methodisch anspruchsvoll und sollte nie als abgeschlossen betrachtet werden. Es sollte strenggenommen auch nicht davon gesprochen werden, dass ein Test bzw. Fragebogen valide ist, da Validit&#228;t keine Eigenschaft solcher Verfahren ist. Es k&#246;nnen nur Aussagen und Schlussfolgerungen valide sein, die auf der Grundlage von Test- bzw. Fragebogenergebnissen getroffen werden.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph>The purpose of this <Mark2>How-to article</Mark2> is to provide physicians and other health professionals working in the field of medical education research with a basic understanding of the construction of tests or questionnaire measures. The construction of such measures is too complex to be described on a few pages. Therefore, this article can only enable readers to roughly evaluate such measures or to convey an idea of how these are generally constructed.</Pgraph><Pgraph>The article outlines various phases of test or questionnaire construction. It begins with the <Mark2>content phase</Mark2>, in which a construct is defined, if possible, by drawing on theories and models. Here, items are written, a response format is selected, the instruction is formulated, and pilot tests are conducted. In the <Mark2>structural phase</Mark2>, the structure of the test or questionnaire is evaluated using suitable test statistical methods and statistical parameters. In the final phase (<Mark2>external phase</Mark2>), additional evidence for the validity of test or questionnaire results is sought. The validation of such measures is not the last step in the construction of tests or questionnaires as it is to be considered in all phases of test or questionnaire construction. The validation of test and questionnaire measures is theoretically and methodically demanding and should never be considered complete. Strictly speaking, it should not be said that a test or questionnaire is valid, because validity is not a property of such measures. It rather is statements and conclusions based on test or questionnaire results that can be valid.</Pgraph></Abstract>
    <TextBlock name="1. Goal of this how-to article" linked="yes" language="en">
      <MainHeadline>1. Goal of this how-to article</MainHeadline><Pgraph>In <Mark2>medical education</Mark2> research, tests and questionnaires are often used, for example, to measure motivation, empathy, or certain performance levels of students. However, the training of physicians and medical professionals hardly conveys the competencies that would enable them to evaluate the quality of such measures, develop measurement instruments, or translate an existing questionnaire. This <Mark2>how-to article</Mark2> is intended to explain and illustrate the development of psychological test and questionnaire measures.</Pgraph><Pgraph>The process of test or questionnaire construction is complex and time-consuming. There are various specialised books in which this process is described in detail, usually on more than 200 pages <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. A short article can therefore only enable readers to roughly evaluate tests and questionnaires and convey an idea of how such measures are generally constructed according to the so-called <Mark2>Classical Test Theory</Mark2> (CTT) (see below).</Pgraph><Pgraph>The following paragraphs will first briefly explain the different types of tests and questionnaires. Then, the various phases of constructing such measures will be outlined.</Pgraph></TextBlock>
    <TextBlock name="1. Ziel dieses Gewusst-wie-Artikels" linked="yes" language="de">
      <MainHeadline>1. Ziel dieses Gewusst-wie-Artikels</MainHeadline><Pgraph>In der <Mark2>medizinischen Ausbildungsforschung</Mark2> werden h&#228;ufig Test- oder Fragebogenverfahren eingesetzt, z.B. um Motivation, Empathie oder auch bestimmte Leistungen von Studierenden zu messen. In der Ausbildung von &#196;rztinnen, &#196;rzten und medizinischen Fachkr&#228;ften werden allerdings kaum Kompetenzen vermittelt, die es erlauben, die Qualit&#228;t solcher Verfahren zu bewerten, Messinstrumente zu entwickeln oder einen bestehenden Fragebogen zu &#252;bersetzen. Dieser <Mark2>Gewusst-wie-Artikel</Mark2> soll daher die Entwicklung psychologischer Test- und Fragebogenverfahren erl&#228;utern und anschaulich machen.</Pgraph><Pgraph>Der Prozess der Test- bzw. Fragebogenkonstruktion ist komplex und zeitaufwendig. Es gibt verschiedene Fachb&#252;cher, in denen dieser Prozess ausf&#252;hrlich auf meist &#252;ber 200 Seiten beschrieben wird <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Ein kurzer Artikel kann daher Leserinnen und Leser lediglich in die Lage versetzen, Test- und Fragebogenverfahren grob zu bewerten, und ebenso eine Vorstellung vermitteln, wie solche Verfahren nach der sog. <Mark2>klassischen Testtheorie</Mark2> (s.u.) im Allgemeinen konstruiert werden.</Pgraph><Pgraph>In den folgenden Kapiteln wird zun&#228;chst kurz erl&#228;utert, welche Arten von Test- bzw. Fragebogenverfahren sich unterscheiden lassen. Anschlie&#223;end werden verschiedene Phasen der Konstruktion solcher Verfahren skizziert.</Pgraph></TextBlock>
    <TextBlock name="2. What types of test or questionnaire measures can be distinguished&#63;" linked="yes" language="en">
      <MainHeadline>2. What types of test or questionnaire measures can be distinguished&#63;</MainHeadline><Pgraph><Mark2>Psychological test</Mark2> and <Mark2>questionnaire measures</Mark2> can be assigned to three areas: performance tests, personality questionnaires, and projective techniques <TextLink reference="3"></TextLink>. Each area can be further subdivided (see table 1 <ImgLink imgNo="1" imgType="table" />). These measures may cover abilities, skills, characteristics, and states of persons that often are not directly observable, but derived from observable behaviours, and referred to as constructs. Well-known psychological constructs used in <Mark2>medical education research</Mark2> are, for example, motivation, self-efficacy, resilience, reflective ability, and empathy. Since constructs cannot be directly measured, they are referred to as latent variables, for which items are used as indicators <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Most psychological test and questionnaire measures are based on the assumptions and construction principles of the so-called <Mark2>Classical Test Theory</Mark2> (CTT) <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, which assumes that individual measurements can vary across different points of measurement. Its basic concept involves the assumption that the observed value X of a person on a test consists of both the person&#8217;s <Mark2>true score</Mark2> and a <Mark2>random measurement error</Mark2>. The result of an intelligence test would accordingly be influenced by the actual intelligence of the person being tested and by unsystematic influences, such as performance fluctuations due to the time of day, e.g. if one were to conduct an infinite number of measurements, the mean of these measurements would correspond to the person&#8217;s actual intelligence score.</Pgraph><Pgraph>In addition to the CTT, there is the <Mark2>Probabilistic Test Theory</Mark2> (PTT), which is sometimes also called <Mark2>Item-Response Theory</Mark2> (IRT). This theory assumes that the probability of a specific response to an item depends on the characteristics of the item and the level of the latent trait being measured in the person <TextLink reference="5"></TextLink>. According to Rost <TextLink reference="4"></TextLink>, the two test theories CTT and PTT are not, as often described, competing, but complementary methods, since one theory starts where the other ends, or because both test theories are largely based on the same assumptions. Further details on PTT can be found in B&#252;hner <TextLink reference="2"></TextLink> and D&#246;ring and Bortz <TextLink reference="5"></TextLink>.</Pgraph></TextBlock>
    <TextBlock name="2. Welche Arten von Test- bzw. Fragebogenverfahren lassen sich unterscheiden&#63;" linked="yes" language="de">
      <MainHeadline>2. Welche Arten von Test- bzw. Fragebogenverfahren lassen sich unterscheiden&#63;</MainHeadline><Pgraph><Mark2>Psychologische Test- bzw. Fragebogenverfahren</Mark2> lassen sich drei Bereichen zuordnen: Leistungstests, Pers&#246;nlichkeitsfrageb&#246;gen und Projektive Verfahren <TextLink reference="3"></TextLink>. Jeder Bereich kann wiederum weiter unterteilt werden (siehe Tabelle 1 <ImgLink imgNo="1" imgType="table" />). Diese Verfahren erfassen F&#228;higkeiten, Fertigkeiten, Eigenschaften und Zust&#228;nde von Personen, die oftmals nicht direkt beobachtbar sind. Diese Merkmale werden mit Hilfe von beobachtbarem Verhalten erschlossen und als Konstrukte bezeichnet. Bekannte, in der medizinischen Ausbildungsforschung verwendete psychologische Konstrukte sind z.B. Motivation, Selbstwirksamkeit, Resilienz, Reflexionsf&#228;higkeit, Empathie. Da Konstrukte nicht direkt gemessen werden k&#246;nnen, werden sie als <Mark2>latente Variablen</Mark2> bezeichnet, f&#252;r die Items als Indikatoren herangezogen werden <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Die meisten psychologischen Test- und Fragebogenverfahren beruhen auf den Annahmen und den Konstruktionsprinzipien der sog. <Mark2>Klassischen Testtheorie (KTT)</Mark2> <TextLink reference="4"></TextLink>, <TextLink reference="5"></TextLink>, mit der ber&#252;cksichtigt wird, dass Messungen einzelner Personen &#252;ber verschiedene Messungen hinweg variieren k&#246;nnen. Das Grundkonzept beinhaltet die Annahme, dass der beobachtete Wert X einer Person in einem Test aus einem &#8222;wahren&#8220; Wert (true score) der Person und einem zuf&#228;lligen Messfehler (random measurement error) besteht. Das Ergebnis eines Intelligenztests w&#252;rde dementsprechend zum einen von der tats&#228;chlichen Intelligenz der untersuchten Person, zum anderen aber auch von unsystematischen Einfl&#252;ssen, z.B. tageszeitlich bedingten Leistungsschwankungen beeinflusst. W&#252;rde man unendlich viele Messungen durchf&#252;hren, dann entspr&#228;che der Mittelwert dieser Messungen dem tats&#228;chlichen Intelligenzwert.</Pgraph><Pgraph>Neben der KTT gibt es die <Mark2>Probabilistische Testtheorie</Mark2> (PTT), die manchmal auch<Mark2> Item-Response Theorie</Mark2> (IRT) genannt wird. Diese Theorie beruht auf der Annahme, dass die Wahrscheinlichkeit einer bestimmten Antwort auf ein Item von Merkmalen des Items und der Auspr&#228;gung des zu messenden latenten Merkmals der Person abh&#228;ngt <TextLink reference="5"></TextLink>. Nach Rost <TextLink reference="4"></TextLink> handelt es sich bei den beiden Testtheorien KTT und PTT nicht, wie h&#228;ufig beschrieben, um konkurrierende, sondern um komplement&#228;re Verfahren, da die eine Theorie dort ansetzt, wo die andere aufh&#246;rt bzw. weil beide Testtheorien weitgehend auf denselben Annahmen beruhen. N&#228;here Ausf&#252;hrungen zur PTT finden sich in B&#252;hner <TextLink reference="2"></TextLink> und D&#246;ring und Bortz <TextLink reference="5"></TextLink>.</Pgraph></TextBlock>
    <TextBlock name="3. How are test and questionnaire measures developed&#63;" linked="yes" language="en">
      <MainHeadline>3. How are test and questionnaire measures developed&#63;</MainHeadline><Pgraph>When developing a test or a questionnaire measure, so-called test quality criteria must be fulfilled (see table 2 <ImgLink imgNo="2" imgType="table" />). The development of such measures begins with the determination or definition of the construct to be measured. After that, items (tasks or statements) are constructed, and the answer format is selected. After a pretest, the measure is specifically tested on one or more samples. If a sufficiently large number of data has been obtained, it is analysed how reliable the test or questionnaire measures the construct (reliability) and whether it measures the construct it claims to measure (validity).</Pgraph><SubHeadline>3.1. Definition of the construct</SubHeadline><Pgraph>To define and operationalize the construct, theories or models are used, if available. Examples of constructs based on sound theories and models that have been used to develop psychological tests include motivation and learning strategies. If theories and models are not available, the construct space can be narrowed down after extensive literature study, and indicators of the construct (e.g. specific statements or behaviours) can be determined. A current example from medical education research where such a procedure is necessary is<Mark2> reflective ability</Mark2>. There are various models and theories here as well, but they differ significantly in what is understood by <Mark2>reflective ability</Mark2>. Therefore, to develop a test procedure for <Mark2>reflective ability</Mark2>, it would first be necessary to define which indicators of <Mark2>reflective ability</Mark2> should be considered based on prior work. As part of the construct definition, it should also be determined to what extent relationships and overlaps with other constructs exist (nomological network) <TextLink reference="2"></TextLink>. For example, there has been an illustrative discussion as to the extent to which the personality trait of <Mark2>openness to experience</Mark2> is related to creativity <TextLink reference="6"></TextLink>.</Pgraph><Pgraph>The quality of the definition of the construct determines how easily items can be generated. A detailed definition considering necessary distinctions from other constructs also increases the likelihood of the <Mark2>content validity</Mark2> of the construct <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>.</Pgraph><SubHeadline>3.2. Generation and wording of items</SubHeadline><Pgraph>Different sources can be used to generate items <TextLink reference="1"></TextLink>. For example, items can be </Pgraph><Pgraph><UnorderedList><ListItem level="1">derived from <Mark2>theories</Mark2> or from an extensive, systematic review of the <Mark2>literature,</Mark2> </ListItem><ListItem level="1">generated from the results of <Mark2>preliminary investigations</Mark2> (interviews, focus group discussions, etc.),</ListItem><ListItem level="1">written in accordance with <Mark2>existing tests and questionnaires,</Mark2></ListItem><ListItem level="1">developed by <Mark2>experts</Mark2>.</ListItem></UnorderedList></Pgraph><Pgraph>When generating items, the goals of the test being constructed should be considered <TextLink reference="2"></TextLink>. If the goal is to capture the trait or ability manifestations of individuals, content-valid items should be constructed. A test for detecting <Mark2>fear of progression</Mark2>, i.e. the fear a diagnosed condition might progress and deteriorate, is valid in terms of content if the test items can be considered a representative sample of the entire range of <Mark2>fear of progression</Mark2> (e.g. cognitive, emotional, and behavioural aspects). It should be ensured that only one construct is captured with the items. Furthermore, all indicators of a construct should correlate with each other <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>To ensure the <Mark2>content validity</Mark2> of the test, attention should be paid to collect a sufficiently large and representative number of items. The number of items in the drafted test should be greater than the planned number of items in the final version <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Before constructing the items, it should be decided how exactly items should be written. For example, this can be done in the following ways:</Pgraph><Pgraph><UnorderedList><ListItem level="1">As <Mark2>questions</Mark2>: Do you feel respected by members of other health professions&#63;</ListItem><ListItem level="1">As <Mark2>statements</Mark2>: I feel respected by members of other health professions.</ListItem><ListItem level="1">In the <Mark2>first person singular</Mark2>: I enjoy working with members of other health professions. </ListItem><ListItem level="1">In an <Mark2>impersonal form</Mark2>: People enjoy working with members of other health professions here.</ListItem></UnorderedList></Pgraph><Pgraph>The items should be coherent and understandable in terms of content <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. This means, among other things, that foreign words or complex sentence structures should be avoided. The items should also be clearly defined in terms of content. For this purpose, if possible, avoid conditional statements or conjunctions, among other things. Negations (especially double negatives) should also be avoided.</Pgraph><SubHeadline>3.3. Choosing the response format</SubHeadline><Pgraph>The selection of appropriate response options is just as important as constructing the items. Frequently, psychological test and questionnaire measures use rating scales (usually so-called Likert scales), with graded response categories to which verbal labels are attached. Labels often encountered range from &#8220;not applicable&#8221; to &#8220;applicable&#8221; or &#8220;very poor&#8221; to &#8220;very good&#8221;. Rating scales may also differ in the number of response categories. In this regard, response scales with up to 7 levels are acceptable <TextLink reference="2"></TextLink>. Furthermore, it must be decided whether the response levels of the items are unipolar (e.g. &#8220;never&#8221; to &#8220;very often&#8221;) or bipolar (e.g. &#8220;disagree&#8221;, &#8220;slightly disagree&#8221;, &#8220;neither disagree&#47;nor agree&#8221;, &#8220;slightly agree&#8221;, &#8220;agree&#8221;). In addition to verbal labels of the response levels, visual aids can also be used (e.g. smileys).</Pgraph><SubHeadline>3.4. Wording of the instruction</SubHeadline><Pgraph>The purpose of the instruction is to familiarize respondents with the content and purpose of the test or questionnaire measure, provide guidance on how to answer the items, and explain data protection regulations <TextLink reference="7"></TextLink>. It has a central function, as it not only prepares for the task of taking the test, but can also create a pre-set attitude in the people being questioned about the task to be completed <TextLink reference="1"></TextLink>. An instruction is usually drafted at the end of the construction process, after the items and response alternatives have been determined. In addition to specifying the objective or purpose of the test or questionnaire, instructions usually contain information indicating that</Pgraph><Pgraph><UnorderedList><ListItem level="1">participation is voluntary and that there are no disadvantages to be feared in case of non-participation,</ListItem><ListItem level="1">all items should be read and answered quickly,</ListItem><ListItem level="1">the items are to be responded to one after the other and no item should be skipped, even if this may seem difficult at times, and that in this case the &#8220;most likely&#8221; option should always be checked,</ListItem><ListItem level="1">confidentiality and anonymity of individual information is ensured in accordance with applicable data protection regulations.</ListItem></UnorderedList></Pgraph><SubHeadline>3.5. Conducting preliminary tests</SubHeadline><Pgraph>Conducting one or more pretests is another important prerequisite for the development of a test or questionnaire measure. However, there are no generally accepted procedural rules for carrying these out. For example, recommendations vary greatly when it comes to determining the number of cases necessary for this <TextLink reference="8"></TextLink>. However, a small number of individuals are usually asked to provide feedback on the comprehensibility of the items and instructions, and to report any difficulties encountered while completing the measure. It is important that these individuals are as similar as possible to the subsequent target group of the test or questionnaire, e.g. in terms of language comprehension. Preliminary tests also provide information about the time needed for completion, the respondents&#8217; interest in the topic, and the possible distributions of the responses. Based on the feedback, the measure will be modified if necessary.</Pgraph></TextBlock>
    <TextBlock name="3. Wie werden Test- bzw. Fragebogenverfahren entwickelt&#63;" linked="yes" language="de">
      <MainHeadline>3. Wie werden Test- bzw. Fragebogenverfahren entwickelt&#63;</MainHeadline><Pgraph>Bei der Entwicklung von Test- bzw. Fragebogenverfahren sind sog. Testg&#252;tekriterien zu beachten (siehe Tabelle 2 <ImgLink imgNo="2" imgType="table" />). Die Entwicklung solcher Verfahren beginnt mit der Festlegung bzw. Definition des zu erfassenden Konstrukts. Danach werden Items (Aufgaben oder Aussagen) formuliert und das Antwortformat ausgew&#228;hlt. Nach einem Vortest wird das Verfahren an einer oder mehreren Stichproben gezielt erprobt. Wenn die daf&#252;r erforderliche Menge an Daten vorliegt, wird analysiert, wie zuverl&#228;ssig der Test bzw. Fragebogen das Konstrukt misst (Reliabilit&#228;t) und ob er das Konstrukt misst, das er zu messen beansprucht (Validit&#228;t).</Pgraph><SubHeadline>3.1. Definition des Konstrukts</SubHeadline><Pgraph>Zur Definition und Operationalisierung des Konstrukts werden, soweit vorhanden, Theorien oder Modelle herangezogen. Beispiele f&#252;r Konstrukte, zu denen es gute Theorien und Modelle gibt, auf deren Grundlage psychologische Tests entwickelt wurden, sind etwa Motivation und Lernstrategien. Sind Theorien und Modelle nicht verf&#252;gbar, kann der <Mark2>Konstruktraum</Mark2> nach ausgiebigem Literaturstudium eingeengt und es k&#246;nnen Indikatoren (z.B. konkrete Aussagen oder Verhaltensweisen) des Konstrukts bestimmt werden. Ein aktuelles Beispiel aus der medizinischen Ausbildungsforschung, bei dem ein solches Vorgehen notwendig ist, ist die <Mark2>Reflexionsf&#228;higkeit</Mark2>. Hier gibt es zwar auch verschiedene Modelle und Theorien, diese unterscheiden sich allerdings teilweise deutlich darin, was unter <Mark2>Reflexionsf&#228;higkeit</Mark2> jeweils verstanden wird. Insofern m&#252;sste f&#252;r die Entwicklung eines Testverfahrens f&#252;r <Mark2>Reflexionsf&#228;higkeit</Mark2> zun&#228;chst definiert werden, welche Indikatoren von <Mark2>Reflexionsf&#228;higkeit</Mark2> auf Grundlage welcher Vorarbeiten ber&#252;cksichtigt werden sollen. Im Rahmen der Konstrukt-Definition soll zudem auch ermittelt werden, inwieweit Beziehungen sowie &#220;berschneidungen bzw. &#220;berlappungen zu anderen Konstrukten bestehen (nomologisches Netzwerk) <TextLink reference="2"></TextLink>. So wird z.B. diskutiert, inwiefern die Pers&#246;nlichkeitseigenschaft <Mark2>Offenheit f&#252;r Erfahrungen</Mark2> mit Kreativit&#228;t in Verbindung steht <TextLink reference="6"></TextLink>.</Pgraph><Pgraph>Die G&#252;te der Definition des Konstrukts entscheidet dar&#252;ber, wie leicht sich Items generieren lassen. Eine detaillierte Definition, die erforderliche Abgrenzungen gegen&#252;ber anderen Konstrukten ber&#252;cksichtigt, erh&#246;ht dar&#252;ber hinaus die Wahrscheinlichkeit f&#252;r die <Mark2>Inhaltsvalidit&#228;t</Mark2> des Konstrukts <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>.</Pgraph><SubHeadline>3.2. Generierung und Formulierung von Items</SubHeadline><Pgraph>Bei der Generierung von Items kann auf unterschiedliche Quellen zur&#252;ckgegriffen werden <TextLink reference="1"></TextLink>. So k&#246;nnen Items</Pgraph><Pgraph><UnorderedList><ListItem level="1">aus <Mark2>Theorien</Mark2> bzw. nach einem ausgiebigen <Mark2>Literaturstudium</Mark2> bzw. nach einer systematischen Literaturrecherche abgeleitet werden,</ListItem><ListItem level="1">aus Ergebnissen von <Mark2>Voruntersuchungen</Mark2> (Interviews, Fokusgruppen-Gespr&#228;che etc.) generiert werden,</ListItem><ListItem level="1">in Anlehnung an bestehende <Mark2>Testverfahren</Mark2> formuliert werden,</ListItem><ListItem level="1">von <Mark2>Expertinnen und Experten</Mark2> formuliert werden.</ListItem></UnorderedList></Pgraph><Pgraph>Auch bei der Item-Generierung sind die Ziele des zu konstruierenden Tests zu ber&#252;cksichtigen <TextLink reference="2"></TextLink>. Ist das Ziel, Eigenschafts- oder F&#228;higkeitsauspr&#228;gungen von Personen zu erfassen, so sollten inhaltsvalide Items formuliert werden. Ein Test zur Erfassung von <Mark2>Progredienzangst</Mark2>, d.h. Angst vor dem Voranschreiten einer Erkrankung, ist dann inhaltsvalide, wenn die Testitems eine repr&#228;sentative Stichprobe des gesamten Bereichs von <Mark2>Progredienzangs</Mark2>t darstellen (z.B. kognitive, emotionale und verhaltensbezogene Aspekte). Es sollte dabei darauf geachtet werden, dass mit den Items nur ein Konstrukt erfasst wird. Dar&#252;ber hinaus sollten alle Indikatoren eines Konstrukts miteinander korrelieren <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Zur Sicherung der <Mark2>Inhaltsvalidit&#228;t</Mark2> des Tests sollte bei der Item-Generierung auf eine repr&#228;sentative und ausreichende Item-Menge geachtet werden. Die Anzahl der Items des Testentwurfs sollte gr&#246;&#223;er sein als die geplante Item-Anzahl der Endversion <TextLink reference="2"></TextLink>.</Pgraph><Pgraph>Vor Beginn der Itemformulierung sollte dar&#252;ber entschieden werden, wie die Items formuliert werden sollen. Sie k&#246;nnen beispielsweise wie folgt formuliert werden:</Pgraph><Pgraph><UnorderedList><ListItem level="1"><Mark2>In Frageform</Mark2>: F&#252;hlen Sie sich von Angeh&#246;rigen anderer Gesundheitsberufe respektiert&#63;</ListItem><ListItem level="1"><Mark2>Als Statements:</Mark2> Ich f&#252;hle mich von Angeh&#246;rigen anderer Gesundheitsberufe respektiert.</ListItem><ListItem level="1"><Mark2>In 1. Person Singular:</Mark2> Ich arbeite gerne mit Angeh&#246;rigen anderer Gesundheitsberufe zusammen.</ListItem><ListItem level="1"><Mark2>In unpers&#246;nlicher Form:</Mark2> Man arbeitet hier gerne mit Angeh&#246;rigen anderer Gesundheitsberufe zusammen.</ListItem></UnorderedList></Pgraph><Pgraph>Die Items sollten inhaltlich schl&#252;ssig und verst&#228;ndlich sein <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Unter anderem bedeutet dies, dass Fremdw&#246;rter oder eine komplizierte Satzkonstruktion zu vermeiden sind. Auch sollten die Items inhaltlich eindeutig sein. Hierzu sind nach M&#246;glichkeit u.a. Konditionalaussagen oder Konjunktionen zu vermeiden. Auch sollten Negationen (insbes. doppelte Verneinungen) vermieden werden.</Pgraph><SubHeadline>3.3. Auswahl des Antwortformats</SubHeadline><Pgraph>Genauso wichtig wie die Formulierung der Items ist die Auswahl passender Antwortvorgaben. H&#228;ufig finden bei psychologischen Test- und Fragebogenverfahren Ratingskalen (meist sog. Likert-Skalen) Anwendung, deren Kategorien bzw. Abstufungen unterschiedlich benannt werden. Oft anzutreffen sind Benennungen wie &#8222;trifft nicht zu&#8220; bis &#8222;trifft zu&#8220; oder &#8222;sehr schlecht&#8220; bis &#8222;sehr gut&#8220;. Ratingskalen k&#246;nnen zudem unterschiedlich abgestuft sein. Hierbei sind Antwortskalen mit bis zu 7 Stufen akzeptabel <TextLink reference="2"></TextLink>. Des Weiteren ist zu kl&#228;ren, ob die Antwortstufen der Items unipolar (z.B. &#8222;nie&#8220; bis &#8222;sehr oft&#8220;) oder bipolar (z.B. &#8222;Ablehnung &#8222;teilweise Ablehnung&#8220;, &#8222;weder Ablehnung noch Zustimmung&#8220;, &#8222;teilweise Zustimmung&#8220;, &#8222;Zustimmung&#8220;) vorgegeben werden sollen. Neben der verbalen Benennung der Antwortstufen k&#246;nnen auch visuelle Hilfsmittel verwendet werden (z.B. Smileys).</Pgraph><SubHeadline>3.4. Formulierung der Instruktion</SubHeadline><Pgraph>Die Instruktion hat zum Ziel, Befragte mit dem Inhalt und Ziel der Befragung vertraut zu machen, Hinweise zur Beantwortung des Fragebogens zu geben und &#252;ber datenschutzrechtliche Regelungen aufzukl&#228;ren <TextLink reference="7"></TextLink>. Sie hat eine zentrale Funktion, denn sie bereitet nicht nur auf die Beantwortung des Tests vor, sondern kann bei den zu befragenden Personen eine Vor-Einstellung in Bezug auf die zu erledigende Aufgabe erzeugen <TextLink reference="1"></TextLink>. Eine Instruktion wird meist erst am Ende des Konstruktionsprozesses formuliert, wenn die Items und Antwortalternativen festgelegt sind. Neben einer Angabe des Ziels bzw. des Zwecks des Tests bzw. Fragebogens enth&#228;lt eine Instruktion i.d.R. Hinweise, dass</Pgraph><Pgraph><UnorderedList><ListItem level="1">die Teilnahme freiwillig ist und keine Nachteile bei einer Nichtteilnahme zu bef&#252;rchten sind,</ListItem><ListItem level="1">alle Items zu lesen und z&#252;gig zu beantworten sind,</ListItem><ListItem level="1">die Items nacheinander zu bearbeiten sind und kein Item ausgelassen werden soll, auch wenn dies einmal schwierig erscheinen sollte, und dass in diesem Fall stets angekreuzt werden sollte, was &#8222;am ehesten&#8220; zutrifft,</ListItem><ListItem level="1">die Anonymit&#228;t bzw. die vertrauliche Behandlung der individuellen Angaben entsprechend den geltenden datenschutzrechtlichen Bestimmungen gew&#228;hrleistet werden.</ListItem></UnorderedList></Pgraph><SubHeadline>3.5. Durchf&#252;hrung von Vortests</SubHeadline><Pgraph>Die Durchf&#252;hrung eines oder auch mehrerer Vortests ist eine weitere wichtige Voraussetzung der Entwicklung eines Test- oder Fragebogenverfahrens. F&#252;r dessen Durchf&#252;hrung existieren jedoch keine allgemein akzeptierten Regeln. Beispielsweise variieren die Angaben sehr stark, wenn es darum geht, die H&#246;he der hierf&#252;r notwendigen Fallzahlen festzulegen <TextLink reference="8"></TextLink>. In der Regel wird jedoch eine kleine Zahl von Personen aufgefordert, R&#252;ckmeldung &#252;ber die Verst&#228;ndlichkeit der Items und der Instruktion zu geben und &#252;ber Schwierigkeiten zu berichten, die bei der Bearbeitung des Verfahrens aufgefallen sind. Wichtig ist, dass diese Personen der sp&#228;teren Zielgruppe des Tests bzw. Fragebogens m&#246;glichst &#228;hnlich sind, z.B. was das Sprachverst&#228;ndnis angeht. Vortests liefern auch Informationen &#252;ber die ben&#246;tigte Durchf&#252;hrungszeit, das Interesse der Befragten an der Thematik sowie &#252;ber die H&#228;ufigkeitsverteilungen der Antworten. Auf Basis der R&#252;ckmeldungen wird das Verfahren dann ggf. modifiziert.</Pgraph></TextBlock>
    <TextBlock name="4. Statistical evaluation of psychological test and questionnaire measures" linked="yes" language="en">
      <MainHeadline>4. Statistical evaluation of psychological test and questionnaire measures</MainHeadline><Pgraph>The process of statistically evaluating a test or questionnaire measure can be subdivided in accordance with phases outlined by Loevinger <TextLink reference="9"></TextLink>, as follows:</Pgraph><Pgraph><UnorderedList><ListItem level="1"><Mark2>Substantive phase</Mark2>: During this phase, the measure is theoretically grounded and based on available literature. Pretests are conducted to clarify the comprehensibility of the items and problems with answering them.</ListItem><ListItem level="1"><Mark2>Structural phase</Mark2>: The primary focus of this second phase is on examining the structural (e.g. factorial structure) and further psychometric properties (e.g. item correlations) of the measure.</ListItem><ListItem level="1"><Mark2>External phase</Mark2>: In this phase, the extent of the agreement of the measure with other criteria and, if applicable, similar tests or questionnaires should be determined.</ListItem></UnorderedList></Pgraph><Pgraph>All previous descriptions in this <Mark2>how-to article</Mark2> can be assigned to the <Mark2>substantive phase</Mark2> (see table 3 <ImgLink imgNo="3" imgType="table" />). The following sections focus on the psychometric analysis of test or questionnaire measures that are assigned to the other two phases.</Pgraph><SubHeadline>4.1. Structural phase</SubHeadline><Pgraph>In the <Mark2>substantive phase</Mark2>, the <Mark2>face</Mark2> and <Mark2>content validity</Mark2> of test or questionnaire measures can already be ensured. However, the structural and psychometric properties of test or questionnaire measures can only be determined after the test and questionnaire measure has been taken by individuals from the respective target group (data collection). First, a dimensional analysis should be performed using factor analyses (statistical methods that group the variables according to their intercorrelation; <Mark2>factorial validity</Mark2>), followed by determining the test&#8217;s reliability and an item analysis <TextLink reference="10"></TextLink>. However, if the sample size is too small <TextLink reference="2"></TextLink> for dimensional analyses, preliminary reliability calculations can be conducted and the items can be analysed regarding their difficulty, discriminant validity, and intercorrelations (item analyses) (see table 4 <ImgLink imgNo="4" imgType="table" />). </Pgraph><Pgraph>Recommendations for the sample size required for factor analyses vary greatly in the relevant literature. According to MacCallum et al. <TextLink reference="11"></TextLink>, common rules of thumb are problematic because the required sample size depends on the number of items per factor and the degree of communality (the proportion of variance of a variable that is explained by the factors) of each item. However, communalities are usually not known in advance. Therefore, in spite of the aforementioned issues, it may be mentioned here for rough orientation that it has been recommended to include a number of respondents in factor analyses that is at least five to ten times the number of items.</Pgraph><Pgraph>If the sample size is sufficient for conducting factor analyses and a hypothesis or model for the dimensions of the test is available, a <Mark2>confirmatory factor analysis</Mark2> should be conducted. If there are no reasonable assumptions about the relationships between the items, an <Mark2>exploratory factor analysis</Mark2> is recommended.</Pgraph><SubHeadline>4.2. External phase</SubHeadline><Pgraph>The validation of test and questionnaire measures is theoretically and methodically demanding and should never be considered complete <TextLink reference="5"></TextLink>, <TextLink reference="12"></TextLink>. Therefore, strictly speaking, it should not be said that a test or questionnaire is valid, since validity is not a property of tests or questionnaires (see 4.2.2). Only statements and conclusions based on test or questionnaire scores can be more or less valid. </Pgraph><Pgraph>The validation of test and questionnaire measures (or more precisely, of test or questionnaire scores) involves a variety of aspects. In this regard, however, the understanding of which indicators can be considered as signs of validity has changed over time. The traditional concept of validity is presented first, followed by the validity approach of Messick <TextLink reference="13"></TextLink>, which complements the traditional approach.</Pgraph><SubHeadline2>4.2.1. Construct and criterion validity</SubHeadline2><Pgraph>First, it can be determined whether the construct captured by the test or questionnaire measure correlates with other theoretical constructs in terms of content and theory (<Mark2>construct validity</Mark2>) and&#47;or whether the test or questionnaire scores correlate positively with behavioural manifestations outside of the testing situation (<Mark2>criterion validity</Mark2>) <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>To determine <Mark2>construct validity,</Mark2> additional measurement instruments can be used that capture either construct-related or construct-unrelated characteristics. According to Campbell and Fiske <TextLink reference="14"></TextLink>, in the first case <Mark2>convergent validity</Mark2> would be checked and <Mark2>discriminant validity</Mark2> in the second. <Mark2>Construct validity</Mark2> also includes the previously described <Mark2>factorial validity</Mark2> (see 4.1). Furthermore, it is possible to analyse differences in the test results of selected groups. That is, differences in test scores of various groups (e.g. differing by age, socioeconomic status, or education) are postulated based on theoretical considerations and empirical findings <TextLink reference="10"></TextLink>. If these differences are found as predicted, they will be interpreted as evidence of validity.</Pgraph><Pgraph>In terms of <Mark2>criterion validity</Mark2>, several types of validity can be distinguished depending on the time of measurement of the external criterion <TextLink reference="5"></TextLink>. <Mark2>Retrospective validity</Mark2> is checked when a criterion (e.g. past school grades) has been collected before the test scores to be validated (e.g. school performance test) is applied. In<Mark2> concurrent validity</Mark2>, the criteria (e.g. complaints in medical consultations such as sleeplessness and listlessness) are recorded (almost) at the same measurement time as the test scores to be validated (e.g. results of a measuring instrument for recording the extent of depression). In <Mark2>predictive validity</Mark2> the criterion score (e.g. academic performance) is recorded later than the test score to be validated (e.g. results of a medical college admission test). Determining <Mark2>criterion validity</Mark2> requires that the chosen external criterion is reliable and valid.</Pgraph><Pgraph><Mark2>Incremental validity</Mark2> is also a type of <Mark2>criterion validity</Mark2>, but it is rarely tested. If <Mark2>incremental validity</Mark2> is analysed, an established test or questionnaire measure is used that claims to measure the same characteristic as the measure to be validated. The new measure should then significantly improve the prediction of the external criterion <TextLink reference="5"></TextLink>.</Pgraph><SubHeadline2>4.2.2. Argument-based validation concepts</SubHeadline2><Pgraph>The classical concept of validity described in the previous section was expanded by Messick <TextLink reference="13"></TextLink>. He describes six general validity aspects, which apply to all diagnostic measurements in the educational sector. They are based on the fundamental idea that the validity of a diagnostic measurement cannot be considered solely as a numerical coefficient, but rather as a theoretically and empirically founded argument for the validity of test score interpretations. In other words, &#8220;it is incorrect to use the unqualified phrase<Mark2> the validity of the test&#8221;</Mark2> (<TextLink reference="15"></TextLink>, p.11), because the observed test scores are not only a function of the items but also depend on the respondents and the context of the evaluation <TextLink reference="13"></TextLink>. Validity can therefore be understood as an argument for the validity of the interpretation of test scores based on evidence regarding these six aspects. In table 5 <ImgLink imgNo="5" imgType="table" />, the validity aspects described by Messick are presented. It becomes clear that only the aspects of <Mark2>substantive validity,</Mark2> <Mark2>generalizability</Mark2> and of <Mark2>consequential validity</Mark2> supplement the traditional approach (see table 5 <ImgLink imgNo="5" imgType="table" />).</Pgraph><Pgraph>Additionally, Messick <TextLink reference="13"></TextLink> pointed out two potentially confounding variables that could affect validity. A construct may be <Mark2>underrepresented</Mark2> because it is too narrow and does not cover important dimensions or facets of the construct. This would be the case, for example, if a test of performance anxiety only captures its emotional component and disregards its cognitive and physiological components. However, validity can also be limited by <Mark2>construct-irrelevant variance</Mark2>, if test items are too difficult or too easy for some individuals <TextLink reference="13"></TextLink>. This is the case, for example, when the correct completion of tasks in a mathematics test also depends on its unreasonably high demands on the respondents&#8217; language comprehension.</Pgraph><Pgraph>These expansions of the classical concept of validity have by now been adopted by, among others, the <Mark2>American Educational Research Association</Mark2> (AERA) and the <Mark2>American Psychological Association</Mark2> (APA) <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>.</Pgraph></TextBlock>
    <TextBlock name="4. Teststatistische &#220;berpr&#252;fung von psychologischen Test- und Fragebogenverfahren" linked="yes" language="de">
      <MainHeadline>4. Teststatistische &#220;berpr&#252;fung von psychologischen Test- und Fragebogenverfahren</MainHeadline><Pgraph>In Anlehnung an die von Loevinger <TextLink reference="9"></TextLink> herausgearbeiteten Phasen kann der Prozess der teststatischen &#220;berpr&#252;fung wie folgt eingeteilt werden:</Pgraph><Pgraph><UnorderedList><ListItem level="1"><Mark2>Inhaltliche Phase</Mark2> (substantive phase): W&#228;hrend dieser Phase wird das Messinstrument theoretisch und unter Einbeziehung verf&#252;gbarer Literatur fundiert. Es werden Vortests durchgef&#252;hrt, um die Verst&#228;ndlichkeit der Items und Probleme bei deren Beantwortung abzukl&#228;ren.</ListItem><ListItem level="1"><Mark2>Strukturelle Phase</Mark2> (structural phase): Das Hauptaugenmerk dieser zweiten Phase richtet sich auf die &#220;berpr&#252;fung der strukturellen (z.B. faktorielle Struktur) und weiterer psychometrischen Eigenschaften (z.B. Item-Korrelationen) des Verfahrens. </ListItem><ListItem level="1"><Mark2>Externe Phase</Mark2> (external phase): In dieser Phase sollte das Ausma&#223; der &#220;bereinstimmung des Messinstruments mit anderen Kriterien und ggf. &#228;hnlichen Verfahren &#252;berpr&#252;ft werden.</ListItem></UnorderedList></Pgraph><Pgraph>Alle bisherigen Beschreibungen in diesem G<Mark2>ewusst-wie-Artikel</Mark2> lassen sich der <Mark2>inhaltlichen Phase</Mark2> zuordnen (siehe Tabelle 3 <ImgLink imgNo="3" imgType="table" />). In den nachfolgenden Abschnitten geht es schwerpunktm&#228;&#223;ig um die konkrete teststatistische &#220;berpr&#252;fung der Test- bzw. Fragebogenverfahren, die den anderen beiden Phasen zuzuordnen sind.</Pgraph><SubHeadline>4.1. Strukturelle Phase</SubHeadline><Pgraph>In der <Mark2>inhaltlichen Phase</Mark2> kann bereits die<Mark2> Augenschein- und Inhaltsvalidit&#228;t</Mark2> eines Test- bzw. Fragebogenverfahrens sichergestellt werden. Die &#220;berpr&#252;fung der strukturellen und psychometrischen Eigenschaften von Tests bzw. Frageb&#246;gen kann jedoch erst dann stattfinden, wenn das Verfahren von Personen der jeweiligen Zielgruppe beantwortet wurde (Datenerhebung). Es sollte zun&#228;chst eine Dimensionsanalyse mittels Faktorenanalysen (statistische Verfahren, die die Variablen gem&#228;&#223; ihrer Interkorrelation b&#252;ndeln) erfolgen (<Mark2>faktorielle Validit&#228;t</Mark2>) und anschlie&#223;end eine Bestimmung der Reliabilit&#228;t des Tests und eine Itemanalyse durchgef&#252;hrt werden <TextLink reference="10"></TextLink>. Ist der Stichprobenumfang jedoch zu gering <TextLink reference="2"></TextLink>, um Dimensionsanalysen durchzuf&#252;hren, k&#246;nnen zun&#228;chst vorl&#228;ufige Reliabilit&#228;tsberechnungen durchgef&#252;hrt werden und die Items im Hinblick auf ihre Schwierigkeit, Trennsch&#228;rfe und Interkorrelationen (Itemanalysen) analysiert werden (siehe Tabelle 4 <ImgLink imgNo="4" imgType="table" />).</Pgraph><Pgraph>Die in der einschl&#228;gigen Literatur angegebenen erforderlichen Stichprobengr&#246;&#223;en zur Berechnung von Faktorenanalysen variieren sehr stark. Nach MacCallum et al. <TextLink reference="11"></TextLink> sind die g&#228;ngigen Faustregeln zur Planung der Stichprobengr&#246;&#223;e problematisch, da diese von der Anzahl der Items pro Faktor und der H&#246;he der Kommunalit&#228;t (Anteil der Varianz einer Variablen, der durch die Faktoren erkl&#228;rt wird) eines jeden Items bestimmt wird. Die Kommunalit&#228;ten sind jedoch in der Regel nicht vorab bekannt. Von daher soll hier trotz der genannten Problematik zur groben Orientierung zumindest erw&#228;hnt werden, dass f&#252;r Faktorenanalysen verschiedentlich empfohlen wurde, eine Anzahl von zu Befragenden einzuplanen, die mindestens f&#252;nf- bis zehnmal so gro&#223; ist wie die Anzahl der Items.</Pgraph><Pgraph>Ist die Stichprobengr&#246;&#223;e ausreichend zur Durchf&#252;hrung von Faktorenanalysen und liegt eine Hypothese bzw. ein Modell zu den Dimensionen des Tests vor, sollte eine <Mark2>konfirmatorische Faktorenanalyse</Mark2> durchgef&#252;hrt werden. Gibt es keine gesicherten Annahmen &#252;ber die Zusammenh&#228;nge zwischen den Items, ist eine <Mark2>exploratorische Faktorenanalyse</Mark2> zu empfehlen.</Pgraph><SubHeadline>4.2. Externe Phase</SubHeadline><Pgraph>Die Validierung eines Test- bzw. Fragebogenverfahrens ist theoretisch und methodisch anspruchsvoll und sollte nie als abgeschlossen betrachtet werden <TextLink reference="5"></TextLink>, <TextLink reference="12"></TextLink>. Insofern sollte strenggenommen auch nicht davon gesprochen werden, dass ein Test bzw. Fragebogen valide ist, da Validit&#228;t keine Eigenschaft von Tests bzw. Frageb&#246;gen ist (siehe 4.2.2). Mehr oder weniger valide k&#246;nnen nur Aussagen und Schlussfolgerungen sein, die auf der Grundlage von Test- bzw. Fragebogenergebnissen getroffen werden.</Pgraph><Pgraph>Die Validierung von Test- bzw. Fragebogenverfahren (bzw. genauer von Test- bzw. Fragbogenergebnissen) beinhaltet verschiedene Aspekte. Dabei hat sich das Verst&#228;ndnis, welche Indikatoren als Hinweise auf Validit&#228;t gelten k&#246;nnen, im Lauf der Zeit ver&#228;ndert. Nachfolgend wird zun&#228;chst das traditionelle Validit&#228;tskonzept dargestellt. Im Anschluss daran wird der Validit&#228;tsansatz von Messick <TextLink reference="13"></TextLink> beschrieben, der den traditionellen Ansatz erg&#228;nzt.</Pgraph><SubHeadline2>4.2.1. Konstrukt- und Kriteriumsvalidit&#228;t</SubHeadline2><Pgraph>Zun&#228;chst kann festgestellt werden, ob das im Test- bzw. Fragebogenverfahren erfasste Konstrukt inhaltlich und theoretisch begr&#252;ndet mit anderen <Mark2>theoretischen Konstrukten</Mark2> korreliert (<Mark2>Konstruktvalidit&#228;t</Mark2>) und&#47;oder ob die Test- bzw. Fragebogenwerte positiv mit inhaltlich korrespondierenden manifesten Merkmalen au&#223;erhalb der Testsituation im Zusammenhang stehen (<Mark2>Kriteriumsvalidit&#228;t</Mark2>) <TextLink reference="5"></TextLink>.</Pgraph><Pgraph>Zur Feststellung der <Mark2>Konstruktvalidit&#228;t</Mark2> k&#246;nnen Messinstrumente eingesetzt werden, die entweder sog. konstruktnahe oder konstruktferne Merkmale erfassen. Im ersten Fall w&#252;rde nach Campbell und Fiske <TextLink reference="14"></TextLink>, die <Mark2>konvergente Validit&#228;t</Mark2> &#252;berpr&#252;ft, im zweiten Fall die <Mark2>diskriminante Validit&#228;t</Mark2>. Zur <Mark2>Konstruktvalidit&#228;t</Mark2> z&#228;hlt ebenfalls die zuvor beschriebene<Mark2> faktorielle Validit&#228;t</Mark2> (siehe 4.1). Auch besteht die M&#246;glichkeit, Unterschiede in den Testwerten ausgew&#228;hlter Gruppen zu analysieren. D.h. ausgehend von theoretischen &#220;berlegungen werden Unterschiede in den Testwerten verschiedener Gruppen postuliert (z.B. Alter, sozio&#246;konomischer Status, Schulbildung) und empirisch &#252;berpr&#252;ft <TextLink reference="10"></TextLink>. Sofern sich diese Unterschiede best&#228;tigen, wird dies als Beleg der Validit&#228;t interpretiert.</Pgraph><Pgraph>Bei der <Mark2>Kriteriumsvalidit&#228;t</Mark2> lassen sich ausgehend vom Zeitpunkt der Erfassung des Au&#223;enkriteriums mehrere Arten von Validit&#228;t unterscheiden <TextLink reference="5"></TextLink>. Die <Mark2>retrospektive Validit&#228;t</Mark2> wird &#252;berpr&#252;ft, wenn Werte eines Kriteriums (z.B. zur&#252;ckliegende Schulnoten) zeitlich vor dem Einsatz des zu validierenden Tests (z.B. Schulleistungstest) erhoben wurden. Bei der <Mark2>konkurrenten Validit&#228;t</Mark2>, auch <Mark2>&#220;bereinstimmungsvalidit&#228;t</Mark2> genannt, werden die Werte des Kriteriums (z.B. die in &#228;rztlichen Konsultationen angegebene Beschwerden wie Schlaf- und Lustlosigkeit) (fast) zum selben Messzeitpunkt erfasst wie die zu validierenden Testwerte (z.B. Ergebnisse eines Messinstruments zur Erfassung der Auspr&#228;gung von Depression). Bei der <Mark2>prognostischen Validit&#228;t</Mark2> wird der Kriteriumswert (z.B. Studienleistung) <Mark2>sp&#228;ter</Mark2> als der zu validierende Testwert (z.B. Ergebnisse eines Eignungstests zum Medizinstudium) erhoben. Die Bestimmung der <Mark2>Kriteriumsvalidit&#228;t</Mark2> setzt voraus, dass das gew&#228;hlte Au&#223;enkriterium reliabel und valide ist.</Pgraph><Pgraph>Die<Mark2> inkrementelle Validit&#228;t</Mark2> z&#228;hlt ebenfalls zur<Mark2> Kriteriumsvalidit&#228;t</Mark2>, wird jedoch eher selten &#252;berpr&#252;ft. Wenn doch eine &#220;berpr&#252;fung erfolgt, wird ein herk&#246;mmliches Verfahren herangezogen, das das Gleiche zu messen beansprucht wie das zu validierende Verfahren. Dabei sollte das neue Verfahren die Vorhersage des Au&#223;enkriteriums signifikant verbessern <TextLink reference="5"></TextLink>.</Pgraph><SubHeadline2>4.2.2. Argumentationsbasierte Validierungskonzepte</SubHeadline2><Pgraph>Das im vorigen Abschnitt beschriebene klassische Validit&#228;tskonzept wurde von Messick <TextLink reference="13"></TextLink> erweitert. Die von ihm beschriebenen sechs generellen Validit&#228;tsaspekte, die f&#252;r alle diagnostischen Messungen im Bildungsbereich gelten, basieren auf der Grundidee, dass die Validit&#228;t einer diagnostischen Messung nicht allein als numerischer Koeffizient zu betrachten ist, sondern als theoretisch und empirisch fundiertes Argument f&#252;r die G&#252;ltigkeit von Testwertinterpretationen. M.a.W. &#8222;It is incorrect to use the unqualified phrase<Mark2> the validity of the test&#8221;</Mark2> (<TextLink reference="15"></TextLink>, S.11), denn die Ergebnisse sind nicht nur eine Funktion der Items, sondern auch abh&#228;ngig von den antwortenden Personen und dem Kontext der Bewertung <TextLink reference="13"></TextLink>. Validit&#228;t kann demnach als Argument f&#252;r die G&#252;ltigkeit der Interpretation von Testwerten auf Grundlage von Evidenzen bzw. Erkenntnissen bez&#252;glich dieser sechs Aspekte verstanden werden. In Tabelle 5 <ImgLink imgNo="5" imgType="table" /> sind die von Messick beschriebenen Validit&#228;tsaspekte dargestellt. Dabei wird ersichtlich, dass nur die Aspekte substanzielle Validit&#228;t, Generalisierbarkeit und Konsequenzen den traditionellen Ansatz erg&#228;nzen (siehe Tabelle 5 <ImgLink imgNo="5" imgType="table" />).</Pgraph><Pgraph>Erg&#228;nzend hat Messick <TextLink reference="13"></TextLink> auf zwei m&#246;gliche St&#246;rfaktoren hingewiesen, die die Validit&#228;t beeintr&#228;chtigen k&#246;nnen. Das Konstrukt kann <Mark2>unterrepr&#228;sentiert </Mark2>sein, indem es zu eng gefasst und wichtige Dimensionen oder Facetten des Konstrukts nicht ber&#252;cksichtigt wurden. Das w&#228;re beispielsweise dann der Fall, wenn ein Test f&#252;r Leistungsangst nur die emotionale Komponente erfasst und die kognitiven und physiologischen Komponenten au&#223;er Acht l&#228;sst. Die Validit&#228;t kann aber auch durch<Mark2> konstrukt-irrelevante</Mark2> <Mark2>Varianz</Mark2> eingeschr&#228;nkt werden, wenn Testaufgaben beispielsweise f&#252;r einige Personen zu schwer oder zu leicht sind <TextLink reference="13"></TextLink>. Dies ist z.B. der Fall, wenn die korrekte Beantwortung von Aufgaben in einem Mathematiktest auch von unangemessen hohen Anforderungen an das Sprachverst&#228;ndnis der antwortenden Personen abh&#228;ngt.</Pgraph><Pgraph>Diese Erweiterungen des klassischen Validit&#228;tskonzepts werden mittlerweile u.a. von der <Mark2>American Educational Research Association</Mark2> (AERA) und der <Mark2>American Psychological Association</Mark2> (APA) vertreten <TextLink reference="15"></TextLink>, <TextLink reference="16"></TextLink>.</Pgraph></TextBlock>
    <TextBlock name="5. Translation of a test or questionnaire measure" linked="yes" language="en">
      <MainHeadline>5. Translation of a test or questionnaire measure</MainHeadline><Pgraph>In the past, tests were often translated using the forward-backward-translation method. That is, the test was first translated into the target language, then this translation was re-translated <TextLink reference="17"></TextLink> by another person, and then the original and the backward-translated versions were compared. However, a simple backward translation cannot eliminate all translation problems, so multi-stage translation processes are now recommended <TextLink reference="17"></TextLink>. For example, according to the <Mark2>European Social Survey Programme</Mark2> for translating questionnaires, a five-step translation framework called <Mark2>TRAPD</Mark2> is suggested. This acronym stands for <Mark2>T</Mark2>ranslation, <Mark2>R</Mark2>eview, <Mark2>A</Mark2>djudication (deciding on a version), <Mark2>P</Mark2>re-testing, and <Mark2>D</Mark2>ocumentation <TextLink reference="18"></TextLink>. These five steps should be taken in a team effort from the beginning. A complete statistical evaluation of the translated version is also required when translating a test.</Pgraph></TextBlock>
    <TextBlock name="5. &#220;bersetzung eines Test- oder Fragebogenverfahrens" linked="yes" language="de">
      <MainHeadline>5. &#220;bersetzung eines Test- oder Fragebogenverfahrens</MainHeadline><Pgraph>Die &#220;bersetzung von Tests bzw. Frageb&#246;gen erfolgte in der Vergangenheit h&#228;ufig mit der Methode der R&#252;ck&#252;bersetzung. D.h. zuerst wurde das Verfahren in die Zielsprache &#252;bersetzt, dann wurde diese &#220;bersetzung von einer anderen Person zur&#252;ck&#252;bersetzt <TextLink reference="17"></TextLink> und anschlie&#223;end wurden die urspr&#252;ngliche und die r&#252;ck&#252;bersetzte Version miteinander verglichen. Eine einfache R&#252;ck&#252;bersetzung kann jedoch nicht alle &#220;bersetzungsprobleme beseitigen, daher werden mittlerweile mehrstufige &#220;bersetzungsprozesse empfohlen <TextLink reference="17"></TextLink>. Beispielsweise wird gem&#228;&#223; den Richtlinien des <Mark2>European Social Survey Programme</Mark2> zur &#220;bersetzung von Frageb&#246;gen unter dem Akronym <Mark2>TRAPD</Mark2> ein f&#252;nfstufiger &#220;bersetzungsprozess vorgeschlagen: <Mark2>T</Mark2>ranslation, <Mark2>R</Mark2>eview, <Mark2>A</Mark2>djudication (deciding on a version), <Mark2>P</Mark2>re-testing und <Mark2>D</Mark2>ocumentation <TextLink reference="18"></TextLink>. Diese Schritte sollten von Beginn an in Teamarbeit erfolgen. Auch bei der &#220;bersetzung eines Tests ist eine vollst&#228;ndige statistische &#220;berpr&#252;fung der &#252;bersetzten Version erforderlich.</Pgraph></TextBlock>
    <TextBlock name="6. Summary" linked="yes" language="en">
      <MainHeadline>6. Summary</MainHeadline><Pgraph>The construction of test or questionnaire measures requires a well-defined construct or at least a clearly described construct space. Based on this, items can be written that must be content-valid and easy to understand and that are oriented toward the goals of the measure. If the measure has been supported in pretests with small groups of people, its structural (dimensionality) and further psychometric (reliability, validity, etc.) properties can be checked using more extensive data collections. To determine the validity of the test results, various aspects need to be considered. These relate primarily to the construct to be measured and its theoretical embedding as well as to its relationship to other variables, but also to the context of the measurement and the consequences derived from the test results.</Pgraph></TextBlock>
    <TextBlock name="6. Fazit" linked="yes" language="de">
      <MainHeadline>6. Fazit</MainHeadline><Pgraph>Die Konstruktion von Tests bzw. Frageb&#246;gen setzt ein gut definiertes Konstrukt oder zumindest einen konkret beschriebenen Konstruktraum voraus. Auf dieser Grundlage k&#246;nnen Items formuliert werden, die inhaltlich valide und gut verst&#228;ndlich sein m&#252;ssen und sich an den Zielen des Verfahrens orientieren. Hat sich das Verfahren in Vortests an kleinen Personengruppen bew&#228;hrt, k&#246;nnen seine strukturellen (Dimensionalit&#228;t) und weiteren psychometrischen (Reliabilit&#228;t, Validit&#228;t etc.) Eigenschaften anhand von umfangreicheren Datenerhebungen &#252;berpr&#252;ft werden. Um die Validit&#228;t der Testergebnisse zu bestimmen, m&#252;ssen verschiedene Aspekte ber&#252;cksichtigt werden. Diese beziehen sich vor allem auf das zu messende Konstrukt und seine theoretische Einbettung sowie seine Beziehung zu anderen Variablen, aber auch auf den Kontext der Messung und die Konsequenzen, die aus den Testergebnissen abgeleitet werden.</Pgraph></TextBlock>
    <TextBlock name="Authors&#8217; ORCIDs" linked="yes" language="en">
      <MainHeadline>Authors&#8217; ORCIDs</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Marianne Giesler: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0001-9384-2343">0000-0001-9384-2343</Hyperlink>&#93;</ListItem><ListItem level="1">G&#246;tz Fabry: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-5393-606X">0000-0002-5393-606X</Hyperlink>&#93;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock name="ORCIDs der Autorin und des Autors" linked="yes" language="de">
      <MainHeadline>ORCIDs der Autorin und des Autors</MainHeadline><Pgraph><UnorderedList><ListItem level="1">Marianne Giesler: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0001-9384-2343">0000-0001-9384-2343</Hyperlink>&#93;</ListItem><ListItem level="1">G&#246;tz Fabry: &#91;<Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0002-5393-606X">0000-0002-5393-606X</Hyperlink>&#93;</ListItem></UnorderedList></Pgraph></TextBlock>
    <TextBlock name="Competing interests" linked="yes" language="en">
      <MainHeadline>Competing interests</MainHeadline><Pgraph>The authors declare that they have no competing interests. </Pgraph></TextBlock>
    <TextBlock name="Interessenkonflikt" linked="yes" language="de">
      <MainHeadline>Interessenkonflikt</MainHeadline><Pgraph>Die Autorin und der Autor erkl&#228;ren, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Mummendey HD</RefAuthor>
        <RefAuthor>Grau I</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2008</RefYear>
        <RefBookTitle>Die Fragebogen-Methode</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Mummendey HD, Grau I. Die Fragebogen-Methode. 5. Aufl. G&#246;ttingen: Hogrefe Verlag; 2008.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>B&#252;hner M</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2011</RefYear>
        <RefBookTitle>Einf&#252;hrung in die Test- und Fragebogenkonstruktion</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>B&#252;hner M. Einf&#252;hrung in die Test- und Fragebogenkonstruktion. 3. aktual. u. erw. Aufl. M&#252;nchen: Pearson Studium; 2011.</RefTotal>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Br&#228;hler E</RefAuthor>
        <RefAuthor>Holling H</RefAuthor>
        <RefAuthor>Leutner D</RefAuthor>
        <RefAuthor>Petermann F</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2002</RefYear>
        <RefBookTitle>Brickencamp Handbuch psychologischer und p&#228;dagogischer Tests</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Br&#228;hler E, Holling H, Leutner D, Petermann F. Brickencamp Handbuch psychologischer und p&#228;dagogischer Tests. 3. Aufl. G&#246;ttingen: Hogrefe; 2002.</RefTotal>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Rost J</RefAuthor>
        <RefTitle>Was ist aus dem Rasch-Modell geworden&#63;</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Psych Rundsch</RefJournal>
        <RefPage>140-156</RefPage>
        <RefTotal>Rost J. Was ist aus dem Rasch-Modell geworden&#63; Psych Rundsch. 1999;50(3):140-156. DOI: 10.1026&#47;&#47;0033-3042.50.3.140</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1026&#47;&#47;0033-3042.50.3.140</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>D&#246;ring N</RefAuthor>
        <RefAuthor>Bortz J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2016</RefYear>
        <RefBookTitle>Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>D&#246;ring N, Bortz J. Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften. 5. vollst. &#252;berarb., aktual. u. erw. Aufl. Berlin: Springer; 2016. DOI: 10.1007&#47;978-3-642-41089-5</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;978-3-642-41089-5</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Lienert GA</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1961</RefYear>
        <RefBookTitle>Testaufbau und Testanalyse</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Lienert GA. Testaufbau und Testanalyse. 2. durchges. u. verb. Aufl. Weinheim: Beltz; 1961.</RefTotal>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Moosbrugger H</RefAuthor>
        <RefAuthor>Kelava A</RefAuthor>
        <RefTitle>Qualit&#228;tsanforderungen an einen psychologischen Test (Testg&#252;tekriterien)</RefTitle>
        <RefYear>2020</RefYear>
        <RefBookTitle>Testtheorie und Fragebogenkonstruktion</RefBookTitle>
        <RefPage>7-26</RefPage>
        <RefTotal>Moosbrugger H, Kelava A. Qualit&#228;tsanforderungen an einen psychologischen Test (Testg&#252;tekriterien). In: Moosbrugger H, Kelava A, editors. Testtheorie und Fragebogenkonstruktion. 3. vollst. neu bearb., erw. u. akt. Aufl. Heidelberg: Springer; 2020. p.7-26. DOI: 10.1007&#47;978-3-540-71635-8&#95;2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;978-3-540-71635-8&#95;2</RefLink>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Loevinger J</RefAuthor>
        <RefTitle>Objective tests as instruments of psychological theory</RefTitle>
        <RefYear>1957</RefYear>
        <RefJournal>Psychol Rep</RefJournal>
        <RefPage>635-694</RefPage>
        <RefTotal>Loevinger J. Objective tests as instruments of psychological theory. Psychol Rep. 1957;3(3):635-694. DOI: 10.2466&#47;pr0.1957.3.3.635</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.2466&#47;pr0.1957.3.3.635</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Messick S</RefAuthor>
        <RefTitle>Validity of Psychological Assessment. Validation of Inferences from Persons&#8217; responses and performances as scientific inquiry into score meaning</RefTitle>
        <RefYear>1995</RefYear>
        <RefJournal>Am Psychol</RefJournal>
        <RefPage>741-749</RefPage>
        <RefTotal>Messick S. Validity of Psychological Assessment. Validation of Inferences from Persons&#8217; responses and performances as scientific inquiry into score meaning. Am Psychol. 1995;50(9):741-749. DOI: 10.1002&#47;j.2333-8504.1994.tb01618.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;j.2333-8504.1994.tb01618.x</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>King LA</RefAuthor>
        <RefAuthor>Walker LM</RefAuthor>
        <RefAuthor>Broyles SJ</RefAuthor>
        <RefTitle>Creativity and the five-factor model</RefTitle>
        <RefYear>1996</RefYear>
        <RefJournal>J Res Pers</RefJournal>
        <RefPage>189-203</RefPage>
        <RefTotal>King LA, Walker LM, Broyles SJ. Creativity and the five-factor model. J Res Pers. 1996;30(2):189-203.</RefTotal>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Reinders H</RefAuthor>
        <RefTitle>Fragebogen</RefTitle>
        <RefYear>2011</RefYear>
        <RefBookTitle>Empirische Bildungsforschung. Strukturen und Methoden</RefBookTitle>
        <RefPage>53-65</RefPage>
        <RefTotal>Reinders H. Fragebogen. In: Reinders H, Ditton H, Gr&#228;sel C, Gniewosz B, editors. Empirische Bildungsforschung. Strukturen und Methoden. Wiesbaden: VS Verlag f&#252;r Sozialwissenschaften; 2011. p.53-65. DOI: 10.1007&#47;978-3-531-93015-2&#95;4</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;978-3-531-93015-2&#95;4</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Porst R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>1998</RefYear>
        <RefBookTitle>Im Vorfeld der Befragung: Planung, Fragebogenentwicklung, Pretesting. ZUMA-Arbeitsbericht, 1998&#47;02</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Porst R. Im Vorfeld der Befragung: Planung, Fragebogenentwicklung, Pretesting. ZUMA-Arbeitsbericht, 1998&#47;02. Mannheim: Zentrum f&#252;r Methoden und Analysen (ZUMA); 1998. URN: urn:nbn:de:0168-ssoar-200484</RefTotal>
        <RefLink>https:&#47;&#47;nbn-resolving.org&#47;urn:nbn:de:0168-ssoar-200484</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>MacCallum RC</RefAuthor>
        <RefAuthor>Widaman KF</RefAuthor>
        <RefAuthor>Zhang S</RefAuthor>
        <RefAuthor>Hong S</RefAuthor>
        <RefTitle>Sample Size in Factor Analysis</RefTitle>
        <RefYear>1999</RefYear>
        <RefJournal>Psychol Method</RefJournal>
        <RefPage>84-99</RefPage>
        <RefTotal>MacCallum RC, Widaman KF, Zhang S, Hong S. Sample Size in Factor Analysis. Psychol Method. 1999;4(1):84-99. DOI: 10.1037&#47;1082-989X.4.1.84</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1037&#47;1082-989X.4.1.84</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Repke L</RefAuthor>
        <RefAuthor>Birkenmaier L</RefAuthor>
        <RefAuthor>Lechner CM</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Validity in Survey Research - From Research Design to Measurement Instruments</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Repke L, Birkenmaier L, Lechner CM. Validity in Survey Research - From Research Design to Measurement Instruments. Mannheim: GESIS &#8211; Leibniz-Institute for the Social Sciences (GESIS &#8211; Survey Guidelines); 2024. DOI: 10.15465&#47;gesis-sg&#95;en&#95;048</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.15465&#47;gesis-sg&#95;en&#95;048</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Campbell DT</RefAuthor>
        <RefAuthor>Fiske DW</RefAuthor>
        <RefTitle>Convergent and discriminant validation by the multitrait-multimethod matrix</RefTitle>
        <RefYear>1959</RefYear>
        <RefJournal>Psychol Bull</RefJournal>
        <RefPage>81-105</RefPage>
        <RefTotal>Campbell DT, Fiske DW. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol Bull. 1959;56(2):81-105. </RefTotal>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>AERA</RefAuthor>
        <RefAuthor> APA</RefAuthor>
        <RefAuthor> NCME</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Standards for Educational and Psychological Testing</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>AERA, APA, NCME. Standards for Educational and Psychological Testing. Washington: American Psychological Association (APA); 2014.</RefTotal>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Schaper N</RefAuthor>
        <RefTitle>Validit&#228;tsaspekte von Kompetenzmodellen und -tests f&#252;r hochschulische Kompetenzdom&#228;nen</RefTitle>
        <RefYear>2014</RefYear>
        <RefBookTitle>Kompetenz im Studium und in der Arbeitswelt. Nationale und internationale Ans&#228;tze zur Erfassung von Ingenieurkompetenzen</RefBookTitle>
        <RefPage>21-48</RefPage>
        <RefTotal>Schaper N. Validit&#228;tsaspekte von Kompetenzmodellen und -tests f&#252;r hochschulische Kompetenzdom&#228;nen. In: Musekamp F, Sp&#246;ttl G, editors. Kompetenz im Studium und in der Arbeitswelt. Nationale und internationale Ans&#228;tze zur Erfassung von Ingenieurkompetenzen. Frankfurt, M: Lang; 2014. p.21-48.</RefTotal>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>Downing SM</RefAuthor>
        <RefTitle>Validity: on meaningful interpretation of assessment data</RefTitle>
        <RefYear>2003</RefYear>
        <RefJournal>Med Educ</RefJournal>
        <RefPage>830-837</RefPage>
        <RefTotal>Downing SM. Validity: on meaningful interpretation of assessment data. Med Educ. 2003;37(9):830-837. DOI: 10.1046&#47;j.1365-2923.2003.01594.x</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1046&#47;j.1365-2923.2003.01594.x</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Su CT</RefAuthor>
        <RefAuthor>Parham LD</RefAuthor>
        <RefTitle>Generating a valid questionnaire translation for cross-cultural use</RefTitle>
        <RefYear>2002</RefYear>
        <RefJournal>Am J Occup Ther</RefJournal>
        <RefPage>581-585</RefPage>
        <RefTotal>Su CT, Parham LD. Generating a valid questionnaire translation for cross-cultural use. Am J Occup Ther. 2002;56(5):581-585. DOI: 10.5014&#47;ajot.56.5.581</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.5014&#47;ajot.56.5.581</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>European Social Survey</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2022</RefYear>
        <RefBookTitle>ESS Round 11 Translation Guidelines</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>European Social Survey. ESS Round 11 Translation Guidelines. London: ESS ERIC Headquarters; 2022. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.europeansocialsurvey.org&#47;sites&#47;default&#47;files&#47;2024-08&#47;ESS&#95;R11&#95;Translation&#95;Guidelines.pdf</RefTotal>
        <RefLink>https:&#47;&#47;www.europeansocialsurvey.org&#47;sites&#47;default&#47;files&#47;2024-08&#47;ESS&#95;R11&#95;Translation&#95;Guidelines.pdf</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <Table format="png">
          <MediaNo>1</MediaNo>
          <MediaID language="en">1en</MediaID>
          <MediaID language="de">1de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 1: Psychological test and questionnaire measures &#8211; an overview with examples &#91;3&#93;</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 1: Psychologische Test- und Fragebogenverfahren &#8211; ein &#220;berblick mit Beispielen &#91;3&#93;</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>2</MediaNo>
          <MediaID language="en">2en</MediaID>
          <MediaID language="de">2de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 2: Traditional quality criteria of tests &#91;2&#93;, &#91;5&#93;, &#91;10&#93;, &#91;19&#93;</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 2: Traditionelle Test-G&#252;tekriterien &#91;2&#93;, &#91;5&#93;, &#91;10&#93;, &#91;19&#93;</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>3</MediaNo>
          <MediaID language="en">3en</MediaID>
          <MediaID language="de">3de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 3: Phases of constructing test and questionnaire measures (see chapter 4)</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 3: &#220;bersicht der Phasen der Konstruktion von Test- und Fragebogenverfahren (siehe Kapitel</Mark1> <Mark1>4)</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>4</MediaNo>
          <MediaID language="en">4en</MediaID>
          <MediaID language="de">4de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 4: Description of test statistics</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 4: Beschreibung von teststatistischen Kennwerten</Mark1></Pgraph></Caption>
        </Table>
        <Table format="png">
          <MediaNo>5</MediaNo>
          <MediaID language="en">5en</MediaID>
          <MediaID language="de">5de</MediaID>
          <Caption language="en"><Pgraph><Mark1>Table 5: Validity approach by Messick &#91;5&#93;, &#91;13&#93;, &#91;20&#93;</Mark1></Pgraph></Caption>
          <Caption language="de"><Pgraph><Mark1>Tabelle 5: Validit&#228;tsansatz von Messick &#91;5&#93;, &#91;13&#93;, &#91;20&#93;</Mark1></Pgraph></Caption>
        </Table>
        <NoOfTables>5</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>