<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>mbi000638</Identifier>
    <IdentifierDoi>10.3205/mbi000638</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-mbi0006389</IdentifierUrn>
    <ArticleType>Fachbeitrag</ArticleType>
    <TitleGroup>
      <Title language="de">Large Language Models in der systematischen Literaturrecherche &#8211; eine Evidenz&#252;bersicht</Title>
      <TitleTranslated language="en">Uses for large language models in systematic literature searching &#8211; an overview of the evidence</TitleTranslated>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Klerings</Lastname>
          <LastnameHeading>Klerings</LastnameHeading>
          <Firstname>Irma</Firstname>
          <Initials>I</Initials>
        </PersonNames>
        <Address>Department f&#252;r Evidenzbasierte Medizin und Evaluation, Universit&#228;t f&#252;r Weiterbildung Krems, Dr.-Karl-Dorrek-Stra&#223;e 30, 3500 Krems, &#214;sterreich<Affiliation>Department f&#252;r Evidenzbasierte Medizin und Evaluation, Universit&#228;t f&#252;r Weiterbildung Krems, &#214;sterreich</Affiliation></Address>
        <Email>irma.klerings&#64;donau-uni.ac.at</Email>
        <Creatorrole corresponding="yes" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="en">artificial intelligence</Keyword>
      <Keyword language="en">large language models</Keyword>
      <Keyword language="en">systematic literature searching</Keyword>
      <Keyword language="de">k&#252;nstliche Intelligenz</Keyword>
      <Keyword language="de">Large Language Models</Keyword>
      <Keyword language="de">systematische Literaturrecherche</Keyword>
      <SectionHeading language="de">AGMB-Jahrestagung in Linz 2025</SectionHeading>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20251219</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Journal>
        <ISSN>1865-066X</ISSN>
        <Volume>25</Volume>
        <Issue>2</Issue>
        <JournalTitle>GMS Medizin - Bibliothek - Information</JournalTitle>
        <JournalTitleAbbr>GMS Med Bibl Inf</JournalTitleAbbr>
        <IssueTitle>AGMB-Jahrestagung in Linz 2025: Synergien schaffen: Informationswissenschaften und Medizin im Dialog</IssueTitle>
      </Journal>
    </SourceGroup>
    <ArticleNo>25</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund:</Mark1> Die Methodik systematische Literaturrecherche stellt hohe Anforderungen an Transparenz, Reproduzierbarkeit und Vollst&#228;ndigkeit von Literatursuchen. Die Einf&#252;hrung von Large Language Models (LLMs) wie ChatGPT hat der Automatisierung von Evidenzsynthese-Prozessen durch k&#252;nstliche Intelligenz (KI) neuen Aufschwung gegeben. Allerdings sind Einsch&#228;tzungen des Nutzens von LLMs f&#252;r die systematische Suche heterogen. Diese narrative &#220;bersichtsarbeit untersucht die aktuelle Evidenzlage zur Anwendung von LLM-Tools im Vergleich zu von Menschen durchgef&#252;hrten systematischen Suchen (Stand: August 2025).</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Die Studienlage konzentriert sich auf zwei Anwendungsbe<TextGroup><PlainText>r</PlainText></TextGroup>eiche: Erstellung boolescher Suchstrategien durch LLMs und Generierung von umfassenden Literaturlisten mit KI-gest&#252;tzten Rechercheplattformen (Elicit, Consensus). In beiden F&#228;llen erzielten KI-Tools unzureichende Recall-Raten im Vergleich zu klassischen systematischen Suchmethoden. Allerdings konnten KI-gest&#252;tzte Such-Plattformen zus&#228;tzliche Studien identifizieren, die von Booleschen Suchstrategien nicht gefunden wurden. Wenige Studien untersuchten die Verwendung von LLMs zur Fehlererkennung in Datenbank-Suchstrategien. KI war in der Lage Fehler zu finden, allerdings gab es Probleme bei der Erstellung von verbesserten Suchstrategien.</Pgraph><Pgraph><Mark1>Schlussfolgerung:</Mark1> Basierend auf den verf&#252;gbaren Evaluationen, sollten KI-gest&#252;tzte Methoden h&#246;chstens komplement&#228;r zu etablierten Methoden der systematischen Literaturrecherche angewandt werden. Allein erreichen sie weder den notwendigen hohen Recall, noch sind ihre Ergebnisse reproduzierbar. Die Evidenzlage weist allerdings auch erhebliche L&#252;cken auf. Unabh&#228;ngige Evaluationen und die kritische Bewertung von KI-Tools durch Anwender&#42;innen bleiben essenziell.</Pgraph></Abstract>
    <Abstract language="en" linked="yes"><Pgraph><Mark1>Background:</Mark1> The methodology of systematic literature searching requires that the information retrieval process has a high recall and is as transparent and reproducible as possible. The introduction of large language models (LLMs) such as ChatGPT raised the expectations for automation of evidence synthesis processes through artificial intelligence (AI). However, assessments of the usefulness of LLMs for systematic searching are heterogeneous. This narrative review examines the current evidence on the use of LLM tools compared to systematic searches performed by humans (as of August 2025).</Pgraph><Pgraph><Mark1>Results:</Mark1> The majority of studies focus on two areas of application: the creation of Boolean search strategies by LLMs and the generation of comprehensive literature lists using AI-supported search platforms (Elicit, Consensus). In both cases, AI tools achieved insufficient recall rates compared to traditional systematic search methods. However, AI-supported search platforms were able to identify additional studies that were not found by Boolean search strategies. Few studies investigated the use of LLMs for error detection in database search strategies. AI was able to find errors, but there were problems in creating improved search strategies.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> Based on the available evidence, AI-supported methods should at most be used to complement established methods of systematic literature research. On their own, they neither achieve the necessary high recall nor are their results reproducible. However, there are also significant gaps in the evidence. Independent evaluations and critical assessment of AI tools by users remain essential.</Pgraph></Abstract>
    <TextBlock name="Einleitung" linked="yes">
      <MainHeadline>Einleitung</MainHeadline><Pgraph>Die systematische Literaturrecherche bildet eine methodische Grundlage f&#252;r alle Arten von systematischen Evidenzsynthesen (z.B. Systematic Reviews, Rapid Reviews, Evidence Maps). Im Gegensatz zu anderen Literatursuche-Prozessen stellt sie hohe Anforderungen an Transparenz, Reproduzierbarkeit und Vollst&#228;ndigkeit des Rechercheprozesses <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. W&#228;hrend Automatisierungs-Ans&#228;tze f&#252;r die Erstellung von Evidenzsynthesen seit langem untersucht und entwickelt werden <TextLink reference="3"></TextLink>, hat die Verf&#252;gbarkeit von Large Language Models (LLMs) wie ChatGPT, Claude oder Gemini dem Thema neuen Aufschwung gegeben: Neue Tools und eine steigende Anzahl von Publikationen &#252;ber diese Tools versprechen, dass k&#252;nstliche Intelligenz (KI) den langwierigen Evidenzsynthesen-Prozess schneller und einfacher macht. </Pgraph><Pgraph>Allerdings scheinen nicht alle Bereiche dieses Prozesses in gleichem Ma&#223;e f&#252;r LLM-Anwendungen geeignet. Ein Scoping Review <TextLink reference="4"></TextLink> mit Literatur bis Anfang 2024 identifizierte zahlreiche Publikationen zur LLM-Anwendung bei der Erstellung von Evidenzsynthesen. In der &#220;bersicht zeigte sich, dass Studienautor&#42;innen den Nutzen von LLMs f&#252;r Literaturscreening und Datenextraktion als &#252;berwiegend vielversprechend oder schlimmstenfalls neutral sahen. In anderen Bereichen, wie Risk of Bias Bewertung und Literatursuche, gab es keinen einheitli<TextGroup><PlainText>c</PlainText></TextGroup>hen Trend: Manche Studien bewerteten LLM-Nutzung als vielversprechend, andere als neutral, aber &#8211; insbesondere bei der Literatursuche &#8211; gab es auch viele negative Bewertungen. </Pgraph><Pgraph>Dieses breite Spektrum an Einsch&#228;tzungen stellt alle, die systematische Literatursuchen erstellen, vor ein praktisches Problem: Gibt es unter den vielen verf&#252;gbaren KI-Tools und Methoden, solche, die f&#252;r den Suchprozess tats&#228;chlich n&#252;tzlich sind&#63; Und wenn ja, welche&#63; </Pgraph><Pgraph>Der vorliegende Beitrag untersucht den aktuellen Evidenzstand zur KI-gest&#252;tzten Literatursuche und versucht folgende Fragen zu beantworten: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Gibt es Studien, die die Verwendung von KI (besonders LLMs) im systematischen Suchprozess im Vergleich zu etablierten Methoden evaluieren&#63;</ListItem><ListItem level="1" levelPosition="2" numString="2.">Lassen sich daraus Empfehlungen f&#252;r das praktische Vorgehen bei der systematischen Suche ableiten&#63;</ListItem></OrderedList></Pgraph></TextBlock>
    <TextBlock name="Kontext" linked="yes">
      <MainHeadline>Kontext</MainHeadline><Pgraph>Um diese Fragen zu beantworten, m&#252;ssen zuerst einige Grundlagen gekl&#228;rt werden: der Aufbau und die Anforderungen der systematischen Literaturrecherche, und die Art von KI, um die es im Weiteren geht. </Pgraph><SubHeadline>Systematische Literatursuche: Anforderungen und Prozess</SubHeadline><Pgraph>Systematische Literatursuchen zielen auf die Identifikati<TextGroup><PlainText>o</PlainText></TextGroup>n m&#246;glichst aller relevanten Studien zu einer Fragestellung ab, der Prozess priorisiert also die gr&#246;&#223;tm&#246;gliche Vollst&#228;ndigkeit des Suchergebnisses (hoher Recall). Zudem muss der Prozess transparent dokumentiert und so reproduzierbar wie m&#246;glich sein. Diese drei Elemente, Vollst&#228;ndigkeit, Transparenz und Reproduzierbarkeit haben das Ziel, eine Verzerrung der Ergebnisse der Evidenzsynthese aufgrund der verwendeten Literatur zu minimieren. </Pgraph><Pgraph>Der systematische Suchprozess umfasst typischerweise die folgenden Schritte:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Scoping&#47;Explorative Suchen: &#220;berblick &#252;ber die Fragestellung und relevante Literatur, Identifikation von relevanten &#8222;seed citations&#8220; f&#252;r weitere Suchschritte, Identifikation von relevanten Informationsquellen (Datenbanken, Journals, Organisationen, etc.) f&#252;r die weitere Suche,</ListItem><ListItem level="1">Entwicklung der prim&#228;ren Datenbank-Suchstrategie: Konzeptidentifikation, Textw&#246;rter, kontrolliertes Vokabular,</ListItem><ListItem level="1">&#220;bersetzung der Suchstrategie auf andere Datenbanken&#47;Suchoberfl&#228;chen,</ListItem><ListItem level="1">Peer-Review der Suchstrategien,</ListItem><ListItem level="1">Durchf&#252;hrung der Datenbank-Suchen und Export der Suchergebnisse,</ListItem><ListItem level="1">Zus&#228;tzliche Suchmethoden: z.B. Citation Searching, Handsuche, Websuche,</ListItem><ListItem level="1">Transparente Dokumentation aller Schritte des Suchprozesses.</ListItem></UnorderedList></Pgraph><Pgraph>Diesem Prozess folgen die Deduplizierung aller Sucher<TextGroup><PlainText>g</PlainText></TextGroup>ebnisse und die systematische Literaturauswahl (Title&#47;Abstract und Fulltext-Screening).</Pgraph><Pgraph>F&#252;r die Anwendung von KI-Tools bei der systematischen Literaturrecherche sind zwei Ans&#228;tze denkbar: Entweder werden einzelne Schritte des Prozesses mit KI unterst&#252;tzt&#47;ersetzt aber der Prozess selbst bleibt unver&#228;ndert, oder der gesamte Prozess wird durch KI-Nutzung umgestaltet&#47;ersetzt. </Pgraph><SubHeadline>Automatisierung, K&#252;nstliche Intelligenz, Large Language Models</SubHeadline><Pgraph>K&#252;nstliche Intelligenz (KI) kann definiert werden als Technologie, die Aufgaben ausf&#252;hrt, f&#252;r die normalerweise biologische Intelligenz erforderlich w&#228;re (z.B. das Verstehen gesprochener Sprache, das Erlernen von Verhaltensweisen oder das L&#246;sen von Problemen) <TextLink reference="5"></TextLink>. </Pgraph><Pgraph>Davon lassen sich andere Technologien unterscheiden, die auf mechanische Automatisierung setzen, beispielsweise das automatische Syntax-Mapping von Polyglot Search Translator <TextLink reference="6"></TextLink> oder die gewichtete Textanalyse von searchbuildR <TextLink reference="7"></TextLink>. </Pgraph><Pgraph>Im Kontext der systematischen Literatursuche bezieht sich der Begriff &#8222;KI&#8220; prim&#228;r auf Large Language Models (LLMs). Bei LLMs handelt es sich um eine Form generativer KI, bei der Machine Learning-Algorithmen verwendet werden, um neue Inhalte auf der Grundlage von Mustern zu erstellen, die aus Trainingsdaten erlernt wurden. Konkret dienen LLMs der Texterstellung, sie sind &#8222;Chat bots&#8220; <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>LLMs weisen Charakteristika auf, die potenziell die Erf&#252;llung der Anforderungen an systematische Suchen &#8211; insbesondere Transparenz und Reproduzierbarkeit &#8211; erschweren <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Black Box-Problem: Intransparenz der Prozesse, die zum Output f&#252;hren. Aufgrund ihrer Komplexit&#228;t ist es selbst den Entwickler&#42;innen kaum m&#246;glich die &#8222;Entscheidungen&#8220; eines LLMs basierend auf einem Prompt zu erkl&#228;ren oder nachzuvollziehen. </ListItem><ListItem level="1">Bias: Verzerrungen im Output, in den Charakteristika des Trainingsmaterials oder im Modelldesign. LLMs k&#246;nnten beispielsweise Vorurteile oder Falschin<TextGroup><PlainText>f</PlainText></TextGroup>orma<TextGroup><PlainText>t</PlainText></TextGroup>ionen reproduzieren, die in den Trainingsdaten pr&#228;valent waren. Andererseits k&#246;nnten spezifische Funktionen eines KI-Tools das Output verzerren (beispielsweise indem die Trefferzahl der Suche unabh&#228;ngig von der Fragestellung festgelegt wird).</ListItem><ListItem level="1">Halluzinationen: Generierung faktisch falscher, aber formal plausibler Inhalte. Zum Auftreten von Halluzinationen k&#246;nnen verschiedene Faktoren beitragen, die mit den ersten beiden Charakteristika zu tun haben: den verwendeten Trainingsdaten und -methoden sowie den Methoden die das LLM verwendet, um Antworten zu generieren.</ListItem></UnorderedList></Pgraph><Pgraph>Zuletzt sind LLMs auch mit einem erheblichen Ressourcenverbrauch verbunden: Training und Nutzung der Modelle hat einen gro&#223;en Energie-, Wasser- und Rohstoffbe<TextGroup><PlainText>d</PlainText></TextGroup>arf <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. </Pgraph><Pgraph>Diese bekannten Limitationen von LLMs machen es umso wichtiger ihren Nutzen f&#252;r konkrete Anwendungen zu evaluieren, um ungewollte negative Auswirkungen auf das Endergebnis zu vermeiden. </Pgraph><SubHeadline>Quellen und Methodik</SubHeadline><Pgraph>Diese narrative &#220;bersichtsarbeit basiert auf:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Literatur&#252;bersichten zur KI-Nutzung in Evidenzsynthesen <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>,</ListItem><ListItem level="1">der &#8222;Living Evidence Map&#8220; von Farhad Shokraneh <TextLink reference="19"></TextLink> (Stand: Ende August 2025),</ListItem><ListItem level="1">Literatur-Surveillance (Semantic Scholar research feed, Embase.com Search Alerts, Stand: Ende August 2025)</ListItem></UnorderedList></Pgraph><Pgraph>Sie inkludiert sowohl publizierte Artikel als auch Preprints. Es wurden nur Studien ber&#252;cksichtigt, die Performanz der KI-Methode im Vergleich zu menschlicher Arbeit berichteten. Manche Quellen <TextLink reference="16"></TextLink>, <TextLink reference="18"></TextLink> beschr&#228;nkten sich explizit auf den gesundheitswissenschaftlichen Kontext. </Pgraph></TextBlock>
    <TextBlock name="Evidenz&#252;bersicht" linked="yes">
      <MainHeadline>Evidenz&#252;bersicht</MainHeadline><Pgraph>Zurzeit gibt es Evaluationen zu drei Anwendungsbereichen, bei denen KI-Methoden mit etablierten systematischen Suchen verglichen wurden:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Die Erstellung von booleschen Suchstrategien, </ListItem><ListItem level="1">die Erstellung von Literaturlisten,</ListItem><ListItem level="1">die Fehlererkennung bei Suchstrategien.</ListItem></UnorderedList></Pgraph><SubHeadline>K&#246;nnen LLMs systematische Suchstrategien entwickeln&#63;</SubHeadline><Pgraph>Der Gro&#223;teil der Studien zum Thema KI-Nutzung im systematischen Suchprozess besch&#228;ftigt sich mit der Erstellung von Booleschen Datenbank-Suchstrategien, in den meisten F&#228;llen f&#252;r PubMed <TextLink reference="20"></TextLink>, <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>Bei diesem Vorgehen erstellt ein LLM eine Datenbank-spezifische Suchstrategie basierend auf einem Prompt, das die Forschungsfrage und eventuell zus&#228;tzliche Informationen beinhaltet. Dabei bleibt die Transparenz und Reproduzierbarkeit des Suchprozesses an sich gew&#228;hrleistet, da die Datenbank-Suche an sich ohne KI vonstattengeht. </Pgraph><Pgraph>In der Evidence Map von Adam et al. <TextLink reference="16"></TextLink> wurden acht solche Studien ausgewertet und mit der &#252;blichen Performance von Menschen-generierten Suchstrategien verglichen (Median Recall (88&#37;, Range: 65&#8211;100&#37;) und Pr&#228;zision (2&#37;, Range: 1,7&#8211;2,2&#37;)). Dabei zeigte sich, dass sogenannte &#8222;zero shot prompts&#8220; bei denen ein generisches LLM (z.B. ChatGPT, Claude) ohne weiteres Training eine Suchstrategie erstellt, schlecht funktionierten, und zwar unabh&#228;ngig vom verwendeten Modell und Prompting-Ansatz: Der durchschnittliche Recall lag bei 4&#8211;31,6&#37;. Dieser Trend ist auch in neueren Studien <TextLink reference="21"></TextLink>, <TextLink reference="32"></TextLink>, die nicht in der Evidence Map ber&#252;cksichtigt wurden, vorhanden: Durchschnittlicher Recall f&#252;r zero shot prompts lag zwischen 15&#37; und 43,6&#37;, wobei die Performanz in der Regel gro&#223;e Schwankungsbreiten f&#252;r dieselben Prompt im selben Modell aufwies. </Pgraph><Pgraph>Vielversprechender waren in der Evidence Map <TextLink reference="16"></TextLink> zwei Studien, die &#8222;fine-tuned&#8220; Modelle verwenden. Dabei wurden existierende LLMs mit tausenden, f&#252;r die konkrete Aufgabe relevanten, Datensets weiter trainiert. Das Ergebnis war ein hoher Recall bei gleichzeitiger extrem niedriger Pr&#228;zision: Bei Pourezza et al. <TextLink reference="31"></TextLink> hatte der Ansatz mit dem h&#246;chsten Recall (96,76&#37;) eine Pr&#228;zision von 0,03&#37;, bei Adam et al. <TextLink reference="23"></TextLink> waren es 91,83&#37; und 0,15&#37;. Allerdings handelt es sich bei diesen Publikationen um Pilotstudien, die noch keine fertigen Anwendungen f&#252;r andere User&#42;innen zur Verf&#252;gung stellen.</Pgraph><Pgraph>Die verh&#228;ltnism&#228;&#223;ig gro&#223;e Anzahl von Studien zu dem Thema KI-Suchstrategie-Entwicklung zeigt auch Probleme bei der Reproduzierbarkeit der KI-Evaluationen selbst auf. Zwei Studien <TextLink reference="23"></TextLink>, <TextLink reference="27"></TextLink>, die versuchten, den Ansatz einer einflussreichen, 2023 ver&#246;ffentlichten Studie <TextLink reference="22"></TextLink> zu replizieren, erreichten schlechtere Ergebnisse als in der Originalpublikation berichtet wurden. In ihrer Antwort auf Staudinger et al. <TextLink reference="27"></TextLink> wiesen die urspr&#252;nglichen Studienautor&#42;innen <TextLink reference="21"></TextLink> darauf hin, das unter anderem query validation (&#8222;manual removal of incorrectly generated queries&#8220;) und query refinement (&#8222;improving an initial query automatically&#8220;) grundlegende Bestandteile ihrer Evaluation waren. Es zeigt sich also, dass nach dem ersten Output weitere Schritte notwendig waren, um die Generierung ausf&#252;hrbarer Suchstrategien -unabh&#228;ngig von ihrer Performanz &#8211; zu gew&#228;hrleisten. </Pgraph><Pgraph>Ausgehend von diesen Studien und &#220;bersichtsarbeiten ist momentan Fachexpertise notwendig, um von LLMs erstellte Suchstrategien zu bewerten und zu &#252;berarbeiten. Es ist unklar, ob diese Vorgehensweise zu Zeitersparnissen oder einer Verbesserung der Qualit&#228;t von Suchstrategien im Vergleich zu anderen Methoden f&#252;hrt.</Pgraph><SubHeadline>K&#246;nnen LLMs relevante Literatur vollst&#228;ndig identifizieren&#63;</SubHeadline><Pgraph>Ein anderer Ansatz ist die Erstellung von umfassenden Literaturlisten durch KI-Tools. Diese Vorgehensweise zielt darauf ab, den gesamten Prozess der systematischen Suche durch einen Prompt-basierten Vorgang zu ersetzen. Ein auf der Recherchefrage basierender Prompt soll dabei alle relevanten Publikationen identifizieren. Da hier das KI-Tool selbst f&#252;r das Auffinden der relevanten Literatur verwendet wird, haben LLM-spezifische Probleme wie Halluzinationen und variierende Ergebnisse f&#252;r gleichbleibende Prompts einen direkten Einfluss auf das Ergebnis der Suche. </Pgraph><Pgraph>Dieses Thema wurde weniger ausf&#252;hrlich erforscht, aber es gibt Studien, die ChatGPT <TextLink reference="33"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>, Elicit <TextLink reference="36"></TextLink>, <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink>, Consensus <TextLink reference="36"></TextLink>, <TextLink reference="39"></TextLink> und andere Anwendungen <TextLink reference="33"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink> im Vergleich mit systematischen Suchergebnissen untersuchen. &#220;bersichtsarbeiten von Clark et al. <TextLink reference="17"></TextLink> und Adam et al. <TextLink reference="16"></TextLink> zeigten, dass f&#252;r ChatGPT der Recall bei dieser Vorgehensweise bei 4&#8211;14&#37; der relevanten Literatur lag. Zus&#228;tzlich wurden hohe Halluzinationsraten &#8211; fehlerhafte oder nicht existierende Literaturangaben &#8211; beobachtet. </Pgraph><Pgraph>Die Verwendung von Elicit und Consensus <TextLink reference="36"></TextLink>, <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink>, <TextLink reference="39"></TextLink> &#8211; KI-gest&#252;tzten Plattformen f&#252;r wissenschaftliche Literatur, die Retrieval Augmented Generation n&#252;tzen &#8211; war etwas besser mit durchschnittlichen Recall-Raten von 19,6&#37; bis 43,5&#37;. Eine Studie <TextLink reference="37"></TextLink> zeigte allerdings, dass die Verwendung eines gleichbleibenden Prompts in Elicit zu unterschiedlichen Ergebnissen f&#252;hrte. Andererseits fanden zwei weitre Evaluationen von Elicit <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink> in den KI-generierten Suchergebnissen eine kleine Anzahl an relevanten Artikeln, die durch die klassischen systematischen Suchen nicht gefunden worden waren. Die Autor&#42;innen kamen zum Schluss, dass KI-gest&#252;tzte Suchen keine systematischen Suchen ersetzen aber als komplement&#228;re Suchmethoden im systematischen Prozess dienen k&#246;nnen.</Pgraph><Pgraph>Die Evaluationsstudien zeigen, dass f&#252;r die Verwendung von LLMs zur Literatursuche unbedingt eine Anbindung an externe Quellen (Websuche, Literaturdatenbanken) notwendig ist, um Halluzinationen zu vermeiden. Aber selbst KI-Tools, die f&#252;r wissenschaftliche Literatursuchen entwickelt wurden, erstellen gegenw&#228;rtig keine umfassenden Listen relevanter Literatur die mit den Ergebnissen systematischer Suchen vergleichbar sind. Sie k&#246;nnten allerdings f&#252;r die Vorbereitung systematischer Suchen (Scoping) oder als zus&#228;tzliche Suchmethoden von Nutzen sein. </Pgraph><SubHeadline>K&#246;nnen LLMs Suchstrategien verbessern&#63;</SubHeadline><Pgraph>Manuale f&#252;r die systematische Literatursuche <TextLink reference="2"></TextLink>, <TextLink reference="40"></TextLink>, <TextLink reference="41"></TextLink> empfehlen, dass zumindest die prim&#228;re Datenbank-Suchstrategie durch eine zweite Person &#252;berpr&#252;ft wird. Das soll die ad&#228;quate Erfassung der Fragestellung und Fehlerfreiheit der Suchstrategie gew&#228;hrleisten. </Pgraph><Pgraph>Nur zwei Studien untersuchten die Verwendung von LLMs zu diesem Zweck: Hill et al. <TextLink reference="42"></TextLink> verwendeten einen random error generator, um Tippfehler und Verkn&#252;pfungsfeh<TextGroup><PlainText>l</PlainText></TextGroup>er in sechs Suchstrategien einzuf&#252;gen. Dann wurde &#252;berpr&#252;ft, ob LLMs diese Fehler finden und eine verbesserte Suchstrategie vorschlagen konnten. Die Fehlerer<TextGroup><PlainText>k</PlainText></TextGroup>ennungsrate war dabei mit 75-93&#37; teilweise vergleichbar mit der von menschlichen Reviewern (93&#37;). Allerdings konnten LLMs nicht zuverl&#228;ssig verbesserte Suchstrategien produzieren: Die Anzahl der durchf&#252;hrbaren Suchstrategien lag bei 0&#47;6 (Gemini), 1&#47;6 (Claude) und 2&#47;6 (ChatGPT). Gitman et al. <TextLink reference="43"></TextLink> entfernten von 16 Suchstrategien ein gesamtes Konzept (alle Suchbegriffe f&#252;r &#8222;observational studies&#8220; oder &#8222;drug harms&#8220;). ChatGPT konnte dieses Fehlen erkennen und eine Liste von relevant erscheinenden Suchbegriffen vorschlagen. Es wurden allerdings keine verbesserten Suchstrategien erstellt und mit dem Recall der Original-Suchen verglichen. </Pgraph><Pgraph>Basierend auf diesen Ergebnissen k&#246;nnten LLMs f&#252;r die Identifikation von groben Fehlern und das Vorschlagen von Suchbegriffen n&#252;tzlich sein. Allerdings ist unklar, inwiefern die k&#252;nstlich generierten Fehler mit &#8222;echten&#8220; fehlerhaften Suchstrategien vergleichbar sind.</Pgraph></TextBlock>
    <TextBlock name="Fazit und Ausblick" linked="yes">
      <MainHeadline>Fazit und Ausblick</MainHeadline><Pgraph>Die Evidenzlage zur Verwendung von KI im systematischen Suchprozess weist gro&#223;e L&#252;cken auf. Einzig die Erstellung von PubMed-Suchstrategien durch generische LLMs ist inzwischen gut untersucht. Sie zeigt sich bis jetzt aber wenig erfolgreich, wenn man sie mit dem Recall vergleicht, den durchschnittliche von Menschen erstellte Suchstrategien erreichen. Zu anderen Ans&#228;tzen wie der Verwendung von fine-tuned Modellen, der Suche &#252;ber KI-gest&#252;tzte Rechercheplattformen und der &#220;berpr&#252;fung von Suchstrategien gibt es wenig Studien. Zu weiteren m&#246;glichen Anwendungen &#8211; beispielsweise der systematischen Suche nach grauer Literatur &#8211; wurden keine passenden Evaluationen identifiziert. </Pgraph><Pgraph>Abgesehen vom unbefriedigenden Recall, stellt die Variabilit&#228;t der Ergebnisse ein ungel&#246;stes Problem dar: Die wiederholte Ausf&#252;hrung gleichbleibender Prompts f&#252;hrte zu unterschiedlichen Ergebnissen. Wenn KI-Tools f&#252;r das eigentliche Information Retrieval (nicht nur f&#252;r die Erstellung einer Datenbank-Suchstrategie) verwendet werden, untergr&#228;bt das die fundamentale Anforderung von gr&#246;&#223;tm&#246;glicher Reproduzierbarkeit und Transparenz, die wir an systematische Suchen stellen.</Pgraph><Pgraph>Daher sollten KI-gest&#252;tzte Methoden zum gegenw&#228;rtigen Zeitpunkt nur komplement&#228;r zu den etablierten Methoden der systematischen Recherche angewandt werden: KI-gest&#252;tzte Rechercheplattformen k&#246;nnen beispielsweise f&#252;r explorative Scoping-Suchen n&#252;tzlich sein, generische LLMs k&#246;nnen eine zus&#228;tzliche Quelle f&#252;r Freitext-Suchbegriffe darstellen.</Pgraph><Pgraph>Diese Einsch&#228;tzung steht im Kontrast mit den Erwartungen, die von KI-Anbietern im Evidenzsynthesen-Bereich gesch&#252;rt werden. So verspricht beispielsweise otto-SR: &#8222;Systematic reviews in hours, not months. otto-SR performs end-to-end evidence synthesis from thousands of citations with better-than-human performance.&#8220; <TextLink reference="44"></TextLink> <TextGroup><PlainText>Der z</PlainText></TextGroup>ugeh&#246;rige Preprint <TextLink reference="44"></TextLink> zeigt aber, dass es sich dabei nur um die Schritte Abstract Screening, Fulltext Screening und Data Extraction handelt. Auch Elicit verspricht: &#8222;With AI and language models, Elicit can help you save up to 80&#37; of the time it takes to run systematic reviews, without compromising on accuracy. The Systematic Reviews workflow guides you step by step through search, title &#38; abstract screening, and full-text data extraction, also providing a research report to summarize the most relevant papers in your review at the end of the process.&#8220; <TextLink reference="45"></TextLink>. Elicits eigene Evaluation <TextLink reference="46"></TextLink> bezieht sich allerdings ebenfalls nur auf Screening und Data Extraction. </Pgraph><Pgraph>Systematische Literaturauswahl und Datenextraktion sind auch die Schritte der Evidenzsynthese, bei denen LLM-Anwendungen unabh&#228;ngig von den verwendeten Tools und Modellen vielversprechende Performance liefern <TextLink reference="16"></TextLink>. F&#252;r den Prozess der systematischen Literaturrecherche ist das bis jetzt nicht der Fall. Aber neue Modelle oder Tools, beispielsweise die Ver&#246;ffentlichung von nutzerfreundlichen fine-tuned Modellen f&#252;r die Suchstrategie-Erstellung, k&#246;nnten das &#228;ndern. Aus diesem Grund sind weiterhin gut gemachte unabh&#228;ngige Evaluationen von KI-Anwendungen unerl&#228;sslich. Es ist aber auch wichtig, dass die Anwender&#42;innen notwendige Kenntnisse haben, um den Nutzen der KI-Tools f&#252;r ihre Zwecke einzusch&#228;tzen.</Pgraph><Pgraph>Initiativen wie die joint Artificial Intelligence Methods Group von Cochrane, der Campbell Collaboration, JBI und der Collaboration for Environmental Evidence (CEE) <TextLink reference="44"></TextLink> und die Responsible AI in Evidence Synthesis (RAISE) <TextLink reference="47"></TextLink> guidance k&#246;nnen hierzu einen Beitrag leisten. RAISE richtet sich an Ersteller&#42;innen von Evidenzsynthesen, aber auch KI-Tool Entwickler&#42;innen und Methodenfor<TextGroup><PlainText>s</PlainText></TextGroup>cher&#42;innen. Die guidance empfiehlt Ersteller&#42;innen von Evidenzsynthesen unter anderem KI-Evaluationen kritisch zu lesen und nur Tools zu verwenden, die nachgewiesenerma&#223;en geeignet f&#252;r die gew&#252;nschte Aufgabe sind <TextLink reference="48"></TextLink>. Zus&#228;tzlich werden Metriken beschrieben, die f&#252;r solche Evaluationen relevant sind <TextLink reference="10"></TextLink>, sowie Fragen&#47;&#220;berlegungen, die die Einsch&#228;tzung von KI-Tools leiten sollten <TextLink reference="49"></TextLink>. Es ist zu hoffen, dass es dadurch auch f&#252;r potenzielle Anwender&#42;innen einfacher wird den potentiellen Nutzen von KI-Tools f&#252;r die systematische Literatursuche oder anderen Evidenzsynthese Schritte einzusch&#228;tzen.</Pgraph></TextBlock>
    <TextBlock name="Anmerkung" linked="yes">
      <MainHeadline>Anmerkung</MainHeadline><Pgraph>Den Ausgangspunkt dieses Beitrags bilden ein Webinar <TextLink reference="50"></TextLink> und ein Workshop <TextLink reference="51"></TextLink>, den die Autorin mit Dr. Maria-Inti Metzendorf (Public Health and Information Scientist, Cochrane Planetary Health Thematic Group) abgehalten hat.</Pgraph></TextBlock>
    <TextBlock name="ORCID der Autorin" linked="yes">
      <MainHeadline>ORCID der Autorin</MainHeadline><Pgraph>Irma Klerings: <Hyperlink href="https:&#47;&#47;orcid.org&#47;0000-0001-6644-9845">0000-0001-6644-9845</Hyperlink></Pgraph></TextBlock>
    <TextBlock name="Interessenkonflikte" linked="yes">
      <MainHeadline>Interessenkonflikte</MainHeadline><Pgraph>Die Autorin erkl&#228;rt, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel hat.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Gusenbauer M</RefAuthor>
        <RefAuthor>Haddaway NR</RefAuthor>
        <RefTitle>What every researcher should know about searching - clarified concepts, search advice, and an agenda to improve finding in academia</RefTitle>
        <RefYear>2021</RefYear>
        <RefJournal>Res Synth Methods</RefJournal>
        <RefPage>136-147</RefPage>
        <RefTotal>Gusenbauer M, Haddaway NR. What every researcher should know about searching - clarified concepts, search advice, and an agenda to improve finding in academia. Res Synth Methods. 2021 Mar;12(2):136-147. DOI: 10.1002&#47;jrsm.1457</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;jrsm.1457</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Lefebvre C</RefAuthor>
        <RefAuthor>Glanville J</RefAuthor>
        <RefAuthor>Briscoe S</RefAuthor>
        <RefAuthor>Littlewood A</RefAuthor>
        <RefAuthor>Marshall C</RefAuthor>
        <RefAuthor>Metzendorf MI</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Chapter 4: Searching for and selecting studies</RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Cochrane Handbook for Systematic Reviews of Interventions. Version 6.5 (updated 2024 Sep)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Lefebvre C, Glanville J, Briscoe S, Littlewood A, Marshall C, Metzendorf MI, et al. Chapter 4: Searching for and selecting studies. In: Higgins J, Thomas J, editors. Cochrane Handbook for Systematic Reviews of Interventions. Version 6.5 (updated 2024 Sep). Cochrane; 2024. Available from: https:&#47;&#47;training.cochrane.org&#47;handbook&#47;current&#47;chapter-04</RefTotal>
        <RefLink>https:&#47;&#47;training.cochrane.org&#47;handbook&#47;current&#47;chapter-04</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Tsafnat G</RefAuthor>
        <RefAuthor>Glasziou P</RefAuthor>
        <RefAuthor>Choong MK</RefAuthor>
        <RefAuthor>Dunn A</RefAuthor>
        <RefAuthor>Galgani F</RefAuthor>
        <RefAuthor>Coiera E</RefAuthor>
        <RefTitle>Systematic review automation technologies</RefTitle>
        <RefYear>2014</RefYear>
        <RefJournal>Syst Rev</RefJournal>
        <RefPage>74</RefPage>
        <RefTotal>Tsafnat G, Glasziou P, Choong MK, Dunn A, Galgani F, Coiera E. Systematic review automation technologies. Syst Rev. 2014 Jul;3:74. DOI: 10.1186&#47;2046-4053-3-74</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;2046-4053-3-74</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Lieberum JL</RefAuthor>
        <RefAuthor>Toews M</RefAuthor>
        <RefAuthor>Metzendorf MI</RefAuthor>
        <RefAuthor>Heilmeyer F</RefAuthor>
        <RefAuthor>Siemens W</RefAuthor>
        <RefAuthor>Haverkamp C</RefAuthor>
        <RefAuthor>B&#246;hringer D</RefAuthor>
        <RefAuthor>Meerpohl JJ</RefAuthor>
        <RefAuthor>Eisele-Metzger A</RefAuthor>
        <RefTitle>Large language models for conducting systematic reviews: on the rise, but not yet ready for use &#8211; a scoping review</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>J Clin Epidemiol</RefJournal>
        <RefPage>111746</RefPage>
        <RefTotal>Lieberum JL, Toews M, Metzendorf MI, Heilmeyer F, Siemens W, Haverkamp C, B&#246;hringer D, Meerpohl JJ, Eisele-Metzger A. Large language models for conducting systematic reviews: on the rise, but not yet ready for use &#8211; a scoping review. J Clin Epidemiol. 2025 May;181:111746. DOI: 10.1016&#47;j.jclinepi.2025.111746</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.jclinepi.2025.111746</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Canada&#8217;s Drug Agency (CDA-AMC)</RefAuthor>
        <RefTitle>Development of an Evaluation Instrument on Artificial Intelligence Search Tools for Evidence Synthesis</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Canadian Journal of Health Technologies</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Canada&#8217;s Drug Agency (CDA-AMC). Development of an Evaluation Instrument on Artificial Intelligence Search Tools for Evidence Synthesis. Canadian Journal of Health Technologies. 2024;4(10). DOI: 10.51731&#47;cjht.2024.1004</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.51731&#47;cjht.2024.1004</RefLink>
      </Reference>
      <Reference refNo="6">
        <RefAuthor>Clark JM</RefAuthor>
        <RefAuthor>Sanders S</RefAuthor>
        <RefAuthor>Carter M</RefAuthor>
        <RefAuthor>Honeyman D</RefAuthor>
        <RefAuthor>Cleo G</RefAuthor>
        <RefAuthor>Auld Y</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Improving the translation of search strategies using the Polyglot Search Translator: a randomized controlled trial</RefTitle>
        <RefYear>2020</RefYear>
        <RefJournal>J Med Libr Assoc</RefJournal>
        <RefPage>195-207</RefPage>
        <RefTotal>Clark JM, Sanders S, Carter M, Honeyman D, Cleo G, Auld Y, et al. Improving the translation of search strategies using the Polyglot Search Translator: a randomized controlled trial. J Med Libr Assoc. 2020;108(2):195-207. DOI: 10.5195&#47;jmla.2020.834</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.5195&#47;jmla.2020.834</RefLink>
      </Reference>
      <Reference refNo="7">
        <RefAuthor>Kapp C</RefAuthor>
        <RefAuthor>Fujita-Rohwerder N</RefAuthor>
        <RefAuthor>Lilienthal J</RefAuthor>
        <RefAuthor>Sieben W</RefAuthor>
        <RefAuthor>Waffenschmidt S</RefAuthor>
        <RefAuthor>Hausner E</RefAuthor>
        <RefTitle>The searchbuildR shiny app: A new implementation of the objective approach for search strategy development in systematic reviews</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Cochrane Evid Synth Methods</RefJournal>
        <RefPage>e12078</RefPage>
        <RefTotal>Kapp C, Fujita-Rohwerder N, Lilienthal J, Sieben W, Waffenschmidt S, Hausner E. The searchbuildR shiny app: A new implementation of the objective approach for search strategy development in systematic reviews. Cochrane Evid Synth Methods. 2024 Jun;2(6):e12078. DOI: 10.1002&#47;cesm.12078</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;cesm.12078</RefLink>
      </Reference>
      <Reference refNo="8">
        <RefAuthor>Warner L</RefAuthor>
        <RefTitle>DEFINING AI: A Lexicon for Librarians and Their Patrons</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Computers in Libraries</RefJournal>
        <RefPage>16-8</RefPage>
        <RefTotal>Warner L. DEFINING AI: A Lexicon for Librarians and Their Patrons. Computers in Libraries. 2025;45(1):16-8.</RefTotal>
      </Reference>
      <Reference refNo="9">
        <RefAuthor>Meenn</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Differences between LLM, Deep learning, Machine learning, and AI</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Meenn. Differences between LLM, Deep learning, Machine learning, and AI. Medium; 2024 Sep 30. Available from: https:&#47;&#47;medium.com&#47;&#64;meenn396&#47;differences-between-llm-deep-learning-machine-learning-and-ai-3c7eb1c87ef8</RefTotal>
        <RefLink>https:&#47;&#47;medium.com&#47;&#64;meenn396&#47;differences-between-llm-deep-learning-machine-learning-and-ai-3c7eb1c87ef8</RefLink>
      </Reference>
      <Reference refNo="10">
        <RefAuthor>Thomas J</RefAuthor>
        <RefAuthor>Flemyng E</RefAuthor>
        <RefAuthor>Noel-Storr A</RefAuthor>
        <RefAuthor>Moy W</RefAuthor>
        <RefAuthor>Marshall IJ</RefAuthor>
        <RefAuthor>Hajji R</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE) 2: building and evaluating AI evidence synthesis tools</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE) 2: building and evaluating AI evidence synthesis tools. 2025 Jun 3. Available from: https:&#47;&#47;osf.io&#47;fwaud&#47;</RefTotal>
        <RefLink>https:&#47;&#47;osf.io&#47;fwaud&#47;</RefLink>
      </Reference>
      <Reference refNo="11">
        <RefAuthor>Ayyamperumal SG</RefAuthor>
        <RefAuthor>Ge L</RefAuthor>
        <RefTitle>Current state of LLM Risks and AI Guardrails</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>arXiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Ayyamperumal SG, Ge L. Current state of LLM Risks and AI Guardrails. arXiv. 2024 Jun 14. 
DOI: 10.48550&#47;arXiv.2406.12934</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.48550&#47;arXiv.2406.12934</RefLink>
      </Reference>
      <Reference refNo="12">
        <RefAuthor>Siebert J</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Halluzinationen von generativer KI und gro&#223;en Sprachmodellen (LLMs)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Siebert J. Halluzinationen von generativer KI und gro&#223;en Sprachmodellen (LLMs). Fraunhofer-Institut f&#252;r Experimentelles Software Engineering IESE; 2024. Available from: https:&#47;&#47;www.iese.fraunhofer.de&#47;blog&#47;halluzinationen-generative-ki-llm&#47;</RefTotal>
        <RefLink>https:&#47;&#47;www.iese.fraunhofer.de&#47;blog&#47;halluzinationen-generative-ki-llm&#47;</RefLink>
      </Reference>
      <Reference refNo="13">
        <RefAuthor>Jegham N</RefAuthor>
        <RefAuthor>Abdelatti M</RefAuthor>
        <RefAuthor>Koh CY</RefAuthor>
        <RefAuthor>Elmoubarki L</RefAuthor>
        <RefAuthor>Hendawi A</RefAuthor>
        <RefTitle>How hungry is AI&#63; Benchmarking energy, water, and carbon footprint of LLM inference &#91;Preprint&#93;</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>arXiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Jegham N, Abdelatti M, Koh CY, Elmoubarki L, Hendawi A. How hungry is AI&#63; Benchmarking energy, water, and carbon footprint of LLM inference &#91;Preprint&#93;. arXiv. 2025. 
DOI: 10.48550&#47;arXiv.2505.09598</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.48550&#47;arXiv.2505.09598</RefLink>
      </Reference>
      <Reference refNo="14">
        <RefAuthor>Emberson L</RefAuthor>
        <RefAuthor>Rahman R</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>The power required to train frontier AI models is doubling annually</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Emberson L, Rahman R. The power required to train frontier AI models is doubling annually. Available from: https:&#47;&#47;epoch.ai&#47;data-insights&#47;power-usage-trend</RefTotal>
        <RefLink>https:&#47;&#47;epoch.ai&#47;data-insights&#47;power-usage-trend</RefLink>
      </Reference>
      <Reference refNo="15">
        <RefAuthor>Berthelot A</RefAuthor>
        <RefAuthor>Caron E</RefAuthor>
        <RefAuthor>Jay M</RefAuthor>
        <RefAuthor>Lef&#232;vre L</RefAuthor>
        <RefTitle>Estimating the environmental impact of Generative-AI services using an LCA-based methodology</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Procedia CIRP</RefJournal>
        <RefPage>707-12</RefPage>
        <RefTotal>Berthelot A, Caron E, Jay M, Lef&#232;vre L. Estimating the environmental impact of Generative-AI services using an LCA-based methodology. Procedia CIRP. 2024;122:707-12. 
DOI: 10.1016&#47;j.procir.2024.01.098</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.procir.2024.01.098</RefLink>
      </Reference>
      <Reference refNo="16">
        <RefAuthor>Adam G</RefAuthor>
        <RefAuthor>Davies M</RefAuthor>
        <RefAuthor>George J</RefAuthor>
        <RefAuthor>Caputo EL</RefAuthor>
        <RefAuthor>Htun JM</RefAuthor>
        <RefAuthor>Coppola E</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Machine Learning Tools To (Semi-)Automate Evidence Synthesis: A Rapid Review and Evidence Map</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Adam G, Davies M, George J, Caputo EL, Htun JM, Coppola E, et al. Machine Learning Tools To (Semi-)Automate Evidence Synthesis: A Rapid Review and Evidence Map. Available from: https:&#47;&#47;effectivehealthcare.ahrq.gov&#47;products&#47;machine-learning-tools&#47;white-paper</RefTotal>
        <RefLink>https:&#47;&#47;effectivehealthcare.ahrq.gov&#47;products&#47;machine-learning-tools&#47;white-paper</RefLink>
      </Reference>
      <Reference refNo="17">
        <RefAuthor>Clark J</RefAuthor>
        <RefAuthor>Barton B</RefAuthor>
        <RefAuthor>Albarqouni L</RefAuthor>
        <RefAuthor>Byambasuren O</RefAuthor>
        <RefAuthor>Jowsey T</RefAuthor>
        <RefAuthor>Keogh J</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Generative artificial intelligence use in evidence synthesis: A systematic review</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Research Synthesis Methods</RefJournal>
        <RefPage>601-19</RefPage>
        <RefTotal>Clark J, Barton B, Albarqouni L, Byambasuren O, Jowsey T, Keogh J, et al. Generative artificial intelligence use in evidence synthesis: A systematic review. Research Synthesis Methods. 2025;16(4):601-19. DOI: 10.1017&#47;rsm.2025.16</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1017&#47;rsm.2025.16</RefLink>
      </Reference>
      <Reference refNo="18">
        <RefAuthor>Musleh A</RefAuthor>
        <RefAuthor>Alryalat SA</RefAuthor>
        <RefTitle>Artificial Intelligence and Large Language Model Powered Literature Review Services</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>High Yield Medical Reviews</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Musleh A, Alryalat SA. Artificial Intelligence and Large Language Model Powered Literature Review Services. High Yield Medical Reviews. 2025;3(1). DOI: 10.59707&#47;hymrPSEY7778</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.59707&#47;hymrPSEY7778</RefLink>
      </Reference>
      <Reference refNo="19">
        <RefAuthor>Shokraneh F</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Living Evidence Map for Automation of Systematic Reviews (LEMASyR)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Shokraneh F. Living Evidence Map for Automation of Systematic Reviews (LEMASyR). Available from: https:&#47;&#47;nested-knowledge.com&#47;nest&#47;21035</RefTotal>
        <RefLink>https:&#47;&#47;nested-knowledge.com&#47;nest&#47;21035</RefLink>
      </Reference>
      <Reference refNo="20">
        <RefAuthor>De Cassai A</RefAuthor>
        <RefAuthor>Dost B</RefAuthor>
        <RefAuthor>Karapinar YE</RefAuthor>
        <RefAuthor>Beldagli M</RefAuthor>
        <RefAuthor>Yalin MSO</RefAuthor>
        <RefAuthor>Turunc E</RefAuthor>
        <RefAuthor>Turan EI</RefAuthor>
        <RefAuthor>Sella N</RefAuthor>
        <RefTitle>Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Reg Anesth Pain Med</RefJournal>
        <RefPage>rapm-2024-106231</RefPage>
        <RefTotal>De Cassai A, Dost B, Karapinar YE, Beldagli M, Yalin MSO, Turunc E, Turan EI, Sella N. Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals. Reg Anesth Pain Med. 2025 Jan:rapm-2024-106231. 
DOI: 10.1136&#47;rapm-2024-106231</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1136&#47;rapm-2024-106231</RefLink>
      </Reference>
      <Reference refNo="21">
        <RefAuthor>Wang S</RefAuthor>
        <RefAuthor>Scells H</RefAuthor>
        <RefAuthor>Koopman B</RefAuthor>
        <RefAuthor>Zuccon G</RefAuthor>
        <RefTitle>Reassessing Large Language Model Boolean Query Generation for Systematic Reviews &#91;Preprint&#93;</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>arXiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Wang S, Scells H, Koopman B, Zuccon G. Reassessing Large Language Model Boolean Query Generation for Systematic Reviews &#91;Preprint&#93;. arXiv. 2025. 
DOI: 10.48550&#47;arXiv.2505.07155</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.48550&#47;arXiv.2505.07155</RefLink>
      </Reference>
      <Reference refNo="22">
        <RefAuthor>Wang S</RefAuthor>
        <RefAuthor>Scells H</RefAuthor>
        <RefAuthor>Koopman B</RefAuthor>
        <RefAuthor>Zuccon G</RefAuthor>
        <RefTitle>Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search&#63;</RefTitle>
        <RefYear>2023</RefYear>
        <RefBookTitle>Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval; 2023 Jul 23-27; Taipei, Taiwan</RefBookTitle>
        <RefPage>1426-36</RefPage>
        <RefTotal>Wang S, Scells H, Koopman B, Zuccon G. Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search&#63; In: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval; 2023 Jul 23-27; Taipei, Taiwan. Association for Computing Machinery; 2023. p. 1426-36. DOI: 10.1145&#47;3539618.3591703</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1145&#47;3539618.3591703</RefLink>
      </Reference>
      <Reference refNo="23">
        <RefAuthor>Adam GP</RefAuthor>
        <RefAuthor>DeYoung J</RefAuthor>
        <RefAuthor>Paul A</RefAuthor>
        <RefAuthor>Saldanha IJ</RefAuthor>
        <RefAuthor>Balk EM</RefAuthor>
        <RefAuthor>Trikalinos TA</RefAuthor>
        <RefAuthor>Wallace BC</RefAuthor>
        <RefTitle>Literature search sandbox: a large language model that generates search queries for systematic reviews</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>JAMIA Open</RefJournal>
        <RefPage>ooae098</RefPage>
        <RefTotal>Adam GP, DeYoung J, Paul A, Saldanha IJ, Balk EM, Trikalinos TA, Wallace BC. Literature search sandbox: a large language model that generates search queries for systematic reviews. JAMIA Open. 2024 Oct;7(3):ooae098. 
DOI: 10.1093&#47;jamiaopen&#47;ooae098</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1093&#47;jamiaopen&#47;ooae098</RefLink>
      </Reference>
      <Reference refNo="24">
        <RefAuthor>Chen XS</RefAuthor>
        <RefAuthor>Feng Y</RefAuthor>
        <RefTitle>Exploring the use of generative artificial intelligence in systematic searching: A comparative case study of a human librarian, ChatGPT-4 and ChatGPT-4 Turbo</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>IFLA Journal</RefJournal>
        <RefPage>03400352241263532</RefPage>
        <RefTotal>Chen XS, Feng Y. Exploring the use of generative artificial intelligence in systematic searching: A comparative case study of a human librarian, ChatGPT-4 and ChatGPT-4 Turbo. IFLA Journal. 2024;51(1):03400352241263532. 
DOI: 10.1177&#47;03400352241263532</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1177&#47;03400352241263532</RefLink>
      </Reference>
      <Reference refNo="25">
        <RefAuthor>Gosak L</RefAuthor>
        <RefAuthor>&#352;tiglic G</RefAuthor>
        <RefAuthor>Pruinelli L</RefAuthor>
        <RefAuthor>Vrbnjak D</RefAuthor>
        <RefTitle>PICOT questions and search strategies formulation: A novel approach using artificial intelligence automation</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>J Nurs Scholarsh</RefJournal>
        <RefPage>5-16</RefPage>
        <RefTotal>Gosak L, &#352;tiglic G, Pruinelli L, Vrbnjak D. PICOT questions and search strategies formulation: A novel approach using artificial intelligence automation. J Nurs Scholarsh. 2025 Jan;57(1):5-16. DOI: 10.1111&#47;jnu.13036</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1111&#47;jnu.13036</RefLink>
      </Reference>
      <Reference refNo="26">
        <RefAuthor>Reed RB</RefAuthor>
        <RefAuthor>Barnett DJ</RefAuthor>
        <RefTitle>Assessing the Quality of Biomedical Boolean Search Strings Generated by Prompted and Unprompted Models Using ChatGPT: A Pilot Study</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Med Ref Serv Q</RefJournal>
        <RefPage>31-40</RefPage>
        <RefTotal>Reed RB, Barnett DJ. Assessing the Quality of Biomedical Boolean Search Strings Generated by Prompted and Unprompted Models Using ChatGPT: A Pilot Study. Med Ref Serv Q. 2025;44(1):31-40. DOI: 10.1080&#47;02763869.2024.2440848</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;02763869.2024.2440848</RefLink>
      </Reference>
      <Reference refNo="27">
        <RefAuthor>Staudinger M</RefAuthor>
        <RefAuthor>Kusa W</RefAuthor>
        <RefAuthor>Piroi F</RefAuthor>
        <RefAuthor>Lipani A</RefAuthor>
        <RefAuthor>Hanbury A</RefAuthor>
        <RefAuthor>editors</RefAuthor>
        <RefTitle>A Reproducibility and Generalizability Study of Large Language Models for Query Generation &#91;Preprint&#93;</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>arXiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Staudinger M, Kusa W, Piroi F, Lipani A, Hanbury A, editors. A Reproducibility and Generalizability Study of Large Language Models for Query Generation &#91;Preprint&#93;. arXiv. 2024. 
DOI: 10.48550&#47;arXiv.2411.14914</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.48550&#47;arXiv.2411.14914</RefLink>
      </Reference>
      <Reference refNo="28">
        <RefAuthor>Budau L</RefAuthor>
        <RefAuthor>Ensan F</RefAuthor>
        <RefTitle>Fully Automated Scholarly Search for Biomedical Systematic Literature Reviews</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>IEEE Access</RefJournal>
        <RefPage>83764-73</RefPage>
        <RefTotal>Budau L, Ensan F. Fully Automated Scholarly Search for Biomedical Systematic Literature Reviews. IEEE Access. 2024;12:83764-73. DOI: 10.1109&#47;access.2024.3405529</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1109&#47;access.2024.3405529</RefLink>
      </Reference>
      <Reference refNo="29">
        <RefAuthor>Bourgeois JP</RefAuthor>
        <RefAuthor>Ellingson H</RefAuthor>
        <RefTitle>Ability of ChatGPT to Generate Systematic Review Search Strategies Compared to a Published Search Strategy</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Med Ref Serv Q</RefJournal>
        <RefPage>279-291</RefPage>
        <RefTotal>Bourgeois JP, Ellingson H. Ability of ChatGPT to Generate Systematic Review Search Strategies Compared to a Published Search Strategy. Med Ref Serv Q. 2025;44(3):279-291. 
DOI: 10.1080&#47;02763869.2025.2537075</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1080&#47;02763869.2025.2537075</RefLink>
      </Reference>
      <Reference refNo="30">
        <RefAuthor>Boyle A</RefAuthor>
        <RefAuthor>Huo B</RefAuthor>
        <RefAuthor>Sylla P</RefAuthor>
        <RefAuthor>Calabrese E</RefAuthor>
        <RefAuthor>Kumar S</RefAuthor>
        <RefAuthor>Slater BJ</RefAuthor>
        <RefAuthor>Walsh DS</RefAuthor>
        <RefAuthor>Vosburg RW</RefAuthor>
        <RefTitle>Large language model-generated clinical practice guideline for appendicitis</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Surg Endosc</RefJournal>
        <RefPage>3539-3551</RefPage>
        <RefTotal>Boyle A, Huo B, Sylla P, Calabrese E, Kumar S, Slater BJ, Walsh DS, Vosburg RW. Large language model-generated clinical practice guideline for appendicitis. Surg Endosc. 2025 Jun;39(6):3539-3551. DOI: 10.1007&#47;s00464-025-11723-3</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1007&#47;s00464-025-11723-3</RefLink>
      </Reference>
      <Reference refNo="31">
        <RefAuthor>Pourreza M</RefAuthor>
        <RefAuthor>Ensan F</RefAuthor>
        <RefTitle>Towards semantic-driven boolean query formalization for biomedical systematic literature reviews</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>Int J Med Inform</RefJournal>
        <RefPage>104928</RefPage>
        <RefTotal>Pourreza M, Ensan F. Towards semantic-driven boolean query formalization for biomedical systematic literature reviews. Int J Med Inform. 2023 Feb;170:104928. 
DOI: 10.1016&#47;j.ijmedinf.2022.104928</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.ijmedinf.2022.104928</RefLink>
      </Reference>
      <Reference refNo="32">
        <RefAuthor>Featherstone R</RefAuthor>
        <RefAuthor>Walter M</RefAuthor>
        <RefAuthor>MacDougall D</RefAuthor>
        <RefAuthor>Morenz E</RefAuthor>
        <RefAuthor>Bailey S</RefAuthor>
        <RefAuthor>Butcher R</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>A Comparative Analysis of Artificial Intelligence Search Tools for Evidence Synthesis &#91;Preprint&#93;</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Authorea</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Featherstone R, Walter M, MacDougall D, Morenz E, Bailey S, Butcher R, et al. A Comparative Analysis of Artificial Intelligence Search Tools for Evidence Synthesis &#91;Preprint&#93;. Authorea. 2025. DOI: 10.22541&#47;au.174897559.99564896&#47;v1</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.22541&#47;au.174897559.99564896&#47;v1</RefLink>
      </Reference>
      <Reference refNo="33">
        <RefAuthor>Chelli M</RefAuthor>
        <RefAuthor>Descamps J</RefAuthor>
        <RefAuthor>Lavou&#233; V</RefAuthor>
        <RefAuthor>Trojani C</RefAuthor>
        <RefAuthor>Azar M</RefAuthor>
        <RefAuthor>Deckert M</RefAuthor>
        <RefAuthor>Raynier JL</RefAuthor>
        <RefAuthor>Clowez G</RefAuthor>
        <RefAuthor>Boileau P</RefAuthor>
        <RefAuthor>Ruetsch-Chelli C</RefAuthor>
        <RefTitle>Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>J Med Internet Res</RefJournal>
        <RefPage>e53164</RefPage>
        <RefTotal>Chelli M, Descamps J, Lavou&#233; V, Trojani C, Azar M, Deckert M, Raynier JL, Clowez G, Boileau P, Ruetsch-Chelli C. Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis. J Med Internet Res. 2024 May;26:e53164. DOI: 10.2196&#47;53164</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.2196&#47;53164</RefLink>
      </Reference>
      <Reference refNo="34">
        <RefAuthor>Gwon YN</RefAuthor>
        <RefAuthor>Kim JH</RefAuthor>
        <RefAuthor>Chung HS</RefAuthor>
        <RefAuthor>Jung EJ</RefAuthor>
        <RefAuthor>Chun J</RefAuthor>
        <RefAuthor>Lee S</RefAuthor>
        <RefAuthor>Shim SR</RefAuthor>
        <RefTitle>The Use of Generative AI for Scientific Literature Searches for Systematic Reviews: ChatGPT and Microsoft Bing AI Performance Evaluation</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>JMIR Med Inform</RefJournal>
        <RefPage>e51187</RefPage>
        <RefTotal>Gwon YN, Kim JH, Chung HS, Jung EJ, Chun J, Lee S, Shim SR. The Use of Generative AI for Scientific Literature Searches for Systematic Reviews: ChatGPT and Microsoft Bing AI Performance Evaluation. JMIR Med Inform. 2024 May;12:e51187. 
DOI: 10.2196&#47;51187</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.2196&#47;51187</RefLink>
      </Reference>
      <Reference refNo="35">
        <RefAuthor>Sanii RY</RefAuthor>
        <RefAuthor>Kasto JK</RefAuthor>
        <RefAuthor>Wines WB</RefAuthor>
        <RefAuthor>Mahylis JM</RefAuthor>
        <RefAuthor>Muh SJ</RefAuthor>
        <RefTitle>Utility of Artificial Intelligence in Orthopedic Surgery Literature Review: A Comparative Pilot Study</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Orthopedics</RefJournal>
        <RefPage>e125-e130</RefPage>
        <RefTotal>Sanii RY, Kasto JK, Wines WB, Mahylis JM, Muh SJ. Utility of Artificial Intelligence in Orthopedic Surgery Literature Review: A Comparative Pilot Study. Orthopedics. 2024;47(3):e125-e130. DOI: 10.3928&#47;01477447-20231220-02</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3928&#47;01477447-20231220-02</RefLink>
      </Reference>
      <Reference refNo="36">
        <RefAuthor>Seth I</RefAuthor>
        <RefAuthor>Lim B</RefAuthor>
        <RefAuthor>Xie Y</RefAuthor>
        <RefAuthor>Ross RJ</RefAuthor>
        <RefAuthor>Cuomo R</RefAuthor>
        <RefAuthor>Rozen WM</RefAuthor>
        <RefTitle>Artificial intelligence versus human researcher performance for systematic literature searches: a study focusing on the surgical management of base of thumb arthritis</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Plastic and Aesthetic Research</RefJournal>
        <RefPage>1</RefPage>
        <RefTotal>Seth I, Lim B, Xie Y, Ross RJ, Cuomo R, Rozen WM. Artificial intelligence versus human researcher performance for systematic literature searches: a study focusing on the surgical management of base of thumb arthritis. Plastic and Aesthetic Research. 2025;12:1.</RefTotal>
      </Reference>
      <Reference refNo="37">
        <RefAuthor>Bernard N</RefAuthor>
        <RefAuthor>Sagawa Y Jr</RefAuthor>
        <RefAuthor>Bier N</RefAuthor>
        <RefAuthor>Lihoreau T</RefAuthor>
        <RefAuthor>Pazart L</RefAuthor>
        <RefAuthor>Tannou T</RefAuthor>
        <RefTitle>Using artificial intelligence for systematic review: the example of elicit</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>BMC Med Res Methodol</RefJournal>
        <RefPage>75</RefPage>
        <RefTotal>Bernard N, Sagawa Y Jr, Bier N, Lihoreau T, Pazart L, Tannou T. Using artificial intelligence for systematic review: the example of elicit. BMC Med Res Methodol. 2025 Mar;25(1):75. 
DOI: 10.1186&#47;s12874-025-02528-y</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12874-025-02528-y</RefLink>
      </Reference>
      <Reference refNo="38">
        <RefAuthor>Lau O</RefAuthor>
        <RefAuthor>Golder S</RefAuthor>
        <RefTitle>Comparison of Elicit AI and Traditional Literature Searching in Evidence Syntheses Using Four Case Studies</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Cochrane Evid Synth Methods</RefJournal>
        <RefPage>e70050</RefPage>
        <RefTotal>Lau O, Golder S. Comparison of Elicit AI and Traditional Literature Searching in Evidence Syntheses Using Four Case Studies. Cochrane Evid Synth Methods. 2025 Nov;3(6):e70050. 
DOI: 10.1002&#47;cesm.70050</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1002&#47;cesm.70050</RefLink>
      </Reference>
      <Reference refNo="39">
        <RefAuthor>Tosi D</RefAuthor>
        <RefTitle>Comparing Generative AI Literature Reviews Versus Human-Led Systematic Literature Reviews: A Case Study on Big Data Research</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>IEEE Access</RefJournal>
        <RefPage>56210-9</RefPage>
        <RefTotal>Tosi D. Comparing Generative AI Literature Reviews Versus Human-Led Systematic Literature Reviews: A Case Study on Big Data Research. IEEE Access. 2025;13:56210-9. 
DOI: 10.1109&#47;access.2025.3554504</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1109&#47;access.2025.3554504</RefLink>
      </Reference>
      <Reference refNo="40">
        <RefAuthor>The JBI Information Science Methodology Group</RefAuthor>
        <RefAuthor>Ross-White A</RefAuthor>
        <RefAuthor>Lieggi M</RefAuthor>
        <RefAuthor>Palacio FGL</RefAuthor>
        <RefAuthor>Solomons T</RefAuthor>
        <RefAuthor>Swab M</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>2.4 Search Methodology for JBI Evidence Syntheses</RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>JBI Manual for Evidence Synthesis</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>The JBI Information Science Methodology Group, Ross-White A, Lieggi M, Palacio FGL, Solomons T, Swab M, et al. 2.4 Search Methodology for JBI Evidence Syntheses. In: JBI Manual for Evidence Synthesis. 2024. DOI: 10.46658&#47;JBIMES-24-01</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.46658&#47;JBIMES-24-01</RefLink>
      </Reference>
      <Reference refNo="41">
        <RefAuthor>European network for Health Technology Assessment (EUnetHTA)</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2020</RefYear>
        <RefBookTitle>Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>European network for Health Technology Assessment (EUnetHTA). Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness. Version 2.0. 2020.</RefTotal>
      </Reference>
      <Reference refNo="42">
        <RefAuthor>Hill J</RefAuthor>
        <RefAuthor>Brini S</RefAuthor>
        <RefAuthor>Morrison K</RefAuthor>
        <RefAuthor>Tran A</RefAuthor>
        <RefAuthor>Towson G</RefAuthor>
        <RefTitle>Can artificial intelligence perform accurate peer review of literature search strategies&#63; A proof of concept study</RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Global Evidence Summit; 2024 September 10-13; Prague, Czech Republic</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Hill J, Brini S, Morrison K, Tran A, Towson G. Can artificial intelligence perform accurate peer review of literature search strategies&#63; A proof of concept study. In: Global Evidence Summit; 2024 September 10-13; Prague, Czech Republic. Cochrane; 2024.</RefTotal>
      </Reference>
      <Reference refNo="43">
        <RefAuthor>Gitman V</RefAuthor>
        <RefAuthor>Maxwell C</RefAuthor>
        <RefAuthor>Gamble JM</RefAuthor>
        <RefTitle>Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Comput Biol Med</RefJournal>
        <RefPage>110464</RefPage>
        <RefTotal>Gitman V, Maxwell C, Gamble JM. Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation. Comput Biol Med. 2025 Jul;193:110464. 
DOI: 10.1016&#47;j.compbiomed.2025.110464</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1016&#47;j.compbiomed.2025.110464</RefLink>
      </Reference>
      <Reference refNo="44">
        <RefAuthor>Cao C</RefAuthor>
        <RefAuthor>Arora R</RefAuthor>
        <RefAuthor>Cento P</RefAuthor>
        <RefAuthor>Manta K</RefAuthor>
        <RefAuthor>Farahani E</RefAuthor>
        <RefAuthor>Cecere M</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Automation of Systematic Reviews with Large Language Models &#91;Preprint&#93;</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>medRxiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Cao C, Arora R, Cento P, Manta K, Farahani E, Cecere M, et al. Automation of Systematic Reviews with Large Language Models &#91;Preprint&#93;. medRxiv. 2025. DOI: 10.1101&#47;2025.06.13.25329541</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1101&#47;2025.06.13.25329541</RefLink>
      </Reference>
      <Reference refNo="45">
        <RefAuthor>Elicit</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Systematic Reviews in Elicit</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Elicit. Systematic Reviews in Elicit. &#91;Accessed 2025 Oct 26&#93;. Available from:  https:&#47;&#47;support.elicit.com&#47;en&#47;articles&#47;7927169</RefTotal>
        <RefLink>https:&#47;&#47;support.elicit.com&#47;en&#47;articles&#47;7927169</RefLink>
      </Reference>
      <Reference refNo="46">
        <RefAuthor>Fortier-Dubois &#201;</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>How we evaluated Elicit Systematic Review</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Fortier-Dubois &#201;. How we evaluated Elicit Systematic Review. Elicit; 2025 Mar 18. Available from: https:&#47;&#47;blog.elicit.com&#47;how-we-evaluated-elicit-systematic-review&#47;</RefTotal>
        <RefLink>https:&#47;&#47;blog.elicit.com&#47;how-we-evaluated-elicit-systematic-review&#47;</RefLink>
      </Reference>
      <Reference refNo="47">
        <RefAuthor>Thomas J</RefAuthor>
        <RefAuthor>Flemyng E</RefAuthor>
        <RefAuthor>Noel-Storr A</RefAuthor>
        <RefAuthor>Moy W</RefAuthor>
        <RefAuthor>Marshall IJ</RefAuthor>
        <RefAuthor>Hajji R</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE): guidance and recommendations. Version 2</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE): guidance and recommendations. Version 2. &#91;updated 2025 Jun 3&#93;. Available from: https:&#47;&#47;osf.io&#47;fwaud&#47;</RefTotal>
        <RefLink>https:&#47;&#47;osf.io&#47;fwaud&#47;</RefLink>
      </Reference>
      <Reference refNo="48">
        <RefAuthor>Thomas J</RefAuthor>
        <RefAuthor>Flemyng E</RefAuthor>
        <RefAuthor>Noel-Storr A</RefAuthor>
        <RefAuthor>Moy W</RefAuthor>
        <RefAuthor>Marshall IJ</RefAuthor>
        <RefAuthor>Hajji R</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE) 1: Recommendations for practice</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE) 1: Recommendations for practice. 2025 Jun 3. Available from: https:&#47;&#47;osf.io&#47;cqa82</RefTotal>
        <RefLink>https:&#47;&#47;osf.io&#47;cqa82</RefLink>
      </Reference>
      <Reference refNo="49">
        <RefAuthor>Thomas J</RefAuthor>
        <RefAuthor>Flemyng E</RefAuthor>
        <RefAuthor>Noel-Storr A</RefAuthor>
        <RefAuthor>Moy W</RefAuthor>
        <RefAuthor>Marshall IJ</RefAuthor>
        <RefAuthor>Hajji R</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle></RefTitle>
        <RefYear></RefYear>
        <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE): 3: selecting and using AI evidence synthesis tools. version 2</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE): 3: selecting and using AI evidence synthesis tools. version 2. &#91;updated 2025 Jun 3&#93;. Available from: https:&#47;&#47;osf.io&#47;fwaud&#47;files&#47;5xjpk</RefTotal>
        <RefLink>https:&#47;&#47;osf.io&#47;fwaud&#47;files&#47;5xjpk</RefLink>
      </Reference>
      <Reference refNo="50">
        <RefAuthor>Metzendorf MI</RefAuthor>
        <RefAuthor>Klerings I</RefAuthor>
        <RefTitle></RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>(How) can AI-based automation tools assist with systematic searching&#63; &#91;Webinar&#93;</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Metzendorf MI, Klerings I. (How) can AI-based automation tools assist with systematic searching&#63; &#91;Webinar&#93;. Cochrane; 2025. Available from: https:&#47;&#47;www.cochrane.org&#47;events&#47;how-can-ai-based-automation-tools-assist-systematic-searching</RefTotal>
        <RefLink>https:&#47;&#47;www.cochrane.org&#47;events&#47;how-can-ai-based-automation-tools-assist-systematic-searching</RefLink>
      </Reference>
      <Reference refNo="51">
        <RefAuthor>Klerings I</RefAuthor>
        <RefAuthor>Metzendorf MI</RefAuthor>
        <RefTitle>(Wie) kann KI bei der systematischen Literatursuche helfen&#63;</RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025</RefBookTitle>
        <RefPage>Doc25ebmWS-03-01</RefPage>
        <RefTotal>Klerings I, Metzendorf MI. (Wie) kann KI bei der systematischen Literatursuche helfen&#63;. In: Die EbM der Zukunft &#8211; packen wir&#8217;s an&#33; 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. D&#252;sseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmWS-03-01. 
DOI: 10.3205&#47;25ebm118</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;25ebm118</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>