Large Language Models in der systematischen Literaturrecherche

mbi000638 10.3205/mbi000638 urn:nbn:de:0183-mbi0006389 Fachbeitrag Large Language Models in der systematischen Literaturrecherche – eine Evidenzübersicht Uses for large language models in systematic literature searching – an overview of the evidence Klerings Klerings Irma I

Department für Evidenzbasierte Medizin und Evaluation, Universität für Weiterbildung Krems, Dr.-Karl-Dorrek-Straße 30, 3500 Krems, ÖsterreichDepartment für Evidenzbasierte Medizin und Evaluation, Universität für Weiterbildung Krems, Österreich

irma.klerings@donau-uni.ac.at author German Medical Science GMS Publishing House

Düsseldorf

610 artificial intelligence large language models systematic literature searching künstliche Intelligenz Large Language Models systematische Literaturrecherche AGMB-Jahrestagung in Linz 2025 20251219 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). 1865-066X 25 2 GMS Medizin - Bibliothek - Information GMS Med Bibl Inf AGMB-Jahrestagung in Linz 2025: Synergien schaffen: Informationswissenschaften und Medizin im Dialog 25 Hintergrund: Die Methodik systematische Literaturrecherche stellt hohe Anforderungen an Transparenz, Reproduzierbarkeit und Vollständigkeit von Literatursuchen. Die Einführung von Large Language Models (LLMs) wie ChatGPT hat der Automatisierung von Evidenzsynthese-Prozessen durch künstliche Intelligenz (KI) neuen Aufschwung gegeben. Allerdings sind Einschätzungen des Nutzens von LLMs für die systematische Suche heterogen. Diese narrative Übersichtsarbeit untersucht die aktuelle Evidenzlage zur Anwendung von LLM-Tools im Vergleich zu von Menschen durchgeführten systematischen Suchen (Stand: August 2025).Ergebnisse: Die Studienlage konzentriert sich auf zwei Anwendungsber</PlainText></TextGroup>eiche: Erstellung boolescher Suchstrategien durch LLMs und Generierung von umfassenden Literaturlisten mit KI-gestützten Rechercheplattformen (Elicit, Consensus). In beiden Fällen erzielten KI-Tools unzureichende Recall-Raten im Vergleich zu klassischen systematischen Suchmethoden. Allerdings konnten KI-gestützte Such-Plattformen zusätzliche Studien identifizieren, die von Booleschen Suchstrategien nicht gefunden wurden. Wenige Studien untersuchten die Verwendung von LLMs zur Fehlererkennung in Datenbank-Suchstrategien. KI war in der Lage Fehler zu finden, allerdings gab es Probleme bei der Erstellung von verbesserten Suchstrategien.</Pgraph><Pgraph><Mark1>Schlussfolgerung:</Mark1> Basierend auf den verfügbaren Evaluationen, sollten KI-gestützte Methoden höchstens komplementär zu etablierten Methoden der systematischen Literaturrecherche angewandt werden. Allein erreichen sie weder den notwendigen hohen Recall, noch sind ihre Ergebnisse reproduzierbar. Die Evidenzlage weist allerdings auch erhebliche Lücken auf. Unabhängige Evaluationen und die kritische Bewertung von KI-Tools durch Anwender*innen bleiben essenziell.</Pgraph></Abstract> <Abstract language="en" linked="yes"><Pgraph><Mark1>Background:</Mark1> The methodology of systematic literature searching requires that the information retrieval process has a high recall and is as transparent and reproducible as possible. The introduction of large language models (LLMs) such as ChatGPT raised the expectations for automation of evidence synthesis processes through artificial intelligence (AI). However, assessments of the usefulness of LLMs for systematic searching are heterogeneous. This narrative review examines the current evidence on the use of LLM tools compared to systematic searches performed by humans (as of August 2025).</Pgraph><Pgraph><Mark1>Results:</Mark1> The majority of studies focus on two areas of application: the creation of Boolean search strategies by LLMs and the generation of comprehensive literature lists using AI-supported search platforms (Elicit, Consensus). In both cases, AI tools achieved insufficient recall rates compared to traditional systematic search methods. However, AI-supported search platforms were able to identify additional studies that were not found by Boolean search strategies. Few studies investigated the use of LLMs for error detection in database search strategies. AI was able to find errors, but there were problems in creating improved search strategies.</Pgraph><Pgraph><Mark1>Conclusion:</Mark1> Based on the available evidence, AI-supported methods should at most be used to complement established methods of systematic literature research. On their own, they neither achieve the necessary high recall nor are their results reproducible. However, there are also significant gaps in the evidence. Independent evaluations and critical assessment of AI tools by users remain essential.</Pgraph></Abstract> <TextBlock name="Einleitung" linked="yes"> <MainHeadline>Einleitung</MainHeadline><Pgraph>Die systematische Literaturrecherche bildet eine methodische Grundlage für alle Arten von systematischen Evidenzsynthesen (z.B. Systematic Reviews, Rapid Reviews, Evidence Maps). Im Gegensatz zu anderen Literatursuche-Prozessen stellt sie hohe Anforderungen an Transparenz, Reproduzierbarkeit und Vollständigkeit des Rechercheprozesses <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Während Automatisierungs-Ansätze für die Erstellung von Evidenzsynthesen seit langem untersucht und entwickelt werden <TextLink reference="3"></TextLink>, hat die Verfügbarkeit von Large Language Models (LLMs) wie ChatGPT, Claude oder Gemini dem Thema neuen Aufschwung gegeben: Neue Tools und eine steigende Anzahl von Publikationen über diese Tools versprechen, dass künstliche Intelligenz (KI) den langwierigen Evidenzsynthesen-Prozess schneller und einfacher macht. </Pgraph><Pgraph>Allerdings scheinen nicht alle Bereiche dieses Prozesses in gleichem Maße für LLM-Anwendungen geeignet. Ein Scoping Review <TextLink reference="4"></TextLink> mit Literatur bis Anfang 2024 identifizierte zahlreiche Publikationen zur LLM-Anwendung bei der Erstellung von Evidenzsynthesen. In der Übersicht zeigte sich, dass Studienautor*innen den Nutzen von LLMs für Literaturscreening und Datenextraktion als überwiegend vielversprechend oder schlimmstenfalls neutral sahen. In anderen Bereichen, wie Risk of Bias Bewertung und Literatursuche, gab es keinen einheitli<TextGroup><PlainText>c</PlainText></TextGroup>hen Trend: Manche Studien bewerteten LLM-Nutzung als vielversprechend, andere als neutral, aber – insbesondere bei der Literatursuche – gab es auch viele negative Bewertungen. </Pgraph><Pgraph>Dieses breite Spektrum an Einschätzungen stellt alle, die systematische Literatursuchen erstellen, vor ein praktisches Problem: Gibt es unter den vielen verfügbaren KI-Tools und Methoden, solche, die für den Suchprozess tatsächlich nützlich sind? Und wenn ja, welche? </Pgraph><Pgraph>Der vorliegende Beitrag untersucht den aktuellen Evidenzstand zur KI-gestützten Literatursuche und versucht folgende Fragen zu beantworten: </Pgraph><Pgraph><OrderedList><ListItem level="1" levelPosition="1" numString="1.">Gibt es Studien, die die Verwendung von KI (besonders LLMs) im systematischen Suchprozess im Vergleich zu etablierten Methoden evaluieren?</ListItem><ListItem level="1" levelPosition="2" numString="2.">Lassen sich daraus Empfehlungen für das praktische Vorgehen bei der systematischen Suche ableiten?</ListItem></OrderedList></Pgraph></TextBlock> <TextBlock name="Kontext" linked="yes"> <MainHeadline>Kontext</MainHeadline><Pgraph>Um diese Fragen zu beantworten, müssen zuerst einige Grundlagen geklärt werden: der Aufbau und die Anforderungen der systematischen Literaturrecherche, und die Art von KI, um die es im Weiteren geht. </Pgraph><SubHeadline>Systematische Literatursuche: Anforderungen und Prozess</SubHeadline><Pgraph>Systematische Literatursuchen zielen auf die Identifikati<TextGroup><PlainText>o</PlainText></TextGroup>n möglichst aller relevanten Studien zu einer Fragestellung ab, der Prozess priorisiert also die größtmögliche Vollständigkeit des Suchergebnisses (hoher Recall). Zudem muss der Prozess transparent dokumentiert und so reproduzierbar wie möglich sein. Diese drei Elemente, Vollständigkeit, Transparenz und Reproduzierbarkeit haben das Ziel, eine Verzerrung der Ergebnisse der Evidenzsynthese aufgrund der verwendeten Literatur zu minimieren. </Pgraph><Pgraph>Der systematische Suchprozess umfasst typischerweise die folgenden Schritte:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Scoping/Explorative Suchen: Überblick über die Fragestellung und relevante Literatur, Identifikation von relevanten „seed citations“ für weitere Suchschritte, Identifikation von relevanten Informationsquellen (Datenbanken, Journals, Organisationen, etc.) für die weitere Suche,</ListItem><ListItem level="1">Entwicklung der primären Datenbank-Suchstrategie: Konzeptidentifikation, Textwörter, kontrolliertes Vokabular,</ListItem><ListItem level="1">Übersetzung der Suchstrategie auf andere Datenbanken/Suchoberflächen,</ListItem><ListItem level="1">Peer-Review der Suchstrategien,</ListItem><ListItem level="1">Durchführung der Datenbank-Suchen und Export der Suchergebnisse,</ListItem><ListItem level="1">Zusätzliche Suchmethoden: z.B. Citation Searching, Handsuche, Websuche,</ListItem><ListItem level="1">Transparente Dokumentation aller Schritte des Suchprozesses.</ListItem></UnorderedList></Pgraph><Pgraph>Diesem Prozess folgen die Deduplizierung aller Sucher<TextGroup><PlainText>g</PlainText></TextGroup>ebnisse und die systematische Literaturauswahl (Title/Abstract und Fulltext-Screening).</Pgraph><Pgraph>Für die Anwendung von KI-Tools bei der systematischen Literaturrecherche sind zwei Ansätze denkbar: Entweder werden einzelne Schritte des Prozesses mit KI unterstützt/ersetzt aber der Prozess selbst bleibt unverändert, oder der gesamte Prozess wird durch KI-Nutzung umgestaltet/ersetzt. </Pgraph><SubHeadline>Automatisierung, Künstliche Intelligenz, Large Language Models</SubHeadline><Pgraph>Künstliche Intelligenz (KI) kann definiert werden als Technologie, die Aufgaben ausführt, für die normalerweise biologische Intelligenz erforderlich wäre (z.B. das Verstehen gesprochener Sprache, das Erlernen von Verhaltensweisen oder das Lösen von Problemen) <TextLink reference="5"></TextLink>. </Pgraph><Pgraph>Davon lassen sich andere Technologien unterscheiden, die auf mechanische Automatisierung setzen, beispielsweise das automatische Syntax-Mapping von Polyglot Search Translator <TextLink reference="6"></TextLink> oder die gewichtete Textanalyse von searchbuildR <TextLink reference="7"></TextLink>. </Pgraph><Pgraph>Im Kontext der systematischen Literatursuche bezieht sich der Begriff „KI“ primär auf Large Language Models (LLMs). Bei LLMs handelt es sich um eine Form generativer KI, bei der Machine Learning-Algorithmen verwendet werden, um neue Inhalte auf der Grundlage von Mustern zu erstellen, die aus Trainingsdaten erlernt wurden. Konkret dienen LLMs der Texterstellung, sie sind „Chat bots“ <TextLink reference="8"></TextLink>, <TextLink reference="9"></TextLink>.</Pgraph><Pgraph>LLMs weisen Charakteristika auf, die potenziell die Erfüllung der Anforderungen an systematische Suchen – insbesondere Transparenz und Reproduzierbarkeit – erschweren <TextLink reference="10"></TextLink>, <TextLink reference="11"></TextLink>, <TextLink reference="12"></TextLink>:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Black Box-Problem: Intransparenz der Prozesse, die zum Output führen. Aufgrund ihrer Komplexität ist es selbst den Entwickler*innen kaum möglich die „Entscheidungen“ eines LLMs basierend auf einem Prompt zu erklären oder nachzuvollziehen. </ListItem><ListItem level="1">Bias: Verzerrungen im Output, in den Charakteristika des Trainingsmaterials oder im Modelldesign. LLMs könnten beispielsweise Vorurteile oder Falschin<TextGroup><PlainText>f</PlainText></TextGroup>orma<TextGroup><PlainText>t</PlainText></TextGroup>ionen reproduzieren, die in den Trainingsdaten prävalent waren. Andererseits könnten spezifische Funktionen eines KI-Tools das Output verzerren (beispielsweise indem die Trefferzahl der Suche unabhängig von der Fragestellung festgelegt wird).</ListItem><ListItem level="1">Halluzinationen: Generierung faktisch falscher, aber formal plausibler Inhalte. Zum Auftreten von Halluzinationen können verschiedene Faktoren beitragen, die mit den ersten beiden Charakteristika zu tun haben: den verwendeten Trainingsdaten und -methoden sowie den Methoden die das LLM verwendet, um Antworten zu generieren.</ListItem></UnorderedList></Pgraph><Pgraph>Zuletzt sind LLMs auch mit einem erheblichen Ressourcenverbrauch verbunden: Training und Nutzung der Modelle hat einen großen Energie-, Wasser- und Rohstoffbe<TextGroup><PlainText>d</PlainText></TextGroup>arf <TextLink reference="13"></TextLink>, <TextLink reference="14"></TextLink>, <TextLink reference="15"></TextLink>. </Pgraph><Pgraph>Diese bekannten Limitationen von LLMs machen es umso wichtiger ihren Nutzen für konkrete Anwendungen zu evaluieren, um ungewollte negative Auswirkungen auf das Endergebnis zu vermeiden. </Pgraph><SubHeadline>Quellen und Methodik</SubHeadline><Pgraph>Diese narrative Übersichtsarbeit basiert auf:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Literaturübersichten zur KI-Nutzung in Evidenzsynthesen <TextLink reference="16"></TextLink>, <TextLink reference="17"></TextLink>, <TextLink reference="18"></TextLink>,</ListItem><ListItem level="1">der „Living Evidence Map“ von Farhad Shokraneh <TextLink reference="19"></TextLink> (Stand: Ende August 2025),</ListItem><ListItem level="1">Literatur-Surveillance (Semantic Scholar research feed, Embase.com Search Alerts, Stand: Ende August 2025)</ListItem></UnorderedList></Pgraph><Pgraph>Sie inkludiert sowohl publizierte Artikel als auch Preprints. Es wurden nur Studien berücksichtigt, die Performanz der KI-Methode im Vergleich zu menschlicher Arbeit berichteten. Manche Quellen <TextLink reference="16"></TextLink>, <TextLink reference="18"></TextLink> beschränkten sich explizit auf den gesundheitswissenschaftlichen Kontext. </Pgraph></TextBlock> <TextBlock name="Evidenzübersicht" linked="yes"> <MainHeadline>Evidenzübersicht</MainHeadline><Pgraph>Zurzeit gibt es Evaluationen zu drei Anwendungsbereichen, bei denen KI-Methoden mit etablierten systematischen Suchen verglichen wurden:</Pgraph><Pgraph><UnorderedList><ListItem level="1">Die Erstellung von booleschen Suchstrategien, </ListItem><ListItem level="1">die Erstellung von Literaturlisten,</ListItem><ListItem level="1">die Fehlererkennung bei Suchstrategien.</ListItem></UnorderedList></Pgraph><SubHeadline>Können LLMs systematische Suchstrategien entwickeln?</SubHeadline><Pgraph>Der Großteil der Studien zum Thema KI-Nutzung im systematischen Suchprozess beschäftigt sich mit der Erstellung von Booleschen Datenbank-Suchstrategien, in den meisten Fällen für PubMed <TextLink reference="20"></TextLink>, <TextLink reference="21"></TextLink>, <TextLink reference="22"></TextLink>, <TextLink reference="23"></TextLink>, <TextLink reference="24"></TextLink>, <TextLink reference="25"></TextLink>, <TextLink reference="26"></TextLink>, <TextLink reference="27"></TextLink>, <TextLink reference="28"></TextLink>, <TextLink reference="29"></TextLink>, <TextLink reference="30"></TextLink>, <TextLink reference="31"></TextLink>, <TextLink reference="32"></TextLink>.</Pgraph><Pgraph>Bei diesem Vorgehen erstellt ein LLM eine Datenbank-spezifische Suchstrategie basierend auf einem Prompt, das die Forschungsfrage und eventuell zusätzliche Informationen beinhaltet. Dabei bleibt die Transparenz und Reproduzierbarkeit des Suchprozesses an sich gewährleistet, da die Datenbank-Suche an sich ohne KI vonstattengeht. </Pgraph><Pgraph>In der Evidence Map von Adam et al. <TextLink reference="16"></TextLink> wurden acht solche Studien ausgewertet und mit der üblichen Performance von Menschen-generierten Suchstrategien verglichen (Median Recall (88%, Range: 65–100%) und Präzision (2%, Range: 1,7–2,2%)). Dabei zeigte sich, dass sogenannte „zero shot prompts“ bei denen ein generisches LLM (z.B. ChatGPT, Claude) ohne weiteres Training eine Suchstrategie erstellt, schlecht funktionierten, und zwar unabhängig vom verwendeten Modell und Prompting-Ansatz: Der durchschnittliche Recall lag bei 4–31,6%. Dieser Trend ist auch in neueren Studien <TextLink reference="21"></TextLink>, <TextLink reference="32"></TextLink>, die nicht in der Evidence Map berücksichtigt wurden, vorhanden: Durchschnittlicher Recall für zero shot prompts lag zwischen 15% und 43,6%, wobei die Performanz in der Regel große Schwankungsbreiten für dieselben Prompt im selben Modell aufwies. </Pgraph><Pgraph>Vielversprechender waren in der Evidence Map <TextLink reference="16"></TextLink> zwei Studien, die „fine-tuned“ Modelle verwenden. Dabei wurden existierende LLMs mit tausenden, für die konkrete Aufgabe relevanten, Datensets weiter trainiert. Das Ergebnis war ein hoher Recall bei gleichzeitiger extrem niedriger Präzision: Bei Pourezza et al. <TextLink reference="31"></TextLink> hatte der Ansatz mit dem höchsten Recall (96,76%) eine Präzision von 0,03%, bei Adam et al. <TextLink reference="23"></TextLink> waren es 91,83% und 0,15%. Allerdings handelt es sich bei diesen Publikationen um Pilotstudien, die noch keine fertigen Anwendungen für andere User*innen zur Verfügung stellen.</Pgraph><Pgraph>Die verhältnismäßig große Anzahl von Studien zu dem Thema KI-Suchstrategie-Entwicklung zeigt auch Probleme bei der Reproduzierbarkeit der KI-Evaluationen selbst auf. Zwei Studien <TextLink reference="23"></TextLink>, <TextLink reference="27"></TextLink>, die versuchten, den Ansatz einer einflussreichen, 2023 veröffentlichten Studie <TextLink reference="22"></TextLink> zu replizieren, erreichten schlechtere Ergebnisse als in der Originalpublikation berichtet wurden. In ihrer Antwort auf Staudinger et al. <TextLink reference="27"></TextLink> wiesen die ursprünglichen Studienautor*innen <TextLink reference="21"></TextLink> darauf hin, das unter anderem query validation („manual removal of incorrectly generated queries“) und query refinement („improving an initial query automatically“) grundlegende Bestandteile ihrer Evaluation waren. Es zeigt sich also, dass nach dem ersten Output weitere Schritte notwendig waren, um die Generierung ausführbarer Suchstrategien -unabhängig von ihrer Performanz – zu gewährleisten. </Pgraph><Pgraph>Ausgehend von diesen Studien und Übersichtsarbeiten ist momentan Fachexpertise notwendig, um von LLMs erstellte Suchstrategien zu bewerten und zu überarbeiten. Es ist unklar, ob diese Vorgehensweise zu Zeitersparnissen oder einer Verbesserung der Qualität von Suchstrategien im Vergleich zu anderen Methoden führt.</Pgraph><SubHeadline>Können LLMs relevante Literatur vollständig identifizieren?</SubHeadline><Pgraph>Ein anderer Ansatz ist die Erstellung von umfassenden Literaturlisten durch KI-Tools. Diese Vorgehensweise zielt darauf ab, den gesamten Prozess der systematischen Suche durch einen Prompt-basierten Vorgang zu ersetzen. Ein auf der Recherchefrage basierender Prompt soll dabei alle relevanten Publikationen identifizieren. Da hier das KI-Tool selbst für das Auffinden der relevanten Literatur verwendet wird, haben LLM-spezifische Probleme wie Halluzinationen und variierende Ergebnisse für gleichbleibende Prompts einen direkten Einfluss auf das Ergebnis der Suche. </Pgraph><Pgraph>Dieses Thema wurde weniger ausführlich erforscht, aber es gibt Studien, die ChatGPT <TextLink reference="33"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink>, <TextLink reference="36"></TextLink>, Elicit <TextLink reference="36"></TextLink>, <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink>, Consensus <TextLink reference="36"></TextLink>, <TextLink reference="39"></TextLink> und andere Anwendungen <TextLink reference="33"></TextLink>, <TextLink reference="34"></TextLink>, <TextLink reference="35"></TextLink> im Vergleich mit systematischen Suchergebnissen untersuchen. Übersichtsarbeiten von Clark et al. <TextLink reference="17"></TextLink> und Adam et al. <TextLink reference="16"></TextLink> zeigten, dass für ChatGPT der Recall bei dieser Vorgehensweise bei 4–14% der relevanten Literatur lag. Zusätzlich wurden hohe Halluzinationsraten – fehlerhafte oder nicht existierende Literaturangaben – beobachtet. </Pgraph><Pgraph>Die Verwendung von Elicit und Consensus <TextLink reference="36"></TextLink>, <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink>, <TextLink reference="39"></TextLink> – KI-gestützten Plattformen für wissenschaftliche Literatur, die Retrieval Augmented Generation nützen – war etwas besser mit durchschnittlichen Recall-Raten von 19,6% bis 43,5%. Eine Studie <TextLink reference="37"></TextLink> zeigte allerdings, dass die Verwendung eines gleichbleibenden Prompts in Elicit zu unterschiedlichen Ergebnissen führte. Andererseits fanden zwei weitre Evaluationen von Elicit <TextLink reference="37"></TextLink>, <TextLink reference="38"></TextLink> in den KI-generierten Suchergebnissen eine kleine Anzahl an relevanten Artikeln, die durch die klassischen systematischen Suchen nicht gefunden worden waren. Die Autor*innen kamen zum Schluss, dass KI-gestützte Suchen keine systematischen Suchen ersetzen aber als komplementäre Suchmethoden im systematischen Prozess dienen können.</Pgraph><Pgraph>Die Evaluationsstudien zeigen, dass für die Verwendung von LLMs zur Literatursuche unbedingt eine Anbindung an externe Quellen (Websuche, Literaturdatenbanken) notwendig ist, um Halluzinationen zu vermeiden. Aber selbst KI-Tools, die für wissenschaftliche Literatursuchen entwickelt wurden, erstellen gegenwärtig keine umfassenden Listen relevanter Literatur die mit den Ergebnissen systematischer Suchen vergleichbar sind. Sie könnten allerdings für die Vorbereitung systematischer Suchen (Scoping) oder als zusätzliche Suchmethoden von Nutzen sein. </Pgraph><SubHeadline>Können LLMs Suchstrategien verbessern?</SubHeadline><Pgraph>Manuale für die systematische Literatursuche <TextLink reference="2"></TextLink>, <TextLink reference="40"></TextLink>, <TextLink reference="41"></TextLink> empfehlen, dass zumindest die primäre Datenbank-Suchstrategie durch eine zweite Person überprüft wird. Das soll die adäquate Erfassung der Fragestellung und Fehlerfreiheit der Suchstrategie gewährleisten. </Pgraph><Pgraph>Nur zwei Studien untersuchten die Verwendung von LLMs zu diesem Zweck: Hill et al. <TextLink reference="42"></TextLink> verwendeten einen random error generator, um Tippfehler und Verknüpfungsfeh<TextGroup><PlainText>l</PlainText></TextGroup>er in sechs Suchstrategien einzufügen. Dann wurde überprüft, ob LLMs diese Fehler finden und eine verbesserte Suchstrategie vorschlagen konnten. Die Fehlerer<TextGroup><PlainText>k</PlainText></TextGroup>ennungsrate war dabei mit 75-93% teilweise vergleichbar mit der von menschlichen Reviewern (93%). Allerdings konnten LLMs nicht zuverlässig verbesserte Suchstrategien produzieren: Die Anzahl der durchführbaren Suchstrategien lag bei 0/6 (Gemini), 1/6 (Claude) und 2/6 (ChatGPT). Gitman et al. <TextLink reference="43"></TextLink> entfernten von 16 Suchstrategien ein gesamtes Konzept (alle Suchbegriffe für „observational studies“ oder „drug harms“). ChatGPT konnte dieses Fehlen erkennen und eine Liste von relevant erscheinenden Suchbegriffen vorschlagen. Es wurden allerdings keine verbesserten Suchstrategien erstellt und mit dem Recall der Original-Suchen verglichen. </Pgraph><Pgraph>Basierend auf diesen Ergebnissen könnten LLMs für die Identifikation von groben Fehlern und das Vorschlagen von Suchbegriffen nützlich sein. Allerdings ist unklar, inwiefern die künstlich generierten Fehler mit „echten“ fehlerhaften Suchstrategien vergleichbar sind.</Pgraph></TextBlock> <TextBlock name="Fazit und Ausblick" linked="yes"> <MainHeadline>Fazit und Ausblick</MainHeadline><Pgraph>Die Evidenzlage zur Verwendung von KI im systematischen Suchprozess weist große Lücken auf. Einzig die Erstellung von PubMed-Suchstrategien durch generische LLMs ist inzwischen gut untersucht. Sie zeigt sich bis jetzt aber wenig erfolgreich, wenn man sie mit dem Recall vergleicht, den durchschnittliche von Menschen erstellte Suchstrategien erreichen. Zu anderen Ansätzen wie der Verwendung von fine-tuned Modellen, der Suche über KI-gestützte Rechercheplattformen und der Überprüfung von Suchstrategien gibt es wenig Studien. Zu weiteren möglichen Anwendungen – beispielsweise der systematischen Suche nach grauer Literatur – wurden keine passenden Evaluationen identifiziert. </Pgraph><Pgraph>Abgesehen vom unbefriedigenden Recall, stellt die Variabilität der Ergebnisse ein ungelöstes Problem dar: Die wiederholte Ausführung gleichbleibender Prompts führte zu unterschiedlichen Ergebnissen. Wenn KI-Tools für das eigentliche Information Retrieval (nicht nur für die Erstellung einer Datenbank-Suchstrategie) verwendet werden, untergräbt das die fundamentale Anforderung von größtmöglicher Reproduzierbarkeit und Transparenz, die wir an systematische Suchen stellen.</Pgraph><Pgraph>Daher sollten KI-gestützte Methoden zum gegenwärtigen Zeitpunkt nur komplementär zu den etablierten Methoden der systematischen Recherche angewandt werden: KI-gestützte Rechercheplattformen können beispielsweise für explorative Scoping-Suchen nützlich sein, generische LLMs können eine zusätzliche Quelle für Freitext-Suchbegriffe darstellen.</Pgraph><Pgraph>Diese Einschätzung steht im Kontrast mit den Erwartungen, die von KI-Anbietern im Evidenzsynthesen-Bereich geschürt werden. So verspricht beispielsweise otto-SR: „Systematic reviews in hours, not months. otto-SR performs end-to-end evidence synthesis from thousands of citations with better-than-human performance.“ <TextLink reference="44"></TextLink> <TextGroup><PlainText>Der z</PlainText></TextGroup>ugehörige Preprint <TextLink reference="44"></TextLink> zeigt aber, dass es sich dabei nur um die Schritte Abstract Screening, Fulltext Screening und Data Extraction handelt. Auch Elicit verspricht: „With AI and language models, Elicit can help you save up to 80% of the time it takes to run systematic reviews, without compromising on accuracy. The Systematic Reviews workflow guides you step by step through search, title & abstract screening, and full-text data extraction, also providing a research report to summarize the most relevant papers in your review at the end of the process.“ <TextLink reference="45"></TextLink>. Elicits eigene Evaluation <TextLink reference="46"></TextLink> bezieht sich allerdings ebenfalls nur auf Screening und Data Extraction. </Pgraph><Pgraph>Systematische Literaturauswahl und Datenextraktion sind auch die Schritte der Evidenzsynthese, bei denen LLM-Anwendungen unabhängig von den verwendeten Tools und Modellen vielversprechende Performance liefern <TextLink reference="16"></TextLink>. Für den Prozess der systematischen Literaturrecherche ist das bis jetzt nicht der Fall. Aber neue Modelle oder Tools, beispielsweise die Veröffentlichung von nutzerfreundlichen fine-tuned Modellen für die Suchstrategie-Erstellung, könnten das ändern. Aus diesem Grund sind weiterhin gut gemachte unabhängige Evaluationen von KI-Anwendungen unerlässlich. Es ist aber auch wichtig, dass die Anwender*innen notwendige Kenntnisse haben, um den Nutzen der KI-Tools für ihre Zwecke einzuschätzen.</Pgraph><Pgraph>Initiativen wie die joint Artificial Intelligence Methods Group von Cochrane, der Campbell Collaboration, JBI und der Collaboration for Environmental Evidence (CEE) <TextLink reference="44"></TextLink> und die Responsible AI in Evidence Synthesis (RAISE) <TextLink reference="47"></TextLink> guidance können hierzu einen Beitrag leisten. RAISE richtet sich an Ersteller*innen von Evidenzsynthesen, aber auch KI-Tool Entwickler*innen und Methodenfor<TextGroup><PlainText>s</PlainText></TextGroup>cher*innen. Die guidance empfiehlt Ersteller*innen von Evidenzsynthesen unter anderem KI-Evaluationen kritisch zu lesen und nur Tools zu verwenden, die nachgewiesenermaßen geeignet für die gewünschte Aufgabe sind <TextLink reference="48"></TextLink>. Zusätzlich werden Metriken beschrieben, die für solche Evaluationen relevant sind <TextLink reference="10"></TextLink>, sowie Fragen/Überlegungen, die die Einschätzung von KI-Tools leiten sollten <TextLink reference="49"></TextLink>. Es ist zu hoffen, dass es dadurch auch für potenzielle Anwender*innen einfacher wird den potentiellen Nutzen von KI-Tools für die systematische Literatursuche oder anderen Evidenzsynthese Schritte einzuschätzen.</Pgraph></TextBlock> <TextBlock name="Anmerkung" linked="yes"> <MainHeadline>Anmerkung</MainHeadline><Pgraph>Den Ausgangspunkt dieses Beitrags bilden ein Webinar <TextLink reference="50"></TextLink> und ein Workshop <TextLink reference="51"></TextLink>, den die Autorin mit Dr. Maria-Inti Metzendorf (Public Health and Information Scientist, Cochrane Planetary Health Thematic Group) abgehalten hat.</Pgraph></TextBlock> <TextBlock name="ORCID der Autorin" linked="yes"> <MainHeadline>ORCID der Autorin</MainHeadline><Pgraph>Irma Klerings: <Hyperlink href="https://orcid.org/0000-0001-6644-9845">0000-0001-6644-9845</Hyperlink></Pgraph></TextBlock> <TextBlock name="Interessenkonflikte" linked="yes"> <MainHeadline>Interessenkonflikte</MainHeadline><Pgraph>Die Autorin erklärt, dass sie keine Interessenkonflikte in Zusammenhang mit diesem Artikel hat.</Pgraph></TextBlock> <References linked="yes"> <Reference refNo="1"> <RefAuthor>Gusenbauer M</RefAuthor> <RefAuthor>Haddaway NR</RefAuthor> <RefTitle>What every researcher should know about searching - clarified concepts, search advice, and an agenda to improve finding in academia</RefTitle> <RefYear>2021</RefYear> <RefJournal>Res Synth Methods</RefJournal> <RefPage>136-147</RefPage> <RefTotal>Gusenbauer M, Haddaway NR. What every researcher should know about searching - clarified concepts, search advice, and an agenda to improve finding in academia. Res Synth Methods. 2021 Mar;12(2):136-147. DOI: 10.1002/jrsm.1457</RefTotal> <RefLink>https://doi.org/10.1002/jrsm.1457</RefLink> </Reference> <Reference refNo="2"> <RefAuthor>Lefebvre C</RefAuthor> <RefAuthor>Glanville J</RefAuthor> <RefAuthor>Briscoe S</RefAuthor> <RefAuthor>Littlewood A</RefAuthor> <RefAuthor>Marshall C</RefAuthor> <RefAuthor>Metzendorf MI</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>Chapter 4: Searching for and selecting studies</RefTitle> <RefYear>2024</RefYear> <RefBookTitle>Cochrane Handbook for Systematic Reviews of Interventions. Version 6.5 (updated 2024 Sep)</RefBookTitle> <RefPage></RefPage> <RefTotal>Lefebvre C, Glanville J, Briscoe S, Littlewood A, Marshall C, Metzendorf MI, et al. Chapter 4: Searching for and selecting studies. In: Higgins J, Thomas J, editors. Cochrane Handbook for Systematic Reviews of Interventions. Version 6.5 (updated 2024 Sep). Cochrane; 2024. Available from: https://training.cochrane.org/handbook/current/chapter-04</RefTotal> <RefLink>https://training.cochrane.org/handbook/current/chapter-04</RefLink> </Reference> <Reference refNo="3"> <RefAuthor>Tsafnat G</RefAuthor> <RefAuthor>Glasziou P</RefAuthor> <RefAuthor>Choong MK</RefAuthor> <RefAuthor>Dunn A</RefAuthor> <RefAuthor>Galgani F</RefAuthor> <RefAuthor>Coiera E</RefAuthor> <RefTitle>Systematic review automation technologies</RefTitle> <RefYear>2014</RefYear> <RefJournal>Syst Rev</RefJournal> <RefPage>74</RefPage> <RefTotal>Tsafnat G, Glasziou P, Choong MK, Dunn A, Galgani F, Coiera E. Systematic review automation technologies. Syst Rev. 2014 Jul;3:74. DOI: 10.1186/2046-4053-3-74</RefTotal> <RefLink>https://doi.org/10.1186/2046-4053-3-74</RefLink> </Reference> <Reference refNo="4"> <RefAuthor>Lieberum JL</RefAuthor> <RefAuthor>Toews M</RefAuthor> <RefAuthor>Metzendorf MI</RefAuthor> <RefAuthor>Heilmeyer F</RefAuthor> <RefAuthor>Siemens W</RefAuthor> <RefAuthor>Haverkamp C</RefAuthor> <RefAuthor>Böhringer D</RefAuthor> <RefAuthor>Meerpohl JJ</RefAuthor> <RefAuthor>Eisele-Metzger A</RefAuthor> <RefTitle>Large language models for conducting systematic reviews: on the rise, but not yet ready for use – a scoping review</RefTitle> <RefYear>2025</RefYear> <RefJournal>J Clin Epidemiol</RefJournal> <RefPage>111746</RefPage> <RefTotal>Lieberum JL, Toews M, Metzendorf MI, Heilmeyer F, Siemens W, Haverkamp C, Böhringer D, Meerpohl JJ, Eisele-Metzger A. Large language models for conducting systematic reviews: on the rise, but not yet ready for use – a scoping review. J Clin Epidemiol. 2025 May;181:111746. DOI: 10.1016/j.jclinepi.2025.111746</RefTotal> <RefLink>https://doi.org/10.1016/j.jclinepi.2025.111746</RefLink> </Reference> <Reference refNo="5"> <RefAuthor>Canada’s Drug Agency (CDA-AMC)</RefAuthor> <RefTitle>Development of an Evaluation Instrument on Artificial Intelligence Search Tools for Evidence Synthesis</RefTitle> <RefYear>2024</RefYear> <RefJournal>Canadian Journal of Health Technologies</RefJournal> <RefPage></RefPage> <RefTotal>Canada’s Drug Agency (CDA-AMC). Development of an Evaluation Instrument on Artificial Intelligence Search Tools for Evidence Synthesis. Canadian Journal of Health Technologies. 2024;4(10). DOI: 10.51731/cjht.2024.1004</RefTotal> <RefLink>https://doi.org/10.51731/cjht.2024.1004</RefLink> </Reference> <Reference refNo="6"> <RefAuthor>Clark JM</RefAuthor> <RefAuthor>Sanders S</RefAuthor> <RefAuthor>Carter M</RefAuthor> <RefAuthor>Honeyman D</RefAuthor> <RefAuthor>Cleo G</RefAuthor> <RefAuthor>Auld Y</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>Improving the translation of search strategies using the Polyglot Search Translator: a randomized controlled trial</RefTitle> <RefYear>2020</RefYear> <RefJournal>J Med Libr Assoc</RefJournal> <RefPage>195-207</RefPage> <RefTotal>Clark JM, Sanders S, Carter M, Honeyman D, Cleo G, Auld Y, et al. Improving the translation of search strategies using the Polyglot Search Translator: a randomized controlled trial. J Med Libr Assoc. 2020;108(2):195-207. DOI: 10.5195/jmla.2020.834</RefTotal> <RefLink>https://doi.org/10.5195/jmla.2020.834</RefLink> </Reference> <Reference refNo="7"> <RefAuthor>Kapp C</RefAuthor> <RefAuthor>Fujita-Rohwerder N</RefAuthor> <RefAuthor>Lilienthal J</RefAuthor> <RefAuthor>Sieben W</RefAuthor> <RefAuthor>Waffenschmidt S</RefAuthor> <RefAuthor>Hausner E</RefAuthor> <RefTitle>The searchbuildR shiny app: A new implementation of the objective approach for search strategy development in systematic reviews</RefTitle> <RefYear>2024</RefYear> <RefJournal>Cochrane Evid Synth Methods</RefJournal> <RefPage>e12078</RefPage> <RefTotal>Kapp C, Fujita-Rohwerder N, Lilienthal J, Sieben W, Waffenschmidt S, Hausner E. The searchbuildR shiny app: A new implementation of the objective approach for search strategy development in systematic reviews. Cochrane Evid Synth Methods. 2024 Jun;2(6):e12078. DOI: 10.1002/cesm.12078</RefTotal> <RefLink>https://doi.org/10.1002/cesm.12078</RefLink> </Reference> <Reference refNo="8"> <RefAuthor>Warner L</RefAuthor> <RefTitle>DEFINING AI: A Lexicon for Librarians and Their Patrons</RefTitle> <RefYear>2025</RefYear> <RefJournal>Computers in Libraries</RefJournal> <RefPage>16-8</RefPage> <RefTotal>Warner L. DEFINING AI: A Lexicon for Librarians and Their Patrons. Computers in Libraries. 2025;45(1):16-8.</RefTotal> </Reference> <Reference refNo="9"> <RefAuthor>Meenn</RefAuthor> <RefTitle></RefTitle> <RefYear>2024</RefYear> <RefBookTitle>Differences between LLM, Deep learning, Machine learning, and AI</RefBookTitle> <RefPage></RefPage> <RefTotal>Meenn. Differences between LLM, Deep learning, Machine learning, and AI. Medium; 2024 Sep 30. Available from: https://medium.com/@meenn396/differences-between-llm-deep-learning-machine-learning-and-ai-3c7eb1c87ef8</RefTotal> <RefLink>https://medium.com/@meenn396/differences-between-llm-deep-learning-machine-learning-and-ai-3c7eb1c87ef8</RefLink> </Reference> <Reference refNo="10"> <RefAuthor>Thomas J</RefAuthor> <RefAuthor>Flemyng E</RefAuthor> <RefAuthor>Noel-Storr A</RefAuthor> <RefAuthor>Moy W</RefAuthor> <RefAuthor>Marshall IJ</RefAuthor> <RefAuthor>Hajji R</RefAuthor> <RefAuthor></RefAuthor> <RefTitle></RefTitle> <RefYear>2025</RefYear> <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE) 2: building and evaluating AI evidence synthesis tools</RefBookTitle> <RefPage></RefPage> <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE) 2: building and evaluating AI evidence synthesis tools. 2025 Jun 3. Available from: https://osf.io/fwaud/</RefTotal> <RefLink>https://osf.io/fwaud/</RefLink> </Reference> <Reference refNo="11"> <RefAuthor>Ayyamperumal SG</RefAuthor> <RefAuthor>Ge L</RefAuthor> <RefTitle>Current state of LLM Risks and AI Guardrails</RefTitle> <RefYear>2024</RefYear> <RefJournal>arXiv</RefJournal> <RefPage></RefPage> <RefTotal>Ayyamperumal SG, Ge L. Current state of LLM Risks and AI Guardrails. arXiv. 2024 Jun 14. DOI: 10.48550/arXiv.2406.12934</RefTotal> <RefLink>https://doi.org/10.48550/arXiv.2406.12934</RefLink> </Reference> <Reference refNo="12"> <RefAuthor>Siebert J</RefAuthor> <RefTitle></RefTitle> <RefYear>2024</RefYear> <RefBookTitle>Halluzinationen von generativer KI und großen Sprachmodellen (LLMs)</RefBookTitle> <RefPage></RefPage> <RefTotal>Siebert J. Halluzinationen von generativer KI und großen Sprachmodellen (LLMs). Fraunhofer-Institut für Experimentelles Software Engineering IESE; 2024. Available from: https://www.iese.fraunhofer.de/blog/halluzinationen-generative-ki-llm/</RefTotal> <RefLink>https://www.iese.fraunhofer.de/blog/halluzinationen-generative-ki-llm/</RefLink> </Reference> <Reference refNo="13"> <RefAuthor>Jegham N</RefAuthor> <RefAuthor>Abdelatti M</RefAuthor> <RefAuthor>Koh CY</RefAuthor> <RefAuthor>Elmoubarki L</RefAuthor> <RefAuthor>Hendawi A</RefAuthor> <RefTitle>How hungry is AI? Benchmarking energy, water, and carbon footprint of LLM inference [Preprint]</RefTitle> <RefYear>2025</RefYear> <RefJournal>arXiv</RefJournal> <RefPage></RefPage> <RefTotal>Jegham N, Abdelatti M, Koh CY, Elmoubarki L, Hendawi A. How hungry is AI? Benchmarking energy, water, and carbon footprint of LLM inference [Preprint]. arXiv. 2025. DOI: 10.48550/arXiv.2505.09598</RefTotal> <RefLink>https://doi.org/10.48550/arXiv.2505.09598</RefLink> </Reference> <Reference refNo="14"> <RefAuthor>Emberson L</RefAuthor> <RefAuthor>Rahman R</RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>The power required to train frontier AI models is doubling annually</RefBookTitle> <RefPage></RefPage> <RefTotal>Emberson L, Rahman R. The power required to train frontier AI models is doubling annually. Available from: https://epoch.ai/data-insights/power-usage-trend</RefTotal> <RefLink>https://epoch.ai/data-insights/power-usage-trend</RefLink> </Reference> <Reference refNo="15"> <RefAuthor>Berthelot A</RefAuthor> <RefAuthor>Caron E</RefAuthor> <RefAuthor>Jay M</RefAuthor> <RefAuthor>Lefèvre L</RefAuthor> <RefTitle>Estimating the environmental impact of Generative-AI services using an LCA-based methodology</RefTitle> <RefYear>2024</RefYear> <RefJournal>Procedia CIRP</RefJournal> <RefPage>707-12</RefPage> <RefTotal>Berthelot A, Caron E, Jay M, Lefèvre L. Estimating the environmental impact of Generative-AI services using an LCA-based methodology. Procedia CIRP. 2024;122:707-12. DOI: 10.1016/j.procir.2024.01.098</RefTotal> <RefLink>https://doi.org/10.1016/j.procir.2024.01.098</RefLink> </Reference> <Reference refNo="16"> <RefAuthor>Adam G</RefAuthor> <RefAuthor>Davies M</RefAuthor> <RefAuthor>George J</RefAuthor> <RefAuthor>Caputo EL</RefAuthor> <RefAuthor>Htun JM</RefAuthor> <RefAuthor>Coppola E</RefAuthor> <RefAuthor></RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>Machine Learning Tools To (Semi-)Automate Evidence Synthesis: A Rapid Review and Evidence Map</RefBookTitle> <RefPage></RefPage> <RefTotal>Adam G, Davies M, George J, Caputo EL, Htun JM, Coppola E, et al. Machine Learning Tools To (Semi-)Automate Evidence Synthesis: A Rapid Review and Evidence Map. Available from: https://effectivehealthcare.ahrq.gov/products/machine-learning-tools/white-paper</RefTotal> <RefLink>https://effectivehealthcare.ahrq.gov/products/machine-learning-tools/white-paper</RefLink> </Reference> <Reference refNo="17"> <RefAuthor>Clark J</RefAuthor> <RefAuthor>Barton B</RefAuthor> <RefAuthor>Albarqouni L</RefAuthor> <RefAuthor>Byambasuren O</RefAuthor> <RefAuthor>Jowsey T</RefAuthor> <RefAuthor>Keogh J</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>Generative artificial intelligence use in evidence synthesis: A systematic review</RefTitle> <RefYear>2025</RefYear> <RefJournal>Research Synthesis Methods</RefJournal> <RefPage>601-19</RefPage> <RefTotal>Clark J, Barton B, Albarqouni L, Byambasuren O, Jowsey T, Keogh J, et al. Generative artificial intelligence use in evidence synthesis: A systematic review. Research Synthesis Methods. 2025;16(4):601-19. DOI: 10.1017/rsm.2025.16</RefTotal> <RefLink>https://doi.org/10.1017/rsm.2025.16</RefLink> </Reference> <Reference refNo="18"> <RefAuthor>Musleh A</RefAuthor> <RefAuthor>Alryalat SA</RefAuthor> <RefTitle>Artificial Intelligence and Large Language Model Powered Literature Review Services</RefTitle> <RefYear>2025</RefYear> <RefJournal>High Yield Medical Reviews</RefJournal> <RefPage></RefPage> <RefTotal>Musleh A, Alryalat SA. Artificial Intelligence and Large Language Model Powered Literature Review Services. High Yield Medical Reviews. 2025;3(1). DOI: 10.59707/hymrPSEY7778</RefTotal> <RefLink>https://doi.org/10.59707/hymrPSEY7778</RefLink> </Reference> <Reference refNo="19"> <RefAuthor>Shokraneh F</RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>Living Evidence Map for Automation of Systematic Reviews (LEMASyR)</RefBookTitle> <RefPage></RefPage> <RefTotal>Shokraneh F. Living Evidence Map for Automation of Systematic Reviews (LEMASyR). Available from: https://nested-knowledge.com/nest/21035</RefTotal> <RefLink>https://nested-knowledge.com/nest/21035</RefLink> </Reference> <Reference refNo="20"> <RefAuthor>De Cassai A</RefAuthor> <RefAuthor>Dost B</RefAuthor> <RefAuthor>Karapinar YE</RefAuthor> <RefAuthor>Beldagli M</RefAuthor> <RefAuthor>Yalin MSO</RefAuthor> <RefAuthor>Turunc E</RefAuthor> <RefAuthor>Turan EI</RefAuthor> <RefAuthor>Sella N</RefAuthor> <RefTitle>Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals</RefTitle> <RefYear>2025</RefYear> <RefJournal>Reg Anesth Pain Med</RefJournal> <RefPage>rapm-2024-106231</RefPage> <RefTotal>De Cassai A, Dost B, Karapinar YE, Beldagli M, Yalin MSO, Turunc E, Turan EI, Sella N. Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals. Reg Anesth Pain Med. 2025 Jan:rapm-2024-106231. DOI: 10.1136/rapm-2024-106231</RefTotal> <RefLink>https://doi.org/10.1136/rapm-2024-106231</RefLink> </Reference> <Reference refNo="21"> <RefAuthor>Wang S</RefAuthor> <RefAuthor>Scells H</RefAuthor> <RefAuthor>Koopman B</RefAuthor> <RefAuthor>Zuccon G</RefAuthor> <RefTitle>Reassessing Large Language Model Boolean Query Generation for Systematic Reviews [Preprint]</RefTitle> <RefYear>2025</RefYear> <RefJournal>arXiv</RefJournal> <RefPage></RefPage> <RefTotal>Wang S, Scells H, Koopman B, Zuccon G. Reassessing Large Language Model Boolean Query Generation for Systematic Reviews [Preprint]. arXiv. 2025. DOI: 10.48550/arXiv.2505.07155</RefTotal> <RefLink>https://doi.org/10.48550/arXiv.2505.07155</RefLink> </Reference> <Reference refNo="22"> <RefAuthor>Wang S</RefAuthor> <RefAuthor>Scells H</RefAuthor> <RefAuthor>Koopman B</RefAuthor> <RefAuthor>Zuccon G</RefAuthor> <RefTitle>Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search?</RefTitle> <RefYear>2023</RefYear> <RefBookTitle>Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval; 2023 Jul 23-27; Taipei, Taiwan</RefBookTitle> <RefPage>1426-36</RefPage> <RefTotal>Wang S, Scells H, Koopman B, Zuccon G. Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search? In: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval; 2023 Jul 23-27; Taipei, Taiwan. Association for Computing Machinery; 2023. p. 1426-36. DOI: 10.1145/3539618.3591703</RefTotal> <RefLink>https://doi.org/10.1145/3539618.3591703</RefLink> </Reference> <Reference refNo="23"> <RefAuthor>Adam GP</RefAuthor> <RefAuthor>DeYoung J</RefAuthor> <RefAuthor>Paul A</RefAuthor> <RefAuthor>Saldanha IJ</RefAuthor> <RefAuthor>Balk EM</RefAuthor> <RefAuthor>Trikalinos TA</RefAuthor> <RefAuthor>Wallace BC</RefAuthor> <RefTitle>Literature search sandbox: a large language model that generates search queries for systematic reviews</RefTitle> <RefYear>2024</RefYear> <RefJournal>JAMIA Open</RefJournal> <RefPage>ooae098</RefPage> <RefTotal>Adam GP, DeYoung J, Paul A, Saldanha IJ, Balk EM, Trikalinos TA, Wallace BC. Literature search sandbox: a large language model that generates search queries for systematic reviews. JAMIA Open. 2024 Oct;7(3):ooae098. DOI: 10.1093/jamiaopen/ooae098</RefTotal> <RefLink>https://doi.org/10.1093/jamiaopen/ooae098</RefLink> </Reference> <Reference refNo="24"> <RefAuthor>Chen XS</RefAuthor> <RefAuthor>Feng Y</RefAuthor> <RefTitle>Exploring the use of generative artificial intelligence in systematic searching: A comparative case study of a human librarian, ChatGPT-4 and ChatGPT-4 Turbo</RefTitle> <RefYear>2024</RefYear> <RefJournal>IFLA Journal</RefJournal> <RefPage>03400352241263532</RefPage> <RefTotal>Chen XS, Feng Y. Exploring the use of generative artificial intelligence in systematic searching: A comparative case study of a human librarian, ChatGPT-4 and ChatGPT-4 Turbo. IFLA Journal. 2024;51(1):03400352241263532. DOI: 10.1177/03400352241263532</RefTotal> <RefLink>https://doi.org/10.1177/03400352241263532</RefLink> </Reference> <Reference refNo="25"> <RefAuthor>Gosak L</RefAuthor> <RefAuthor>Štiglic G</RefAuthor> <RefAuthor>Pruinelli L</RefAuthor> <RefAuthor>Vrbnjak D</RefAuthor> <RefTitle>PICOT questions and search strategies formulation: A novel approach using artificial intelligence automation</RefTitle> <RefYear>2025</RefYear> <RefJournal>J Nurs Scholarsh</RefJournal> <RefPage>5-16</RefPage> <RefTotal>Gosak L, Štiglic G, Pruinelli L, Vrbnjak D. PICOT questions and search strategies formulation: A novel approach using artificial intelligence automation. J Nurs Scholarsh. 2025 Jan;57(1):5-16. DOI: 10.1111/jnu.13036</RefTotal> <RefLink>https://doi.org/10.1111/jnu.13036</RefLink> </Reference> <Reference refNo="26"> <RefAuthor>Reed RB</RefAuthor> <RefAuthor>Barnett DJ</RefAuthor> <RefTitle>Assessing the Quality of Biomedical Boolean Search Strings Generated by Prompted and Unprompted Models Using ChatGPT: A Pilot Study</RefTitle> <RefYear>2025</RefYear> <RefJournal>Med Ref Serv Q</RefJournal> <RefPage>31-40</RefPage> <RefTotal>Reed RB, Barnett DJ. Assessing the Quality of Biomedical Boolean Search Strings Generated by Prompted and Unprompted Models Using ChatGPT: A Pilot Study. Med Ref Serv Q. 2025;44(1):31-40. DOI: 10.1080/02763869.2024.2440848</RefTotal> <RefLink>https://doi.org/10.1080/02763869.2024.2440848</RefLink> </Reference> <Reference refNo="27"> <RefAuthor>Staudinger M</RefAuthor> <RefAuthor>Kusa W</RefAuthor> <RefAuthor>Piroi F</RefAuthor> <RefAuthor>Lipani A</RefAuthor> <RefAuthor>Hanbury A</RefAuthor> <RefAuthor>editors</RefAuthor> <RefTitle>A Reproducibility and Generalizability Study of Large Language Models for Query Generation [Preprint]</RefTitle> <RefYear>2024</RefYear> <RefJournal>arXiv</RefJournal> <RefPage></RefPage> <RefTotal>Staudinger M, Kusa W, Piroi F, Lipani A, Hanbury A, editors. A Reproducibility and Generalizability Study of Large Language Models for Query Generation [Preprint]. arXiv. 2024. DOI: 10.48550/arXiv.2411.14914</RefTotal> <RefLink>https://doi.org/10.48550/arXiv.2411.14914</RefLink> </Reference> <Reference refNo="28"> <RefAuthor>Budau L</RefAuthor> <RefAuthor>Ensan F</RefAuthor> <RefTitle>Fully Automated Scholarly Search for Biomedical Systematic Literature Reviews</RefTitle> <RefYear>2024</RefYear> <RefJournal>IEEE Access</RefJournal> <RefPage>83764-73</RefPage> <RefTotal>Budau L, Ensan F. Fully Automated Scholarly Search for Biomedical Systematic Literature Reviews. IEEE Access. 2024;12:83764-73. DOI: 10.1109/access.2024.3405529</RefTotal> <RefLink>https://doi.org/10.1109/access.2024.3405529</RefLink> </Reference> <Reference refNo="29"> <RefAuthor>Bourgeois JP</RefAuthor> <RefAuthor>Ellingson H</RefAuthor> <RefTitle>Ability of ChatGPT to Generate Systematic Review Search Strategies Compared to a Published Search Strategy</RefTitle> <RefYear>2025</RefYear> <RefJournal>Med Ref Serv Q</RefJournal> <RefPage>279-291</RefPage> <RefTotal>Bourgeois JP, Ellingson H. Ability of ChatGPT to Generate Systematic Review Search Strategies Compared to a Published Search Strategy. Med Ref Serv Q. 2025;44(3):279-291. DOI: 10.1080/02763869.2025.2537075</RefTotal> <RefLink>https://doi.org/10.1080/02763869.2025.2537075</RefLink> </Reference> <Reference refNo="30"> <RefAuthor>Boyle A</RefAuthor> <RefAuthor>Huo B</RefAuthor> <RefAuthor>Sylla P</RefAuthor> <RefAuthor>Calabrese E</RefAuthor> <RefAuthor>Kumar S</RefAuthor> <RefAuthor>Slater BJ</RefAuthor> <RefAuthor>Walsh DS</RefAuthor> <RefAuthor>Vosburg RW</RefAuthor> <RefTitle>Large language model-generated clinical practice guideline for appendicitis</RefTitle> <RefYear>2025</RefYear> <RefJournal>Surg Endosc</RefJournal> <RefPage>3539-3551</RefPage> <RefTotal>Boyle A, Huo B, Sylla P, Calabrese E, Kumar S, Slater BJ, Walsh DS, Vosburg RW. Large language model-generated clinical practice guideline for appendicitis. Surg Endosc. 2025 Jun;39(6):3539-3551. DOI: 10.1007/s00464-025-11723-3</RefTotal> <RefLink>https://doi.org/10.1007/s00464-025-11723-3</RefLink> </Reference> <Reference refNo="31"> <RefAuthor>Pourreza M</RefAuthor> <RefAuthor>Ensan F</RefAuthor> <RefTitle>Towards semantic-driven boolean query formalization for biomedical systematic literature reviews</RefTitle> <RefYear>2023</RefYear> <RefJournal>Int J Med Inform</RefJournal> <RefPage>104928</RefPage> <RefTotal>Pourreza M, Ensan F. Towards semantic-driven boolean query formalization for biomedical systematic literature reviews. Int J Med Inform. 2023 Feb;170:104928. DOI: 10.1016/j.ijmedinf.2022.104928</RefTotal> <RefLink>https://doi.org/10.1016/j.ijmedinf.2022.104928</RefLink> </Reference> <Reference refNo="32"> <RefAuthor>Featherstone R</RefAuthor> <RefAuthor>Walter M</RefAuthor> <RefAuthor>MacDougall D</RefAuthor> <RefAuthor>Morenz E</RefAuthor> <RefAuthor>Bailey S</RefAuthor> <RefAuthor>Butcher R</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>A Comparative Analysis of Artificial Intelligence Search Tools for Evidence Synthesis [Preprint]</RefTitle> <RefYear>2025</RefYear> <RefJournal>Authorea</RefJournal> <RefPage></RefPage> <RefTotal>Featherstone R, Walter M, MacDougall D, Morenz E, Bailey S, Butcher R, et al. A Comparative Analysis of Artificial Intelligence Search Tools for Evidence Synthesis [Preprint]. Authorea. 2025. DOI: 10.22541/au.174897559.99564896/v1</RefTotal> <RefLink>https://doi.org/10.22541/au.174897559.99564896/v1</RefLink> </Reference> <Reference refNo="33"> <RefAuthor>Chelli M</RefAuthor> <RefAuthor>Descamps J</RefAuthor> <RefAuthor>Lavoué V</RefAuthor> <RefAuthor>Trojani C</RefAuthor> <RefAuthor>Azar M</RefAuthor> <RefAuthor>Deckert M</RefAuthor> <RefAuthor>Raynier JL</RefAuthor> <RefAuthor>Clowez G</RefAuthor> <RefAuthor>Boileau P</RefAuthor> <RefAuthor>Ruetsch-Chelli C</RefAuthor> <RefTitle>Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis</RefTitle> <RefYear>2024</RefYear> <RefJournal>J Med Internet Res</RefJournal> <RefPage>e53164</RefPage> <RefTotal>Chelli M, Descamps J, Lavoué V, Trojani C, Azar M, Deckert M, Raynier JL, Clowez G, Boileau P, Ruetsch-Chelli C. Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis. J Med Internet Res. 2024 May;26:e53164. DOI: 10.2196/53164</RefTotal> <RefLink>https://doi.org/10.2196/53164</RefLink> </Reference> <Reference refNo="34"> <RefAuthor>Gwon YN</RefAuthor> <RefAuthor>Kim JH</RefAuthor> <RefAuthor>Chung HS</RefAuthor> <RefAuthor>Jung EJ</RefAuthor> <RefAuthor>Chun J</RefAuthor> <RefAuthor>Lee S</RefAuthor> <RefAuthor>Shim SR</RefAuthor> <RefTitle>The Use of Generative AI for Scientific Literature Searches for Systematic Reviews: ChatGPT and Microsoft Bing AI Performance Evaluation</RefTitle> <RefYear>2024</RefYear> <RefJournal>JMIR Med Inform</RefJournal> <RefPage>e51187</RefPage> <RefTotal>Gwon YN, Kim JH, Chung HS, Jung EJ, Chun J, Lee S, Shim SR. The Use of Generative AI for Scientific Literature Searches for Systematic Reviews: ChatGPT and Microsoft Bing AI Performance Evaluation. JMIR Med Inform. 2024 May;12:e51187. DOI: 10.2196/51187</RefTotal> <RefLink>https://doi.org/10.2196/51187</RefLink> </Reference> <Reference refNo="35"> <RefAuthor>Sanii RY</RefAuthor> <RefAuthor>Kasto JK</RefAuthor> <RefAuthor>Wines WB</RefAuthor> <RefAuthor>Mahylis JM</RefAuthor> <RefAuthor>Muh SJ</RefAuthor> <RefTitle>Utility of Artificial Intelligence in Orthopedic Surgery Literature Review: A Comparative Pilot Study</RefTitle> <RefYear>2024</RefYear> <RefJournal>Orthopedics</RefJournal> <RefPage>e125-e130</RefPage> <RefTotal>Sanii RY, Kasto JK, Wines WB, Mahylis JM, Muh SJ. Utility of Artificial Intelligence in Orthopedic Surgery Literature Review: A Comparative Pilot Study. Orthopedics. 2024;47(3):e125-e130. DOI: 10.3928/01477447-20231220-02</RefTotal> <RefLink>https://doi.org/10.3928/01477447-20231220-02</RefLink> </Reference> <Reference refNo="36"> <RefAuthor>Seth I</RefAuthor> <RefAuthor>Lim B</RefAuthor> <RefAuthor>Xie Y</RefAuthor> <RefAuthor>Ross RJ</RefAuthor> <RefAuthor>Cuomo R</RefAuthor> <RefAuthor>Rozen WM</RefAuthor> <RefTitle>Artificial intelligence versus human researcher performance for systematic literature searches: a study focusing on the surgical management of base of thumb arthritis</RefTitle> <RefYear>2025</RefYear> <RefJournal>Plastic and Aesthetic Research</RefJournal> <RefPage>1</RefPage> <RefTotal>Seth I, Lim B, Xie Y, Ross RJ, Cuomo R, Rozen WM. Artificial intelligence versus human researcher performance for systematic literature searches: a study focusing on the surgical management of base of thumb arthritis. Plastic and Aesthetic Research. 2025;12:1.</RefTotal> </Reference> <Reference refNo="37"> <RefAuthor>Bernard N</RefAuthor> <RefAuthor>Sagawa Y Jr</RefAuthor> <RefAuthor>Bier N</RefAuthor> <RefAuthor>Lihoreau T</RefAuthor> <RefAuthor>Pazart L</RefAuthor> <RefAuthor>Tannou T</RefAuthor> <RefTitle>Using artificial intelligence for systematic review: the example of elicit</RefTitle> <RefYear>2025</RefYear> <RefJournal>BMC Med Res Methodol</RefJournal> <RefPage>75</RefPage> <RefTotal>Bernard N, Sagawa Y Jr, Bier N, Lihoreau T, Pazart L, Tannou T. Using artificial intelligence for systematic review: the example of elicit. BMC Med Res Methodol. 2025 Mar;25(1):75. DOI: 10.1186/s12874-025-02528-y</RefTotal> <RefLink>https://doi.org/10.1186/s12874-025-02528-y</RefLink> </Reference> <Reference refNo="38"> <RefAuthor>Lau O</RefAuthor> <RefAuthor>Golder S</RefAuthor> <RefTitle>Comparison of Elicit AI and Traditional Literature Searching in Evidence Syntheses Using Four Case Studies</RefTitle> <RefYear>2025</RefYear> <RefJournal>Cochrane Evid Synth Methods</RefJournal> <RefPage>e70050</RefPage> <RefTotal>Lau O, Golder S. Comparison of Elicit AI and Traditional Literature Searching in Evidence Syntheses Using Four Case Studies. Cochrane Evid Synth Methods. 2025 Nov;3(6):e70050. DOI: 10.1002/cesm.70050</RefTotal> <RefLink>https://doi.org/10.1002/cesm.70050</RefLink> </Reference> <Reference refNo="39"> <RefAuthor>Tosi D</RefAuthor> <RefTitle>Comparing Generative AI Literature Reviews Versus Human-Led Systematic Literature Reviews: A Case Study on Big Data Research</RefTitle> <RefYear>2025</RefYear> <RefJournal>IEEE Access</RefJournal> <RefPage>56210-9</RefPage> <RefTotal>Tosi D. Comparing Generative AI Literature Reviews Versus Human-Led Systematic Literature Reviews: A Case Study on Big Data Research. IEEE Access. 2025;13:56210-9. DOI: 10.1109/access.2025.3554504</RefTotal> <RefLink>https://doi.org/10.1109/access.2025.3554504</RefLink> </Reference> <Reference refNo="40"> <RefAuthor>The JBI Information Science Methodology Group</RefAuthor> <RefAuthor>Ross-White A</RefAuthor> <RefAuthor>Lieggi M</RefAuthor> <RefAuthor>Palacio FGL</RefAuthor> <RefAuthor>Solomons T</RefAuthor> <RefAuthor>Swab M</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>2.4 Search Methodology for JBI Evidence Syntheses</RefTitle> <RefYear>2024</RefYear> <RefBookTitle>JBI Manual for Evidence Synthesis</RefBookTitle> <RefPage></RefPage> <RefTotal>The JBI Information Science Methodology Group, Ross-White A, Lieggi M, Palacio FGL, Solomons T, Swab M, et al. 2.4 Search Methodology for JBI Evidence Syntheses. In: JBI Manual for Evidence Synthesis. 2024. DOI: 10.46658/JBIMES-24-01</RefTotal> <RefLink>https://doi.org/10.46658/JBIMES-24-01</RefLink> </Reference> <Reference refNo="41"> <RefAuthor>European network for Health Technology Assessment (EUnetHTA)</RefAuthor> <RefTitle></RefTitle> <RefYear>2020</RefYear> <RefBookTitle>Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness</RefBookTitle> <RefPage></RefPage> <RefTotal>European network for Health Technology Assessment (EUnetHTA). Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness. Version 2.0. 2020.</RefTotal> </Reference> <Reference refNo="42"> <RefAuthor>Hill J</RefAuthor> <RefAuthor>Brini S</RefAuthor> <RefAuthor>Morrison K</RefAuthor> <RefAuthor>Tran A</RefAuthor> <RefAuthor>Towson G</RefAuthor> <RefTitle>Can artificial intelligence perform accurate peer review of literature search strategies? A proof of concept study</RefTitle> <RefYear>2024</RefYear> <RefBookTitle>Global Evidence Summit; 2024 September 10-13; Prague, Czech Republic</RefBookTitle> <RefPage></RefPage> <RefTotal>Hill J, Brini S, Morrison K, Tran A, Towson G. Can artificial intelligence perform accurate peer review of literature search strategies? A proof of concept study. In: Global Evidence Summit; 2024 September 10-13; Prague, Czech Republic. Cochrane; 2024.</RefTotal> </Reference> <Reference refNo="43"> <RefAuthor>Gitman V</RefAuthor> <RefAuthor>Maxwell C</RefAuthor> <RefAuthor>Gamble JM</RefAuthor> <RefTitle>Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation</RefTitle> <RefYear>2025</RefYear> <RefJournal>Comput Biol Med</RefJournal> <RefPage>110464</RefPage> <RefTotal>Gitman V, Maxwell C, Gamble JM. Enhancing search strategies for systematic reviews on drug Harms: An evaluation of the utility of ChatGPT in error detection and keyword generation. Comput Biol Med. 2025 Jul;193:110464. DOI: 10.1016/j.compbiomed.2025.110464</RefTotal> <RefLink>https://doi.org/10.1016/j.compbiomed.2025.110464</RefLink> </Reference> <Reference refNo="44"> <RefAuthor>Cao C</RefAuthor> <RefAuthor>Arora R</RefAuthor> <RefAuthor>Cento P</RefAuthor> <RefAuthor>Manta K</RefAuthor> <RefAuthor>Farahani E</RefAuthor> <RefAuthor>Cecere M</RefAuthor> <RefAuthor></RefAuthor> <RefTitle>Automation of Systematic Reviews with Large Language Models [Preprint]</RefTitle> <RefYear>2025</RefYear> <RefJournal>medRxiv</RefJournal> <RefPage></RefPage> <RefTotal>Cao C, Arora R, Cento P, Manta K, Farahani E, Cecere M, et al. Automation of Systematic Reviews with Large Language Models [Preprint]. medRxiv. 2025. DOI: 10.1101/2025.06.13.25329541</RefTotal> <RefLink>https://doi.org/10.1101/2025.06.13.25329541</RefLink> </Reference> <Reference refNo="45"> <RefAuthor>Elicit</RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>Systematic Reviews in Elicit</RefBookTitle> <RefPage></RefPage> <RefTotal>Elicit. Systematic Reviews in Elicit. [Accessed 2025 Oct 26]. Available from: https://support.elicit.com/en/articles/7927169</RefTotal> <RefLink>https://support.elicit.com/en/articles/7927169</RefLink> </Reference> <Reference refNo="46"> <RefAuthor>Fortier-Dubois É</RefAuthor> <RefTitle></RefTitle> <RefYear>2025</RefYear> <RefBookTitle>How we evaluated Elicit Systematic Review</RefBookTitle> <RefPage></RefPage> <RefTotal>Fortier-Dubois É. How we evaluated Elicit Systematic Review. Elicit; 2025 Mar 18. Available from: https://blog.elicit.com/how-we-evaluated-elicit-systematic-review/</RefTotal> <RefLink>https://blog.elicit.com/how-we-evaluated-elicit-systematic-review/</RefLink> </Reference> <Reference refNo="47"> <RefAuthor>Thomas J</RefAuthor> <RefAuthor>Flemyng E</RefAuthor> <RefAuthor>Noel-Storr A</RefAuthor> <RefAuthor>Moy W</RefAuthor> <RefAuthor>Marshall IJ</RefAuthor> <RefAuthor>Hajji R</RefAuthor> <RefAuthor></RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE): guidance and recommendations. Version 2</RefBookTitle> <RefPage></RefPage> <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE): guidance and recommendations. Version 2. [updated 2025 Jun 3]. Available from: https://osf.io/fwaud/</RefTotal> <RefLink>https://osf.io/fwaud/</RefLink> </Reference> <Reference refNo="48"> <RefAuthor>Thomas J</RefAuthor> <RefAuthor>Flemyng E</RefAuthor> <RefAuthor>Noel-Storr A</RefAuthor> <RefAuthor>Moy W</RefAuthor> <RefAuthor>Marshall IJ</RefAuthor> <RefAuthor>Hajji R</RefAuthor> <RefAuthor></RefAuthor> <RefTitle></RefTitle> <RefYear>2025</RefYear> <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE) 1: Recommendations for practice</RefBookTitle> <RefPage></RefPage> <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE) 1: Recommendations for practice. 2025 Jun 3. Available from: https://osf.io/cqa82</RefTotal> <RefLink>https://osf.io/cqa82</RefLink> </Reference> <Reference refNo="49"> <RefAuthor>Thomas J</RefAuthor> <RefAuthor>Flemyng E</RefAuthor> <RefAuthor>Noel-Storr A</RefAuthor> <RefAuthor>Moy W</RefAuthor> <RefAuthor>Marshall IJ</RefAuthor> <RefAuthor>Hajji R</RefAuthor> <RefAuthor></RefAuthor> <RefTitle></RefTitle> <RefYear></RefYear> <RefBookTitle>Responsible AI in Evidence Synthesis (RAISE): 3: selecting and using AI evidence synthesis tools. version 2</RefBookTitle> <RefPage></RefPage> <RefTotal>Thomas J, Flemyng E, Noel-Storr A, Moy W, Marshall IJ, Hajji R, et al. Responsible AI in Evidence Synthesis (RAISE): 3: selecting and using AI evidence synthesis tools. version 2. [updated 2025 Jun 3]. Available from: https://osf.io/fwaud/files/5xjpk</RefTotal> <RefLink>https://osf.io/fwaud/files/5xjpk</RefLink> </Reference> <Reference refNo="50"> <RefAuthor>Metzendorf MI</RefAuthor> <RefAuthor>Klerings I</RefAuthor> <RefTitle></RefTitle> <RefYear>2025</RefYear> <RefBookTitle>(How) can AI-based automation tools assist with systematic searching? [Webinar]</RefBookTitle> <RefPage></RefPage> <RefTotal>Metzendorf MI, Klerings I. (How) can AI-based automation tools assist with systematic searching? [Webinar]. Cochrane; 2025. Available from: https://www.cochrane.org/events/how-can-ai-based-automation-tools-assist-systematic-searching</RefTotal> <RefLink>https://www.cochrane.org/events/how-can-ai-based-automation-tools-assist-systematic-searching</RefLink> </Reference> <Reference refNo="51"> <RefAuthor>Klerings I</RefAuthor> <RefAuthor>Metzendorf MI</RefAuthor> <RefTitle>(Wie) kann KI bei der systematischen Literatursuche helfen?</RefTitle> <RefYear>2025</RefYear> <RefBookTitle>26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025</RefBookTitle> <RefPage>Doc25ebmWS-03-01</RefPage> <RefTotal>Klerings I, Metzendorf MI. (Wie) kann KI bei der systematischen Literatursuche helfen?. In: Die EbM der Zukunft – packen wir’s an! 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmWS-03-01. DOI: 10.3205/25ebm118</RefTotal> <RefLink>https://doi.org/10.3205/25ebm118</RefLink> </Reference> </References> <Media> <Tables> <NoOfTables>0</NoOfTables> </Tables> <Figures> <NoOfPictures>0</NoOfPictures> </Figures> <InlineFigures> <NoOfPictures>0</NoOfPictures> </InlineFigures> <Attachments> <NoOfAttachments>0</NoOfAttachments> </Attachments> </Media> </OrigData> </GmsArticle>