The policies on the use of large language models in radiological journals are lacking: a meta-research study.
放射學期刊中大型語言模型使用政策的不足：一項元研究。 Insights Imaging 2024-08-01

這項元研究評估了放射學期刊中關於大型語言模型（LLMs）使用的政策。結果顯示，43.9%的期刊有相關政策，其中43.4%針對作者，29.6%針對審稿人，25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色，但僅少數提及其潛在影響。研究指出，LLM政策的存在與出版商有顯著關聯，並建議制定共享的報告指導方針，以提升科學寫作的質量與透明度，強調目前的探索仍需進一步發展。 PubMed DOI

Generative Large Language Models in Electronic Health Records for Patient Care Since 2023: A Systematic Review.
2023年以來生成大型語言模型在電子健康紀錄中的病患照護：系統性回顧。 medRxiv 2024-09-04

這項研究系統性回顧了生成性大型語言模型（LLMs）在臨床環境，特別是電子健康紀錄（EHRs）的應用。儘管自然語言處理技術進步，LLMs在臨床實踐中的整合仍有限，面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻，發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性，以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估，以提升LLMs在醫療中的可靠性。總之，LLMs在病人護理上有潛力，但仍需克服重大障礙。 PubMed DOI

Testing and Evaluation of Health Care Applications of Large Language Models: A Systematic Review.
大型語言模型在健康照護應用中的測試與評估：系統性回顧。 JAMA 2024-10-15

大型語言模型（LLMs）在醫療領域有潛力，但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧，發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷，行政任務則較少。大多數研究專注於問答任務，準確性是主要評估維度，但公平性和偏見等問題卻被忽略。未來應標準化評估指標，納入臨床數據，並擴展至更多任務和專科。 PubMed DOI

Analyzing evaluation methods for large language models in the medical field: a scoping review.
分析醫療領域大型語言模型評估方法：範疇回顧。 BMC Med Inform Decis Mak 2024-11-29

這項研究回顧了大型語言模型（LLMs）在醫療領域的評估，指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章，資料來自PubMed、Embase和MEDLINE。結果顯示，LLM的評估主要分為測試考試和醫療專業人員的評估，部分研究則結合兩者。大多數評估問題數量不超過100題，且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論，以提升LLM在醫療應用中的表現。 PubMed DOI

The TRIPOD-LLM reporting guideline for studies using large language models.
使用大型語言模型的 TRIPOD-LLM 報告指導方針。 Nat Med 2025-01-08

大型語言模型（LLMs）在醫療保健的應用越來越普遍，這讓標準化報告指導方針變得更重要。TRIPOD-LLM框架是TRIPOD加上人工智慧聲明的延伸，專門針對LLMs在生物醫學中的挑戰，提供19個主要項目和50個子項目的檢查清單，涵蓋報告的各個部分。這個框架採用模組化設計，適用於不同研究和任務，並透過專家共識制定，強調透明度和人類監督。此外，還有一個互動網站幫助使用者生成報告PDF。TRIPOD-LLM會隨著領域進展而調整，目的是提升LLM在醫療研究中的質量和臨床相關性。 PubMed DOI

Current applications and challenges in large language models for patient care: a systematic review.
大型語言模型在病患照護中的現行應用與挑戰：系統性回顧。 Commun Med (Lond) 2025-01-21

大型語言模型（LLMs）在臨床實踐中有潛力提升病人教育與賦權，提供更個人化的醫療服務。然而，目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究，主要集中於GPT-3.5和GPT-4，應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制，包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

Large Language Models for Chatbot Health Advice Studies: A Systematic Review.
大型語言模型在聊天機器人健康建議研究中的應用：系統性回顧。 JAMA Netw Open 2025-02-04

這項系統性回顧分析了137篇經過同行評審的研究，探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示，研究報告標準差異大，主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防，但幾乎全數（99.3%）使用的都是無法訪問的封閉源碼大型語言模型，且對其特徵描述不足。此外，多數研究未提及提示工程，只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準，建議開發聊天機器人評估報告工具（CHART），以提升臨床評估與整合的效果。 PubMed DOI

Application of large language models in healthcare: A bibliometric analysis.
大型語言模型在醫療保健中的應用：文獻計量分析。 Digit Health 2025-03-04

這篇文章探討大型語言模型（LLMs）在醫療保健的應用，透過文獻計量分析，篩選出371篇相關期刊文章。結果顯示，LLMs的研究數量在美國、義大利和德國等發達國家顯著增加，並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域，但也引發對倫理影響和風險的擔憂，如數據偏見和透明度問題。為了促進LLMs的可靠使用，需建立責任指導方針和監管框架，確保數據的證據基礎。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Cross sectional pilot study on clinical review generation using large language models.
使用大型語言模型生成臨床評估的橫斷面初步研究。 NPJ Digit Med 2025-03-20

隨著醫學文獻快速增長，使用大型語言模型（LLMs）來創建臨床評估的興趣也在上升。不過，對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估，發現LLMs雖然能快速產出內容，但通常缺乏深度、參考文獻少且邏輯不夠一致。此外，LLMs常引用不知名期刊，且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足，顯示需要改進檢測方法和建立更強的倫理框架，以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

原始文章

站上相關主題文章列表