Quality of Video Content Related to Deep Inferior Epigastric Perforator Flap Breast Reconstruction: Social Media Platforms Versus Large Language Models.
深下腹壁穿支皮瓣乳房重建相關視頻內容的質量：社交媒體平台與大型語言模型的比較。 Ann Plast Surg 2024-08-16

這項研究探討了深下腹皮瓣（DIEP）乳房重建的資訊質量，並比較了社交媒體平台（SMPs）與大型語言模型（LLMs）如ChatGPT和Google Bard的內容。分析了50個英語和西班牙語的視頻，結果顯示LLMs的資訊質量明顯較高，ChatGPT和Google Bard的平均DISCERN分數分別為54和61.17，屬於良好質量。而SMPs的得分則低得多，顯示38%的視頻由非醫療作者製作，突顯了可靠資訊的缺口。研究強調學術整形外科醫生需提供高質量資訊以改善病患教育。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Large language models in patient education: a scoping review of applications in medicine.
大型語言模型在病人教育中的應用：醫學領域的範疇回顧。 Front Med (Lausanne) 2024-11-13

這篇回顧探討大型語言模型（LLMs）在病人教育和參與中的應用，分析了201項主要來自美國的研究，並提出六個關鍵主題，包括生成病人教育材料、解釋醫療資訊、提供生活方式建議等。研究顯示，LLMs能有效生成易懂的內容，改善病人與醫療提供者的溝通，但也存在可讀性、準確性及偏見等問題。未來需進一步研究以提升LLM的可靠性，並解決其在醫療應用中的倫理挑戰。 PubMed DOI

Analyzing evaluation methods for large language models in the medical field: a scoping review.
分析醫療領域大型語言模型評估方法：範疇回顧。 BMC Med Inform Decis Mak 2024-11-29

這項研究回顧了大型語言模型（LLMs）在醫療領域的評估，指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章，資料來自PubMed、Embase和MEDLINE。結果顯示，LLM的評估主要分為測試考試和醫療專業人員的評估，部分研究則結合兩者。大多數評估問題數量不超過100題，且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論，以提升LLM在醫療應用中的表現。 PubMed DOI

Large Language Models in Gastroenterology: Systematic Review.
大型語言模型在胃腸病學中的應用：系統性回顧。 J Med Internet Res 2024-12-20

這篇系統性回顧探討大型語言模型（LLMs）在胃腸科及內視鏡的應用，強調其在提升診斷準確性、自動化文檔處理及改善專家教育和病人參與方面的潛力。回顧分析了21篇來自MEDLINE、Embase和Cochrane Central的研究，結果顯示5篇偏倚風險低，16篇中等風險。LLMs能有效傳播醫療資訊、協助諮詢及生成手術報告，但仍面臨數據隱私、準確性及跨學科合作等挑戰，需重視解決這些問題，以發揮其在胃腸內視鏡實務中的潛力。 PubMed DOI

Large Language Models lack essential metacognition for reliable medical reasoning.
大型語言模型缺乏可靠醫學推理所需的基本後設認知。 Nat Commun 2025-01-14

大型語言模型（LLMs）在醫學考試中表現出色，但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試，評估模型的信心分數和元認知任務。研究顯示，雖然模型在回答問題上表現良好，但在識別知識空白方面存在重大缺陷，經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險，因此需要改進評估框架，以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

Quality of Information in Carpal Tunnel Syndrome: Social Media Platforms Versus Large Language Models.
腕管綜合症資訊的品質：社交媒體平台與大型語言模型的比較。 Ann Plast Surg 2025-01-28

腕管症候群（CTS）是一種常見病症，受到醫療界和大眾的重視。本研究分析了社交媒體平台上有關CTS的資訊質量，並與大型語言模型（LLMs）如ChatGPT和Google Bard的資訊進行比較。研究涵蓋80部YouTube和Instagram影片，發現LLMs提供的資訊質量顯著高於社交媒體影片。醫療專業人士創作的影片得分較高，但53.8%的影片由非醫療作者製作，顯示專業性不足。結論強調需增加醫療專業人士在社交媒體上的參與，以提升正確知識的傳播。 PubMed DOI

Application of large language models in healthcare: A bibliometric analysis.
大型語言模型在醫療保健中的應用：文獻計量分析。 Digit Health 2025-03-04

這篇文章探討大型語言模型（LLMs）在醫療保健的應用，透過文獻計量分析，篩選出371篇相關期刊文章。結果顯示，LLMs的研究數量在美國、義大利和德國等發達國家顯著增加，並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域，但也引發對倫理影響和風險的擔憂，如數據偏見和透明度問題。為了促進LLMs的可靠使用，需建立責任指導方針和監管框架，確保數據的證據基礎。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Cross sectional pilot study on clinical review generation using large language models.
使用大型語言模型生成臨床評估的橫斷面初步研究。 NPJ Digit Med 2025-03-20

隨著醫學文獻快速增長，使用大型語言模型（LLMs）來創建臨床評估的興趣也在上升。不過，對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估，發現LLMs雖然能快速產出內容，但通常缺乏深度、參考文獻少且邏輯不夠一致。此外，LLMs常引用不知名期刊，且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足，顯示需要改進檢測方法和建立更強的倫理框架，以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

原始文章

站上相關主題文章列表