Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。 Nat Commun 2024-03-09

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳，尤其在常見疾病方面。商業LLMs有潛力用於醫學問答，但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

Performance of a Large Language Model in the Generation of Clinical Guidelines for Antibiotic Prophylaxis in Spine Surgery.
大型語言模型在脊柱手術抗生素預防指引生成中的表現。 Neurospine 2024-04-05

研究評估了ChatGPT模型在脊椎手術抗生素使用方面的應用，發現GPT-4.0比GPT-3.5更準確，並更頻繁引用指引。儘管ChatGPT能提供準確答案，但仍需謹慎應用於臨床。 PubMed DOI

Comparative analysis of large language models in medical counseling: A focus on Helicobacter pylori infection.
醫療諮詢中大型語言模型的比較分析：聚焦於 Helicobacter pylori 感染。 Helicobacter 2024-07-30

這項研究評估了三種大型語言模型（LLMs）在幽門螺旋桿菌感染諮詢中的有效性，重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日，針對15個H. pylori相關問題進行評估。結果顯示，準確性得分為4.80，顯示良好，但完整性和可理解性得分較低，分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出，雖然LLMs在提供資訊上表現不錯，但在完整性和可靠性方面仍需改進，以提升其作為醫療諮詢工具的效能。 PubMed DOI

Performance of the ChatGPT large language model for decision support in community pharmacy.
ChatGPT 大型語言模型在社區藥局決策支持中的表現。 Br J Clin Pharmacol 2024-08-27

這項研究評估了ChatGPT-4在社區藥局的表現，包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示，ChatGPT對藥物查詢的回應相當滿意，能引用正確的藥物數據，並成功識別標籤錯誤。在臨床情境中，其建議與藥師相當，特別是在藥物反應評估和健康建議方面。研究指出，ChatGPT可能成為社區藥局的有用工具，但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

Evaluating the use of large language models to provide clinical recommendations in the Emergency Department.
評估大型語言模型在急診科提供臨床建議的應用。 Nat Commun 2024-10-08

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現，分析了10,000次就診。結果顯示，這兩個模型的準確性都不如住院醫師，GPT-4-turbo平均低8%，而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好，但特異性較低，顯示出建議過於謹慎。研究指出，儘管LLMs在臨床應用上有潛力，但在成為可靠的醫療決策支持系統前，仍需大幅改進。 PubMed DOI

Recommended antibiotic treatment agreement between infectious diseases specialists and ChatGPT®.
感染科專家與 ChatGPT® 之間的抗生素治療建議協議。 BMC Infect Dis 2025-01-08

抗微生物抗藥性對全球公共健康造成重大挑戰。本研究評估了AI語言模型ChatGPT®在抗生素處方上的表現，並與傳染病專家比較。研究創建了100個模擬病人案例，結果顯示ChatGPT®與專家在抗生素處方上達成一致的有51個案例，Cohen's kappa係數為0.48，顯示中等一致性。在抗藥性機制方面，雙方一致的有42個案例，kappa係數為0.39，顯示公平一致性。整體而言，ChatGPT®在抗生素管理上的一致性較差。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

GP or ChatGPT? Ability of large language models (LLMs) to support general practitioners when prescribing antibiotics.
大型語言模型 (LLMs) 在支持全科醫生開立抗生素時的能力：GP 還是 ChatGPT？ J Antimicrob Chemother 2025-03-13

大型語言模型（LLMs）在醫療領域的應用日益增多，能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs（如ChatGPT、Gemini等）對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%，但在劑量和療程的準確性上較低（50%-75%）。LLMs的表現也不錯，但在參考指導方針的能力上不一致，特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險，雖然它們在抗生素處方上有潛力，但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表