Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。 Nat Commun 2024-03-09

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳，尤其在常見疾病方面。商業LLMs有潛力用於醫學問答，但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕患者對於解釋普通患者的檢驗結果的回答品質：評估研究。 ArXiv 2024-03-30

研究使用GPT-4等大型語言模型回答病人的實驗室檢驗問題，結果顯示GPT-4回答通常更準確、相關、有幫助且安全。但在醫學背景下解釋不足及偶爾不準確。提升回答方法包括提示工程、擴充、檢索增強生成和評估。 PubMed DOI

Quality of Answers of Generative Large Language Models Versus Peer Users for Interpreting Laboratory Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕用戶對於解釋普通患者的實驗室檢驗結果的答案品質：評估研究。 J Med Internet Res 2024-04-17

病患常覺得實驗室檢驗報告難懂，常上網求助。研究發現，使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Comparative Evaluation of LLMs in Clinical Oncology.
臨床腫瘤學中大型語言模型的比較評估。 NEJM AI 2024-08-12

隨著人工智慧工具的普及，患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型（LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4）在2044個腫瘤學相關問題上的表現。結果顯示，GPT-4在與人類基準比較中表現最佳，達到第50百分位以上。雖然GPT-4的準確率高達81.1%，但所有模型仍存在顯著錯誤率，顯示出持續評估這些AI工具的重要性，以確保其安全應用於臨床實踐。 PubMed DOI

Large Language Models to Help Appeal Denied Radiotherapy Services.
大型語言模型協助上訴被拒的放射治療服務。 JCO Clin Cancer Inform 2024-09-09

這項研究評估了多種大型語言模型（LLMs）在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估，結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信，對加速上訴過程有幫助。相對而言，經微調的GPT-3.5ft表現較差，且所有模型在引用文獻時均有困難。整體而言，LLMs可減輕醫生的文書負擔，但小型數據集微調可能影響性能。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Off-the-shelf Large Language Models (LLM) Are Of Insufficient Quality To Provide Medical Treatment Recommendations, While Customization of LLMs Result In Quality Recommendations.
現成的大型語言模型 (LLM) 在提供醫療治療建議方面的質量不足，而定制化的 LLM 則能產生高質量的建議。 Arthroscopy 2024-10-05

現成的大型語言模型（LLMs）在準確性上常反映互聯網上的不準確資訊，對於常見的肌肉骨骼疾病，治療建議的錯誤率高達30%。這顯示出諮詢專家的必要性。定制的LLMs則能整合各醫學領域的專業知識，方法包括： 1. **提示工程**：設計特定提示以獲得更佳回應。 2. **檢索增強生成（RAG）**：從目標數據集中檢索相關資訊。 3. **微調**：調整模型以理解醫療術語。 4. **代理增強**：利用軟體協調多個LLMs，優化輸出並引入人類監督。這些定制的LLMs幫助醫生在數位環境中重新掌握權威，確保醫療專業知識的準確性。 PubMed DOI

Evaluating the use of large language models to provide clinical recommendations in the Emergency Department.
評估大型語言模型在急診科提供臨床建議的應用。 Nat Commun 2024-10-08

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現，分析了10,000次就診。結果顯示，這兩個模型的準確性都不如住院醫師，GPT-4-turbo平均低8%，而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好，但特異性較低，顯示出建議過於謹慎。研究指出，儘管LLMs在臨床應用上有潛力，但在成為可靠的醫療決策支持系統前，仍需大幅改進。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

原始文章

站上相關主題文章列表