原始文章

這項研究分析了不同大型語言模型(LLMs)在識別遺傳疾病時的表現,對比了開源模型(如Llama-2-chat和Vicuna)與封閉源模型(如ChatGPT-4)。結果顯示,開源模型的準確率在54%-68%之間,而ChatGPT-4則高達89%-90%。研究還指出,臨床醫生和一般民眾的提問對模型表現有顯著影響,且使用列表型提示能提升準確性。整體而言,這項研究揭示了LLMs在醫療領域的潛力與挑戰。 PubMed DOI


站上相關主題文章列表

ChatGPT是一種先進的語言模型,可以回答各種問題而不需要特定訓練。人們對於在醫療保健領域使用這些大型語言模型感到興奮和擔憂。本文討論了LLMs在臨床設置中的應用,探討了它們的優勢、限制和提升醫學效率的潛力。對於想要在醫療保健中使用LLM技術的臨床醫師,本文提供了評估其對患者和醫護人員好處的指南。 PubMed DOI

這項研究探討了大型語言模型(LLMs)如ChatGPT和Google Bard在從臨床摘要中預測神經病理診斷方面的應用。這些LLMs在某些案例中準確識別了主要診斷並提供了其預測的理由。研究結果表明,像ChatGPT這樣的人工智慧工具可能有助於增強神經病理學的臨床病理會議中的討論。 PubMed DOI

研究指出大型語言模型(LLMs)如Bard、ChatGPT-3.5和GPT-4在醫學教育中對診斷罕見複雜疾病有幫助。LLMs表現比人類和MedAlpaca更好,尤其是GPT-4最準確。每個LLM需要不同的提示策略,提示工程至關重要。研究顯示LLMs能提升對具挑戰性醫學病例的診斷推理,對研究人員和醫護人員具啟發性。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究評估大型語言模型在基因組分析中的應用潛力,以診斷罕見遺傳疾病。最佳模型準確率為16.0%,低於傳統工具,但隨模型大小增加,準確性提高。自由文本輸入可提高預測準確性,但某些基因可能存在偏見。總結,大型語言模型在基因組分析中有應用價值。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這項研究探討大型語言模型(LLMs)在診斷罕見遺傳疾病中的應用,特別是基於表型的基因優先排序。研究比較了五種LLMs,結果顯示GPT-4的表現最佳,能在前50個預測中準確識別17.0%的診斷基因,但仍低於傳統方法。雖然較大的模型通常表現較好,先進技術如檢索增強生成並未提升準確性,但精緻的提示改善了任務完整性。整體而言,這些發現顯示LLMs在基因組分析中的潛力與限制,對臨床應用有重要影響。 PubMed DOI