原始文章

使用大型語言模型(LLM)能顯著提升醫生在複雜管理推理任務上的表現,超越傳統資源。在一項針對92位醫生的隨機對照試驗中,使用GPT-4的醫生在管理推理任務中得分較高。研究顯示,LLM的協助能改善管理決策、診斷決策及特定案例的表現,顯示其在複雜臨床情境中做出決策的能力,特別是在缺乏明確答案的情況下。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

研究發現大型語言模型(LLMs)在神經學委員會風格考試中,LLM 2比LLM 1表現更好,接近及格分數,有些類別甚至超越人類。兩者在較簡單問題上表現較佳,但在較難問題上表現較差。LLM 2在臨床神經學應用有潛力,顯示在醫療保健領域LLM有發展空間,未來有望更加突顯其價值。 PubMed DOI

研究發現,透過診斷提示,GPT-4能夠模擬臨床醫師的診斷過程並保持準確性。這對醫師理解並信任LLMs的回應很重要,有助於克服「黑盒子」問題,提升LLMs在醫學實踐中的安全性與效益。 PubMed DOI

研究評估了大型語言模型在虛構醫學案例中對腦膜炎指南的應用。結果顯示,不同模型在診斷和治療建議上存在差異,且常有誤導性資訊。GTP-4表現最佳,但使用者仍應注意模型的限制和差異。未來需進一步研究以提升模型對複雜醫學情境的準確性。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

這項研究探討使用大型語言模型(LLMs)來模擬和分析癲癇治療的隨機臨床試驗。LLMs被用來產生臨床數據並分析藥物效力和報告的症狀,顯示與人類評估有密切的一致性。這表明LLMs能夠有效地總結和綜合臨床數據,為未來臨床研究提供了一個有前途的工具,而不需要專門的醫學語言培訓。 PubMed DOI

研究使用大型語言模型幫助病人提出問題,提升溝通效率。以范德堡大學醫學中心數據測試三個模型,CLAIR在清晰度、完整性和簡潔性表現最佳。GPT4在效用和完整性較高,但清晰度和簡潔性較差。CLAIR生成的問題與醫療者相符,有助改善溝通。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI