原始文章

這項研究評估了使用大型語言模型(LLM),特別是GPT-4,在協助醫生進行管理推理任務方面的有效性,並與傳統資源進行比較。研究於2023年11月到2024年4月進行。 PubMed DOI


站上相關主題文章列表

人工智慧(AI),像是ChatGPT,可以透過改善診斷和治療來革新醫療保健。在一項研究中,ChatGPT-4 在外科知識評估上表現出色,但在重複查詢時回答不一致。這凸顯了需要進一步訓練,以確保對臨床醫師提供安全且一致的協助。 PubMed DOI

研究比較了最新的人工智慧模型 GPT-4 與前身 GPT-3.5 在81個複雜醫學案例的表現。GPT-4 在主要診斷準確率達38.3%,在不同診斷方面提高至71.6%。它在84.0%的案例提出主要診斷建議,大多數領域優於GPT-3.5,除了藥物反應。GPT-4 在感染性疾病和藥物反應方面表現優異,但在認知障礙案例中稍差。總的來說,GPT-4 在準確診斷、全面不同診斷和適當調查方面展現潛力,雖然表現因醫學專業領域而略有不同。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

使用大型語言模型(LLM)能顯著提升醫生在複雜管理推理任務上的表現,超越傳統資源。在一項針對92位醫生的隨機對照試驗中,使用GPT-4的醫生在管理推理任務中得分較高。研究顯示,LLM的協助能改善管理決策、診斷決策及特定案例的表現,顯示其在複雜臨床情境中做出決策的能力,特別是在缺乏明確答案的情況下。 PubMed DOI

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示,GPT-4的準確率達84%,明顯高於GPT-3.5的56%,標準分數提升410分。定性分析指出,GPT-4能整合新資訊並自我修正,展現高準確性和快速學習能力。研究強調,GPT-4在臨床決策中具潛力,同時也提醒醫生在運用人工智慧時,需具備批判性思考和終身學習的能力。 PubMed DOI

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現,分析了10,000次就診。結果顯示,這兩個模型的準確性都不如住院醫師,GPT-4-turbo平均低8%,而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好,但特異性較低,顯示出建議過於謹慎。研究指出,儘管LLMs在臨床應用上有潛力,但在成為可靠的醫療決策支持系統前,仍需大幅改進。 PubMed DOI