原始文章

這項研究比較了大型語言模型GPT-4與內分泌科醫生在糖尿病治療中對metformin及替代療法的選擇。研究發現,GPT-4在簡單提示下僅選擇12%的案例使用metformin,而醫生則為31%。當提示鼓勵使用metformin時,GPT-4的選擇提高至25%。在腎功能受損或有腸胃不適的患者中,GPT-4幾乎不選擇metformin(2.9%),而醫生則有21%的回應。研究結論指出,GPT-4的回應雖合理,但與醫生的選擇存在顯著差異,使用時需謹慎。 PubMed DOI


站上相關主題文章列表

GPT-4在醫學考試等學術任務上表現優秀,但在精神藥理學方面尚未廣泛研究。最新研究發現,Chat GPT-plus在抗抑鬱藥處方中表現良好,76%情境中包含最佳藥物選擇。模型提供治療選擇理由,但也有不理想建議,需進一步監測以降低潛在風險。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究使用GPT-4等大型語言模型回答病人的實驗室檢驗問題,結果顯示GPT-4回答通常更準確、相關、有幫助且安全。但在醫學背景下解釋不足及偶爾不準確。提升回答方法包括提示工程、擴充、檢索增強生成和評估。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

一項研究評估了 GPT-4.0 對神經外科常見臨床問題的回答。該模型在各個專業領域提供了通常準確、安全和有用的資訊。然而,也有一些不切實際或冒險的資訊、遺漏的症狀和不可靠的引用。雖然 GPT-4.0 顯示出潛力,但臨床醫師在實踐中依賴它時應該謹慎小心。 PubMed DOI

病患常覺得實驗室檢驗報告難懂,常上網求助。研究發現,使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

CGM有助於控制糖尿病,提供血糖控制見解。研究使用GPT-4分析1型糖尿病患者CGM數據,結果顯示GPT-4能正確安全地總結數據。然而,有些限制需注意,如可能將低血糖和高血糖事件給予過高優先級。總結,LLMs在糖尿病護理和醫學數據分析有潛力。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI