原始文章

這次比較發現,GPT-4o 能整合複雜臨床資訊,給出詳細診斷和治療建議,明顯優於 1970 年的 CAL AI 只能提供基本指引。這凸顯 AI 在醫療分析上的進步,但 AI 仍有侷限,應作為醫師的輔助工具,而非完全取代臨床判斷。 PubMed DOI


站上相關主題文章列表

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性,顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證,以充分了解其在醫學診斷中的實用性。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究比較了ChatGPT、GPT-3.5和GPT-4在急診科環境中的診斷能力。結果顯示,GPT-4在內科緊急情況的診斷上比GPT-3.5和住院醫師表現更好,尤其在心血管、內分泌和消化系統疾病方面。這顯示GPT-4有潛力成為急診科中有用的診斷工具。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現,特別是版本3.5和4,並與人類醫生進行比較。考試包含80道多選題,結果顯示人類醫生中位數得分為5.91,32人未通過。ChatGPT-3.5得分3.94,正確率54.5%,排名第116;而ChatGPT-4得分7.57,正確率81.8%,排名第17,超越許多人類專家。研究顯示,ChatGPT-4在醫學知識評估中有顯著進步,顯示其在專業醫學教育中的潛在價值。 PubMed DOI

最近的研究顯示,透過大型語言模型(LLMs)在急性肝衰竭(ALF)問題上的表現,特別是使用增強檢索生成(RAG)技術的ChatGPT 4,顯示出顯著的優勢。研究中評估了五個模型,結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳,得分分別為4.70、4.89和4.78。相比之下,其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力,但也指出其需持續進化以符合實際需求。 PubMed DOI

最近的研究比較了GPT-4與真正醫生在處理複雜初級醫療案例的表現。在瑞典進行的盲法觀察研究中,隨機選擇的醫生平均得分為6.0,頂尖醫生為7.2,而GPT-4僅為4.5,顯示出明顯差距。隨機醫生的表現比GPT-4高出1.6分,頂尖醫生則高出2.7分,且結果具統計意義。後續實驗中,GPT-4o的表現仍不及隨機醫生。整體來看,GPT-4在初級醫療情境中的表現不如人類醫生,未來應謹慎評估其應用。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

ChatGPT 在解讀動脈血液氣體分析(ABG)時,對常見急診案例的表現和醫師相當接近,但遇到中毒或混合型酸鹼失衡時準確度就明顯下降。不過,它給的臨床建議都算安全,適合當作輔助工具,但還是不能完全取代專業醫師判斷。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI