Evaluating ChatGPT-4's Accuracy in Identifying Final Diagnoses Within Differential Diagnoses Compared With Those of Physicians: Experimental Study for Diagnostic Cases.
ChatGPT-4 在辨識差異診斷中最終診斷的準確性：與醫師對比的評估研究。診斷案例的實驗研究。 JMIR Form Res 2024-06-26

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性，顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證，以充分了解其在醫學診斷中的實用性。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

ChatGPT With GPT-4 Outperforms Emergency Department Physicians in Diagnostic Accuracy: Retrospective Analysis.
ChatGPT 搭配 GPT-4 在診斷準確度方面優於急診科醫師：回顧性分析。 J Med Internet Res 2024-07-08

研究比較了ChatGPT、GPT-3.5和GPT-4在急診科環境中的診斷能力。結果顯示，GPT-4在內科緊急情況的診斷上比GPT-3.5和住院醫師表現更好，尤其在心血管、內分泌和消化系統疾病方面。這顯示GPT-4有潛力成為急診科中有用的診斷工具。 PubMed DOI

Assessing GPT-4's Performance in Delivering Medical Advice: Comparative Analysis With Human Experts.
評估 GPT-4 在提供醫療建議方面的表現：與人類專家的比較分析。 JMIR Med Educ 2024-07-11

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現，GPT-4和人類專家在醫學準確性上差不多，人類專家在高準確性回答上表現較好，但也有更多低準確性回答。GPT-4回答較長，用詞較少多樣，可能有助於一般人理解。然而，人類專家在藥物資訊和初步診斷等特定問題上表現更好，顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力，但需改進整合臨床推理，確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

Evaluating AI Competence in Specialized Medicine: Comparative Analysis of ChatGPT and Neurologists in a Neurology Specialist Examination in Spain.
評估人工智慧在專科醫學中的能力：ChatGPT 與神經科醫生在西班牙神經科專科考試中的比較分析。 JMIR Med Educ 2024-12-02

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現，特別是版本3.5和4，並與人類醫生進行比較。考試包含80道多選題，結果顯示人類醫生中位數得分為5.91，32人未通過。ChatGPT-3.5得分3.94，正確率54.5%，排名第116；而ChatGPT-4得分7.57，正確率81.8%，排名第17，超越許多人類專家。研究顯示，ChatGPT-4在醫學知識評估中有顯著進步，顯示其在專業醫學教育中的潛在價值。 PubMed DOI

Evaluating Artificial Intelligence-Driven Responses to Acute Liver Failure Queries: A Comparative Analysis Across Accuracy, Clarity, and Relevance.
評估人工智慧驅動的急性肝衰竭問題回應：準確性、清晰度和相關性的比較分析。 Am J Gastroenterol 2024-12-17

最近的研究顯示，透過大型語言模型（LLMs）在急性肝衰竭（ALF）問題上的表現，特別是使用增強檢索生成（RAG）技術的ChatGPT 4，顯示出顯著的優勢。研究中評估了五個模型，結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳，得分分別為4.70、4.89和4.78。相比之下，其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力，但也指出其需持續進化以符合實際需求。 PubMed DOI

ChatGPT (GPT-4) versus doctors on complex cases of the Swedish family medicine specialist examination: an observational comparative study.
瑞典家庭醫學專科考試中 ChatGPT (GPT-4) 與醫生在複雜案例上的比較觀察研究。 BMJ Open 2024-12-27

最近的研究比較了GPT-4與真正醫生在處理複雜初級醫療案例的表現。在瑞典進行的盲法觀察研究中，隨機選擇的醫生平均得分為6.0，頂尖醫生為7.2，而GPT-4僅為4.5，顯示出明顯差距。隨機醫生的表現比GPT-4高出1.6分，頂尖醫生則高出2.7分，且結果具統計意義。後續實驗中，GPT-4o的表現仍不及隨機醫生。整體來看，GPT-4在初級醫療情境中的表現不如人類醫生，未來應謹慎評估其應用。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

AI-Assisted Blood Gas Interpretation: A Comparative Study With an Emergency Physician.
AI輔助血液氣體分析：與急診醫師的比較研究 Am J Emerg Med 2025-04-19

ChatGPT 在解讀動脈血液氣體分析（ABG）時，對常見急診案例的表現和醫師相當接近，但遇到中毒或混合型酸鹼失衡時準確度就明顯下降。不過，它給的臨床建議都算安全，適合當作輔助工具，但還是不能完全取代專業醫師判斷。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表