Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Evaluating the image recognition capabilities of GPT-4V and Gemini Pro in the Japanese national dental examination.
評估 GPT-4V 和 Gemini Pro 在日本國家牙科考試中的影像識別能力。 J Dent Sci 2025-01-28

這項研究評估了OpenAI的GPT-4V和Google的Gemini Pro在日本國家牙科考試（JNDE）問題上的影像識別能力。分析了第116屆JNDE的160個問題，結果顯示GPT-4V的正確率為35.0%，而Gemini Pro為28.1%。雖然GPT-4V表現較佳，但差異不具統計意義。研究指出，隨著問題中圖片數量增加，正確率下降，顯示問題複雜性影響模型表現。這些結果顯示大型語言模型在牙科教育上的潛力，並強調技術進一步發展的必要性。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Assessing the performance of an artificial intelligence based chatbot in the differential diagnosis of oral mucosal lesions: clinical validation study.
評估基於人工智慧的聊天機器人在口腔黏膜病變鑑別診斷中的表現：臨床驗證研究。 Clin Oral Investig 2025-03-18

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據，並將病變描述輸入ChatGPT以生成診斷，與專家診斷進行比較。結果顯示，聊天機器人的診斷與專家之間有顯著相關性，且能高敏感性識別惡性病變。整體而言，ChatGPT-4在識別可疑惡性病變方面表現出色，顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4 Omni and ChatGPT-4 Turbo in Identifying Melanoma: Comparative Study.
評估 ChatGPT-4 Omni 和 ChatGPT-4 Turbo 在識別黑色素瘤中的診斷準確性：比較研究。 JMIR Dermatol 2025-03-21

您的研究強調了將像 ChatGPT 這樣的 AI 工具整合進醫療保健的重要性，特別是在皮膚科領域。雖然 AI 有助於診斷黑色素瘤等疾病，但目前 ChatGPT 在準確性上仍有不足，顯示出持續研究和開發的必要性。未來的改進應著重於提升模型對醫療影像和臨床數據的理解，以更好地支持醫療專業人員的決策需求。 PubMed DOI

Accuracy of ChatGPT-4o in Text and Video Analysis of Laryngeal Malignant and Premalignant Diseases.
ChatGPT-4o 在喉部惡性及前惡性疾病的文本和視頻分析中的準確性。 J Voice 2025-03-27

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現，並與專家醫師進行比較。研究在一所醫療中心對20名患者進行，結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤，並在90%的案例中將其列為前三名診斷。雖然敏感性高，但特異性有限，影像分析一致性得分為2.36（滿分5分）。總體而言，ChatGPT-4o顯示潛力，但在特異性和影像解讀上仍需改進，以提升耳鼻喉科的診斷準確性。 PubMed DOI

Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?
你提供的標題是： **Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?** 翻譯為繁體中文(zh-TW)如下： **deepseek 與 ChatGPT 可用於口腔病理診斷嗎？** BMC Oral Health 2025-04-25

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示，Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好，平均分數也較高（4.02比3.15）。雖然兩者都能協助臨床醫師，但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Diagnostic Performance of ChatGPT-4o and DeepSeek-3 Differential Diagnosis of Complex Oral Lesions: A Multimodal Imaging and Case Difficulty Analysis.
ChatGPT-4o 與 DeepSeek-3 在複雜口腔病變鑑別診斷的診斷表現：多模態影像與病例難度分析 Oral Dis 2025-07-01

研究發現，口腔醫學專家在診斷帶圖片的臨床案例時，表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確，尤其在複雜或發炎案例，但整體來說，專家還是最可靠。加入影像資訊能提升診斷準確度，但 AI 目前還無法完全取代專業醫師。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表