Optimizing GPT-4 Turbo Diagnostic Accuracy in Neuroradiology through Prompt Engineering and Confidence Thresholds.
透過提示工程和信心閾值優化 GPT-4 Turbo 在神經放射學中的診斷準確性。 Diagnostics (Basel) 2024-07-27

這項研究分析了大型語言模型（LLMs），特別是GPT-4 Turbo，在神經放射學的應用，針對30-50%的高誤診率進行探討。透過分析751個案例，研究發現透過提示工程和設定90%的信心閾值，GPT-4 Turbo的診斷準確率從55.1%提升至72.9%。候選診斷的正確率達85.9%，誤診率降至14.1%。雖然這些方法顯著提高了準確性，但也限制了模型的處理案例數量。未來仍需進一步研究，以優化這些策略，確保在臨床應用中的準確性與實用性。 PubMed DOI

Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Transforming dental diagnostics with artificial intelligence: advanced integration of ChatGPT and large language models for patient care.
利用人工智慧轉變牙科診斷：ChatGPT 和大型語言模型在病患照護中的進階整合。 Front Dent Med 2025-02-07

這項研究探討了先進的人工智慧演算法及大型語言模型（LLMs），特別是OpenAI的ChatGPT，對牙科診斷的影響。透過公開數據集，這些模型提升了醫療專業人員的診斷能力，改善了患者與醫療提供者的溝通，並提高了臨床效率。ChatGPT-4的推出預期將對口腔外科產生重大影響。本文回顧了LLMs在牙科診斷的應用，並提出未來研究方向，評估人工智慧在醫療領域的潛力與挑戰。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Performance of Chat Generative Pretrained Transformer-4.0 in determining labiolingual localization of maxillary impacted canine and presence of resorption in incisors through panoramic radiographs: A retrospective study.
Chat Generative Pretrained Transformer-4.0 在通過全景放射線判斷上頜阻生犬齒的唇舌定位及切牙吸收存在情況的表現：一項回顧性研究。 Am J Orthod Dentofacial Orthop 2025-04-10

本研究評估了ChatGPT-4.0在識別受影響的上顎犬齒位置及檢測相鄰切牙吸收變化的有效性，使用全景放射線影像（PRs）。對105名單側受影響患者進行回顧性分析，結果顯示ChatGPT-4.0在犬齒定位的準確率僅37.1%，在腭側組表現較佳。吸收檢測準確率為46.0%，但在有吸收案例的識別上表現不佳。總體而言，研究認為ChatGPT-4.0在這兩項任務上的準確性不足，不適合臨床使用。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

Decoding wisdom: Evaluating ChatGPT's accuracy and reproducibility in analyzing orthopantomographic images for third molar assessment.
解碼智慧：評估 ChatGPT 在分析全口顱顎斷層影像以評估第三大臼齒時的準確性與再現性 Comput Struct Biotechnol J 2025-04-24

這項研究發現，ChatGPT-4o在判讀下顎智齒拔除用的全口X光片時，正確率只有38.44%，表現不夠理想。雖然回答有一定一致性，但重複性普通，對複雜影像常出錯。現階段還不適合單獨用於牙科臨床，仍需專家把關，未來還要加強AI訓練和開發。 PubMed DOI

Comparative Analysis of ChatGPT-3.5 and GPT-4 in Open-Ended Clinical Reasoning Across Dental Specialties.
ChatGPT-3.5 與 GPT-4 在牙科各專科開放式臨床推理中的比較分析 Eur J Dent Educ 2025-06-14

這項研究發現，GPT-4 在擬定七大牙科專科的治療計畫上，表現比 GPT-3.5 更好，尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策，但還是需要專家把關。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表