原始文章

這項研究評估了三個大型語言模型——Gemini、GPT-3.5 和 GPT-4——在韓國國家牙科衛生師考試中的表現,分析了它們在韓文和英文的準確性。研究使用了2019至2023年的考題數據,並透過雙向變異數分析來評估模型類型和語言對準確性的影響。結果顯示,GPT-4 的表現優於其他模型,尤其在英文方面表現突出。不過,所有模型在地方性內容的科目準確性有所不同。研究指出,雖然 GPT-4 在醫學教育中展現潛力,但仍需改進和多樣化的訓練數據,以提升其在多語言和多文化環境中的表現。 PubMed DOI


站上相關主題文章列表

研究發現GPT-4在傳統韓醫學上有應用潛力,通過韓國醫師執照考試測試後,準確率達66.18%,超過及格分數。模型在TKM專業領域遇到困難,但在一般問題表現較佳,尤其在診斷和回憶型問題上更準確。研究指出GPT-4在TKM等文化醫學領域有潛力,但需解決文化偏見並驗證臨床效果。 PubMed DOI

2023年日本牙醫師考試研究發現,GPT-4答對率最高,Google Bard次之,GPT-3.5最差。Bard及格,GPT-4對一般問題表現好。但在牙科問題上表現不佳,需深入研究LLMs在全球臨床牙科的運用。 PubMed DOI

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT、Bard和Bing Chat,在牙科教育中的有效性,分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示,GPT-4的準確率最高,達75.3%,其次是Bing(68.5%)、Bard(66.7%)和GPT-3.5(63.0%)。雖然模型間差異不顯著,但在「疾病機制與促進恢復過程」類別中,所有模型均達100%準確率。整體來看,GPT-4在多選題上表現優異,顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Claude3-Opus,在牙科教育及實踐中的應用,特別是它們在韓國牙科執照考試(KDLE)的表現。評估涵蓋了GPT-3.5、GPT-4和Claude3-Opus,考題來自2019至2023年。結果顯示,Claude3-Opus表現優於其他模型,除了2019年時ChatGPT-4最佳。Claude3-Opus和ChatGPT-4通過了及格分數,但ChatGPT-3.5未能通過。所有LLMs的得分仍低於人類牙科學生,僅約85.4%。研究建議,雖然LLMs尚未達到人類水平,但仍可在牙科領域提供有價值的支持。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示,ChatGPT-4的正確率為51.2%,Claude 3 Opus為47.4%,而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳,但目前的正確率仍不足以支持臨床應用。研究指出,需改善高品質資訊的可獲得性及提示設計,以提升LLMs在牙科麻醉的實用性。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI

這項研究比較了ChatGPT-3.5和ChatGPT-4o在日本國家牙科考試中的表現,分析了1399道問題。結果顯示,ChatGPT-4o的正確回答率達84.63%,明顯高於ChatGPT-3.5的45.46%。特別是在口腔外科、病理學、藥理學和微生物學等領域,ChatGPT-4o的表現更為優異。這些結果顯示,ChatGPT-4o可作為牙科教育和考試準備的有用輔助工具,提升臨床推理和牙科知識的能力。 PubMed DOI