原始文章

感染性心內膜炎(IE)對高風險患者在牙科手術前需進行抗生素預防。研究測試了七個大型語言模型(LLMs)在提供IE抗生素預防資訊的準確性,使用基於2021年美國心臟協會指導方針的28個是非題。結果顯示,模型間準確性差異顯著,使用預先提示時表現普遍較佳,GPT-4o達到80%的最高準確率。雖然沒有模型達到理想的準確性標準,但仍顯示出潛力,顯示需進一步訓練以提升醫療查詢的有效性。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型對牙科問題的回答,發現ChatGPT-4表現最好,但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力,但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考,並進一步研究如何安全地應用語言模型在牙科實務上,同時呼籲監管措施以監督技術使用。 PubMed DOI

這研究指出人工智慧(AI)在醫療保健領域的重要性,特別是大型語言模型(LLMs)在牙科護理中的應用。比較了嵌入式GPT模型和ChatGPT-3.5 turbo在應對患者問題和協助牙科決策的效果。結果顯示,嵌入式GPT模型在回答問題的準確性和清晰度方面優於ChatGPT,兩者在相關性和知識更新方面同樣有效。這研究顯示,嵌入GPT模型有助於提升牙科護理品質,AI在醫療領域前景看好。 PubMed DOI

這項研究測試了不同大型語言模型在回答口腔顎面外科多重選擇題時的準確度。這些模型的平均得分為62.5%,其中GPT-4表現最佳,達到76.8%。在各種問題類別中,模型的表現存在顯著差異。雖然這些模型在教學上可能有幫助,但在臨床決策之前,建議應謹慎使用,直到進一步發展和驗證。 PubMed DOI

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示,ChatGPT-4的正確率為51.2%,Claude 3 Opus為47.4%,而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳,但目前的正確率仍不足以支持臨床應用。研究指出,需改善高品質資訊的可獲得性及提示設計,以提升LLMs在牙科麻醉的實用性。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在解答牙周病學問題的可靠性,包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題,並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示,ChatGPT 4.0表現最佳,而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力,但不應取代專業牙醫,因為不準確的資訊可能影響病人護理。總之,ChatGPT 4.0優於其他模型,但仍需注意其局限性。 PubMed DOI