原始文章

這項研究探討大型語言模型(LLMs)在診斷燒灼口症候群(BMS)的準確性。研究使用了三個模型:ChatGPT-4o、Gemini Advanced 1.5 Pro和Claude 3.5 Sonnet,評估100個合成案例。結果顯示,ChatGPT和Claude的準確率達99%,而Gemini為89%。雖然準確率高,但模型在推理上有變異,偶爾會出錯,顯示臨床醫師監督的重要性。研究指出,LLMs可作為BMS的輔助診斷工具,但需專家驗證以確保有效性,對牙醫和專家皆有幫助。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型對牙科問題的回答,發現ChatGPT-4表現最好,但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力,但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考,並進一步研究如何安全地應用語言模型在牙科實務上,同時呼籲監管措施以監督技術使用。 PubMed DOI

研究發現大型語言模型在耳鼻喉科疾病診斷中表現不錯,ChatGPT-3.5準確率最高達89%,建議仍需醫師監督。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示,ChatGPT-4的正確率為51.2%,Claude 3 Opus為47.4%,而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳,但目前的正確率仍不足以支持臨床應用。研究指出,需改善高品質資訊的可獲得性及提示設計,以提升LLMs在牙科麻醉的實用性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在解答牙周病學問題的可靠性,包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題,並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示,ChatGPT 4.0表現最佳,而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力,但不應取代專業牙醫,因為不準確的資訊可能影響病人護理。總之,ChatGPT 4.0優於其他模型,但仍需注意其局限性。 PubMed DOI

大型語言模型(LLMs)在基礎牙科護理中展現潛力,特別是在診斷口腔疾病方面。評估顯示,這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%,但對冠周炎的診斷能力下降。相比之下,ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看,雖然LLMs在牙科護理中有潛力,但仍需進一步改進。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-3.5、ChatGPT-4 和 Gemini,針對磨牙症的資訊提供效果。研究發現: 1. **可讀性**:三個模型的可讀性相似,但 Gemini 的回應對一般讀者來說更易懂。 2. **準確性**:GPT-3.5 的準確率最高,為 68.33%,GPT-4 為 65%,Gemini 則為 55%,三者差異不大。 3. **一致性**:所有模型在不同時間的回應一致性高,GPT-3.5 最高,達 95%。 總結來說,這些模型雖然表現中等,但不應取代專業牙科建議。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI