原始文章

這篇系統性回顧發現,大型語言模型(LLMs)在牙醫教育有潛力幫助學生學習,但常出現不可靠或虛構的資料來源,且來源透明度不足。雖然LLMs可作為輔助工具,但建議要小心使用,並需進一步研究及和可靠資料整合。 PubMed DOI


站上相關主題文章列表

這篇回顧強調大型語言模型(LLMs)在牙科領域的重要性,雖然在醫療應用上已有進展,但在牙科實務中仍然有限。研究分析了4079條紀錄,找出17項相關研究,發現ChatGPT是最常用的模型,主要用來回答術後病人的問題。大多數研究屬於第3級部署,顯示實際應用情況,但仍需進一步精練。結果顯示LLMs在牙科有潛力,但需更廣泛的評估和標準化,並採用進階提示技術以提升透明度和可重複性。持續努力對於優化LLMs在牙科的實用性至關重要。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

這項研究評估了大型語言模型(LLM),特別是ChatGPT 4o,生成的國家牙科考試風格問題的質量,並與人類專家設計的問題進行比較。研究於2024年6月進行,30名高年級牙科學生參與,從教科書中生成44個問題,最終選出20個LLM組問題,另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示,LLM組的問題在難度和區分指數上表現優於人類組,但差異不顯著。總體來看,LLM生成的問題質量與人類專家相當。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

大型語言模型在醫學教育應用越來越普遍,不只幫助老師設計課程、製作教材,也能給予學生回饋,提升語言和寫作能力。這篇綜述分析實際案例,說明LLMs對師生的好處,並討論遇到的挑戰及解方。研究建議醫學教育應更廣泛運用LLMs,以提升學習成效和病人安全。 PubMed DOI

這篇系統性回顧分析GPT大型語言模型在牙醫領域的應用,從704篇文獻中篩選出16篇高品質研究。結果發現,這類技術有潛力,但效果不一,強調在廣泛臨床應用前,還需要更多嚴謹研究和完善倫理規範。 PubMed DOI

最新的語言模型(像 GPT-4o、ChatGPT-4)在牙周病學筆試的表現,已經超越大四牙醫學生,分數甚至接近頂尖學生。其他免費模型(如 Claude、DeepSeek、Gemini)也都比學生高分,其中以 Claude 最突出。不過,這些 AI 的答案有時會不正確或不完整,表現也會隨時間變動。雖然它們能幫助牙醫學習,但在醫療領域還是要謹慎使用。 PubMed DOI

這項研究比較五款聊天機器人在篩選AI牙齒分割相關X光文獻的表現,發現它們在篩選決策上差異很大,跟人類專家的結果也不太一致。ChatGPT-4的精確度和準確率最高,Claude-instant-100k雖然敏感度最好,但精確度最低。整體來說,這些聊天機器人的準確性和一致性都有限,還是需要人類專家來監督和確認結果。 PubMed DOI

這篇系統性回顧分析了大型語言模型在牙顎顏面放射學的應用,包括診斷、治療建議、考題作答和報告生成。雖然LLMs在這些任務上展現潛力,但準確率落差大(33%到92.5%),表現還不夠穩定,未來還需要更多改進和驗證,才能真正用在臨床實務上。 PubMed DOI