LLM 相關三個月內文章 / 第 138 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了四款大型語言模型(如ChatGPT 4o、Grok 3等)和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%,Grok 3表現最好。雖然LLMs有潛力,但推理仍會出錯,暫時無法取代專家,只能當作輔助工具,還是需要專家監督。 相關文章 PubMed DOI 推理

最新研究發現,GPT-4-turbo在多國醫學考題上的表現普遍優於超過1.7萬名醫師,正確率高達72–96%,僅小兒科較弱。醫師畢業越久,答題正確率越低。這顯示AI有潛力彌補醫師知識流失,但小兒科部分還需加強。 相關文章 PubMed DOI 推理

這篇論文回顧大型語言模型在醫療上的應用,包括提升臨床決策、醫學教育、診斷和病患照護等潛力,也討論隱私、倫理、準確性、偏見和法規等挑戰,並提出未來研究方向及安全整合建議。 相關文章 PubMed DOI 推理

本研究開發智慧型手術機器人,專為口腔和顱顏骨切割設計,並結合ChatGPT-4自動規劃手術。系統運用深度學習,能把視覺導航和手術計畫結合,轉成機器人指令。實驗證明,這套系統在規劃和執行上都很精準,手術步驟完成率高,有效提升骨切割手術的智慧化、精確度和安全性。 相關文章 PubMed DOI 推理

這項研究用深度學習模型自動分割頭頸部腫瘤和淋巴結,並結合 ChatGPT-4 與 Llama-3 來比對 AI 標註和臨床報告,有效排除偽陽性。結果顯示,ChatGPT-4 擷取腫瘤位置最準確,整體流程大幅提升分割精確度,讓 AI 助攻腫瘤劃分更可靠。 相關文章 PubMed DOI 推理

目前多數 AI 工具像 XGBoost,只用固定問卷且不透明。我們提出結合一般與醫療 LLMs 的混合系統,能安全處理結構化和自由文字資料,並用透明推理和臨床指引驗證風險,給出可稽核分數。也討論模型新穎性、幻覺、隱私與公平性問題,建議加強法規、驗證和跨領域合作。證據等級為 V。 相關文章 PubMed DOI 推理

這項研究比較四種AI(ChatGPT 4o、Perplexity、Copilot、Gemini)在回答脊椎手術指引問題的表現。結果發現,ChatGPT 4o的答案最符合指引(67%),Perplexity的答案最難懂。整體來說,所有AI的回答都偏複雜、不太好讀。AI能輔助臨床決策,但不能取代醫師專業判斷。 相關文章 PubMed DOI 推理

這項研究比較三種AI模型在土耳其治療性去除術認證考試的表現,o1-preview正確率最高(67%),ChatGPT-4o和Claude 3.5 Sonnet分別為61%和59%。三款AI答題一致性都不錯,表現接近醫學認證門檻,但還需要更多題目和不同醫學領域的研究來驗證。 相關文章 PubMed DOI 推理

這篇統合分析指出,ChatGPT在放射科專科考試的答題準確率約59%,屬中等水準。GPT-4表現比GPT-3.5好,純文字題目比影像題目更容易答對。雖然透過提示工程能提升表現,但影像判讀仍是主要瓶頸。整體來說,ChatGPT在放射科教育和輔助決策上有潛力,但影像題目還需加強。 相關文章 PubMed DOI 推理

把RAG系統結合Nelson小兒科教科書後,Llama3.2在回答複雜小兒科臨床問題時,正確率從46.2%提升到67.8%。這代表RAG能大幅提升大型語言模型在小兒科臨床決策的可靠度與安全性。 相關文章 PubMed DOI 推理