LLM 相關三個月內文章 / 第 127 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

研究發現,口腔醫學專家在診斷帶圖片的臨床案例時,表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確,尤其在複雜或發炎案例,但整體來說,專家還是最可靠。加入影像資訊能提升診斷準確度,但 AI 目前還無法完全取代專業醫師。 相關文章 PubMed DOI 推理

NLP能大幅提升獸醫病理學的效率,像是自動產生報告、快速搜尋資料,省時又省錢,尤其在例行工作上效果明顯。不過,NLP也有偏誤、錯誤和隱私等問題,還是需要專業判斷來把關。這篇文章回顧NLP在診斷、教學和研究上的應用,並用實例說明其轉型潛力。 相關文章 PubMed DOI 推理

這項研究發現,雖然多數人偏好 GPT-4o 的醫療助理回答,但開源模型 Llama 3.1 8B 和 Mistral 3 Small 24B 的表現也很接近,且運算效率高又穩定。開源 LLMs 具備透明、低成本、可客製化等優勢,未來在各行各業應用潛力很大。 相關文章 PubMed DOI 推理

這份回顧整理2019到2025年16篇研究,發現大型語言模型(像GPT-4)在從臨床文件擷取結構化資料時表現很好,準確率/F1-score都超過85%,尤其搭配好的提示工程。不過,不同文件類型效果會有差異,且還有可靠性、幻覺和資料隱私等問題。要廣泛應用在臨床前,還需要更多研究和倫理規範。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4o在從臨床紀錄擷取症狀的整體表現中等,但在辨識泌尿症狀上非常厲害,精確度甚至達到100%。顯示GPT-4o在特定醫療領域的應用很有潛力,但如果要擴大到其他症狀,還需要再加強。 相關文章 PubMed DOI 推理

這項研究用MIMIC-III資料庫,比較ClinicalBERT和GPT-4在預測住院病人出院診斷的表現。結果顯示,ClinicalBERT在各疾病類別的F1分數都比GPT-4高,但需要較多運算資源。GPT-4雖然精確度較低,但召回率高、能處理較長文本,也不用事先訓練。兩種GPT-4提示法中,二元投票法表現稍好。 相關文章 PubMed DOI 推理

重點整理: 這項研究針對災難情境中,生成式AI和代理型AI所提出建議的一致性進行量化評估,結果發現AI的建議目前還不夠可靠,還無法取代專家判斷,特別是在關鍵時刻。 相關文章 PubMed DOI 推理

大型語言模型像 GPT-4 雖然在醫療領域應用越來越多,但因為缺乏真實世界的感官和動作基礎,容易出現推理錯誤或倫理問題。論文提醒,若把這些 AI 當成知識代理人而非輔助工具,可能會對臨床實務帶來風險。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4o 在自動化資料清理上,對大多數變數的正確率都很高(超過92%),但在尿液葡萄糖這項表現較差(約70%且不穩定)。整體來說,ChatGPT-4o 有潛力,但還需要進一步研究來克服現有的限制。 相關文章 PubMed DOI 推理

越來越多病患安全研究依賴 MAUDE 資料庫,作者提出結合 ETL 流程和大型語言模型的方法,能標準化並提升事件通報的分析品質。以內視鏡夾為例,這方法可有效萃取結構化和敘述性資料,發現新見解,提升透明度,幫助臨床醫師決策,也鼓勵更多人利用開放安全資料庫研究。 相關文章 PubMed DOI 推理