LLM 相關三個月內文章 / 第 10 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 相關文章 PubMed DOI 推理

CigStopper 是一套自動化工具,運用機器學習來判斷臨床紀錄中是否該收取戒菸諮詢費用(CPT 99406/99407)。研究團隊用模擬醫師寫法的病歷訓練模型,決策樹和隨機森林效果最好(PRC AUC 0.857,F1 0.835)。這系統有助減少行政負擔、提升收費準確度,未來有望應用於臨床。 相關文章 PubMed DOI 推理

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4在臨床倫理兩難情境下,能給出明確且積極的建議,與倫理原則的符合度高達86%。不過,遇到墮胎或代理孕母等議題時表現較弱,最低僅60%。雖然GPT-4有助於臨床決策,但偶爾會出錯或無法完全遵守倫理標準,實際應用上還是有侷限。 相關文章 PubMed DOI 推理

重點摘要: 這則通知是針對 DOI: 10.3389/fnume.2024.1469487 這篇文章進行更正。 相關文章 PubMed DOI 推理

像 ChatGPT-4 這類通用型 LLM,回答臨床問題時常缺乏實用或有根據的建議。反觀專門設計的 OpenEvidence 和 ChatRWD,表現明顯更好。OpenEvidence 在有文獻時特別強,ChatRWD 則能在沒研究時給出可行建議。兩者結合,有望大幅提升臨床決策的循證支持。 相關文章 PubMed DOI 推理

研究發現,大型語言模型(如ChatGPT)在協助圍手術期醫學教學時,能正確回答99.3%的案例式問題,且沒有捏造答案;遇到不會的問題也會直接拒答,顯示AI在醫學教育上相當可靠。 相關文章 PubMed DOI 推理

這項研究比較了ChatGPT-3.5和4在職業風險預防選擇題的表現,GPT-3.5正確率56.8%,GPT-4為73.9%。兩者在專業題目上都容易出錯,且錯誤類型相似。雖然GPT-4表現較好,但在職業健康領域應用上仍有限。建議持續驗證、訓練和針對地區調整,以提升可靠度。 相關文章 PubMed DOI 推理

這項研究發現,採用檢索增強技術的AI聊天機器人(如ChatGPT-4o Deep Research等)在提供結節病資訊時,比一般AI更準確可靠。不過,他們的回答多半太艱深,病人不易看懂,而且給的實際建議也不夠明確。整體來說,AI雖然能提供高品質資訊,但在易讀性和實用性上還有進步空間。 相關文章 PubMed DOI 推理

**重點摘要:** 這項研究評估了使用 ChatGPT 來產生職能治療個案研究的可行性。五個由 AI 生成的神經學個案由十位專家進行審查,專家們對這些個案在真實性、完整性以及教育價值方面都給予高度評價。雖然專家認為這些個案很有幫助,但它們對學生學習的實際影響還需要進一步測試。 相關文章 PubMed DOI 推理