LLM 相關三個月內文章 / 第 112 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究推出 LLMonFHIR 行動 App,運用大型語言模型,幫助慢性心血管病人用多種語言、不同難度,甚至語音方式,查詢自己的電子健康紀錄。初步測試顯示,醫師認為 App 回覆正確、好懂又實用。雖然在健康摘要和檢驗數據查詢上還有改進空間,但 LLMonFHIR 有助於解決語言和健康素養障礙,讓病人更容易掌握自己的健康資訊。 相關文章 PubMed DOI 推理

這項研究開發了一套用大型語言模型自動從電子病歷中萃取多重慢性病患者資料的系統,在中國1,225位患者資料測試下,簡單特徵準確度高達99.6%,複雜特徵也有94.4%。這方法大幅提升效率與可靠性,減少人工處理,但資訊格式標準化仍是挑戰,且系統具高度彈性,適合各種研究或政策需求。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT(GPT-4o)能提出許多新穎又有創意的心臟毒性研究想法,例如用單細胞RNA定序、AI風險預測、機器學習分析心電圖等。雖然部分計畫太過理想化,但整體來說,AI有助於激發創新研究方向,未來有機會提升心臟毒性預測和照護品質。 相關文章 PubMed DOI 推理

這項研究發現,只要經過細心設計和調整,大型語言模型(LLMs)在回答保育問題時,表現可媲美人類專家。但如果直接用沒客製化的 LLMs,結果可能很差,甚至會產生誤導資訊。總結來說,LLMs 有潛力幫助專家更有效利用保育證據,但一定要針對專業領域優化才行。 相關文章 PubMed DOI 推理

這篇系統性回顧發現,生成式AI像ChatGPT在心理健康領域有潛力,但目前在診斷、文化敏感度和情感互動上還有不少限制。多數研究評估方式較簡單,無法全面反映AI實力。使用者對信任度和情感連結也有疑慮。未來需要更進階的評估和長期研究,才能真正發揮AI在心理健康照護的價值。 相關文章 PubMed DOI 推理

這項研究發現,規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上,都比大型語言模型(LLaMA2-13B、LLaMA3-8B)表現更好。不過,LLMs 在某些情境下也有優勢。整體來說,LLMs 在公平性和泛化能力上還有待加強,未來需提升訓練資料和標註品質。 相關文章 PubMed DOI 推理

這項研究比較四款聊天機器人在口腔健康探究式學習的表現。結果發現,ChatGPT 3.5 最會出自我評量題,Microsoft Copilot 答題最準。不同機器人在不同主題和難度下表現不一,簡單題目答得比較好。整體來說,聊天機器人有潛力,但還沒辦法完全取代真人老師。 相關文章 PubMed DOI 推理

這項研究比較了ChatGPT、Google Gemini和Claude三款AI在解讀甲狀腺結節惡性風險時,針對三大TIRADS系統的表現。分析90個案例後發現,三者評估結果有一定一致性,但在風險判斷上還是有明顯差異。提醒大家,臨床上用AI輔助判斷時,還是要多加小心,不要完全依賴AI結果。 相關文章 PubMed DOI 推理

這篇文章用後人類主義角度,探討跟大型語言模型互動時的倫理問題,認為倫理行動力是人跟機器共同產生的。作者批評只用訓練資料來判斷 AI 的道德性太過片面,也提醒大家別把 LLMs 擬人化。文章建議,討論 LLM 倫理時,應該關注語言如何轉化成文化意義,並考慮模型的黑箱特性和開發者的公開說明。最後呼籲大家重新思考人性和倫理的定義。 相關文章 PubMed DOI 推理

這項研究發現,結合多種大型語言模型(如Gemini-GPT)在預測肝細胞癌免疫治療反應上,表現和資深醫師差不多,甚至比資淺醫師更好。不過,模型的敏感度還是比資深醫師低。整體來說,這些AI工具未來有機會協助醫師做臨床決策。 相關文章 PubMed DOI 推理