LLM 相關三個月內文章 / 第 4 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

本研究用開源大型語言模型(LLMs)自動萃取臨床文本中的藥物資訊,並透過微調、格式限制指令和Shapley values提升準確度與透明度。經微調的Llama模型在英文和德文資料集上,F1-score都明顯超越以往方法,讓臨床藥物資訊萃取更精準、透明又有效率。 相關文章 PubMed DOI 推理

這篇研究推出 NERLlama3.1,是專為生醫命名實體辨識設計的模型。它用 QLoRA 技術在 Llama3.1-8B 上高效微調,大幅減少運算資源。結合 SCNP 提示工程後,模型在多個資料集上都拿到很高的 F1 分數,泛化能力也很強,表現比傳統 BERT-base 和全量微調的大型模型還好,資源用量卻更省。這也是首個多任務 BioNER LLM,證明參數高效微調在生醫 NLP 很有用。 相關文章 PubMed DOI 推理

這項研究找五位語言治療師評分ChatGPT(GPT-4o mini)對11個常見口吃問題的回答,結果有近一半的AI回答被誤認為是人寫的,顯示很擬人化。大多數答案正確、無害,也符合專業共識,但寫作水準偏高,大約是大學或研究所程度。研究認為ChatGPT能提供合適的教育性回答,但不能取代專業治療。 相關文章 PubMed DOI 推理

這項研究用大型語言模型開發憂鬱症句子完成測驗,針對373位泰國成年人,重點在家庭、社會、健康和自我概念四面向。結果顯示,健康和自我概念與憂鬱風險最相關,隨機森林模型表現最好,LLaMA3.1和Gemma2敏感度最高。方法準確率達0.78以上,但未來還需注意倫理問題並擴大樣本。 相關文章 PubMed DOI 推理

這項研究開發了用GPT評分溝通技巧的工具,總分跟真人評分差不多,但細項能力評分落差大。這工具適合一般、低風險評量,但要用在細部或高風險評估,可靠度還不夠,需要再加強。 相關文章 PubMed DOI 推理

像 ChatGPT、Bard 這類生成式 AI,現在常被用來協助醫療系統性回顧。它們在擬定研究問題和資料萃取上表現不錯,但在文獻搜尋和篩選時,結果常常不夠精確或一致。至於偏誤風險評估,目前還沒有明確結論。整體來說,GAI 很有潛力,但還需要更多實際驗證才能正式納入醫療流程。 相關文章 PubMed DOI 推理

GPT-4這類大型語言模型能根據MRI報告,協助判斷腦內原發性腦瘤,對常見腫瘤如膠質母細胞瘤表現不錯,適合給非專科醫師參考。不過,診斷罕見或複雜腫瘤時,還是比不上神經放射科醫師的專業判讀。模型選擇和腫瘤類型也會影響診斷準確度。 相關文章 PubMed DOI 推理

這項研究發現,AI 在產生英文商業內容和郵件時,表現比阿拉伯文和中文好,尤其在技術性任務上,中文和阿拉伯文的行動力和創意都較弱。這代表非英語使用者可能會被邊緣化,全球生產力差距也可能因此擴大,顯示開發更包容多語言的 AI 很重要。 相關文章 PubMed DOI 推理

TRIAGE 基準測試用來評估大型語言模型在醫療大量傷患時的倫理決策能力。研究發現,大多數模型表現優於隨機,但開源模型較容易犯嚴重倫理錯誤。意外的是,明確的倫理指引反而讓模型表現變差,挑戰性提問也會降低準確率。這顯示情境和提問方式會大幅影響模型在高風險醫療情境下的表現,並突顯其優缺點。 相關文章 PubMed DOI 推理

腸胃科和肝臟科的臨床決策越來越複雜,傳統CDSS常遇到瓶頸。生成式AI像大型語言模型能處理非結構化資料,提供更彈性的個人化建議,為臨床決策帶來新契機。不過,還有偏誤、幻覺、系統整合和醫護訓練等挑戰待克服。 相關文章 PubMed DOI 推理