LLM 相關三個月內文章 / 第 11 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較GPT-4和GPT-4o在圖片型USMLE醫學考題的表現,GPT-4o正確率較高(89.5%),但和GPT-4(73.4%)差異沒達統計顯著。兩者都能處理不同醫學領域的圖片題,GPT-4o在教學應用上有潛力,但醫學教育還是需要專業人員把關,確保答案正確。 相關文章 PubMed DOI 推理

這篇論文提出把臉部表型知識圖譜結合RAG技術,協助大型語言模型更準確診斷罕見遺傳疾病。這種做法能減少模型產生錯誤答案,提升診斷的準確率和一致性,證明專業知識圖譜能有效強化AI在醫療領域的應用。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4.0在判斷兒童是否需要放置鼓膜通氣管時,答對率高達96.8%,若要求引用最新文獻,準確率甚至達100%。但它對先前錯誤的題目並不會自我修正,顯示自我學習有限。總結來說,ChatGPT-4.0表現優異,但使用時還是要小心下指令並多加審核。 相關文章 PubMed DOI 推理

這項研究提出 CARE-AD,多代理大型語言模型架構,能分析電子病歷,預測阿茲海默症在診斷前最長10年的風險。CARE-AD 透過分工合作的 LLM 代理人提取與評估相關資訊,預測準確度比單一模型更好,展現協作式 LLM 系統在臨床早期風險評估的潛力。 相關文章 PubMed DOI 推理

這項研究比較五種大型語言模型在放射線醫學文獻篩選的表現,發現它們特異性高但敏感度差異大。大多數模型遇到人類標註時會偏向相信人類,顯示有權威偏誤,GPT-4o 這點較不明顯。三元分類下模型很少選「不確定」,敏感度略升。PubMed 搜尋方面,OpenAI 工具召回率中等但精確度高,Gemini 召回率較低。整體來說,LLMs 有潛力但仍需人類監督與精心設計提示詞。 相關文章 PubMed DOI 推理

這項研究用大型語言模型的困惑度分數來評估語言連貫性,並和傳統方法比較。結果發現,兩者結合後,更能貼近臨床對思覺失調症患者思考混亂的評分。這顯示LLM有潛力提升自動化工具在早期偵測和追蹤精神病症狀的準確度。 相關文章 PubMed DOI 推理

本研究用開源大型語言模型(LLMs)自動萃取臨床文本中的藥物資訊,並透過微調、格式限制指令和Shapley values提升準確度與透明度。經微調的Llama模型在英文和德文資料集上,F1-score都明顯超越以往方法,讓臨床藥物資訊萃取更精準、透明又有效率。 相關文章 PubMed DOI 推理

這篇研究推出 NERLlama3.1,是專為生醫命名實體辨識設計的模型。它用 QLoRA 技術在 Llama3.1-8B 上高效微調,大幅減少運算資源。結合 SCNP 提示工程後,模型在多個資料集上都拿到很高的 F1 分數,泛化能力也很強,表現比傳統 BERT-base 和全量微調的大型模型還好,資源用量卻更省。這也是首個多任務 BioNER LLM,證明參數高效微調在生醫 NLP 很有用。 相關文章 PubMed DOI 推理

這項研究找五位語言治療師評分ChatGPT(GPT-4o mini)對11個常見口吃問題的回答,結果有近一半的AI回答被誤認為是人寫的,顯示很擬人化。大多數答案正確、無害,也符合專業共識,但寫作水準偏高,大約是大學或研究所程度。研究認為ChatGPT能提供合適的教育性回答,但不能取代專業治療。 相關文章 PubMed DOI 推理

這項研究用大型語言模型開發憂鬱症句子完成測驗,針對373位泰國成年人,重點在家庭、社會、健康和自我概念四面向。結果顯示,健康和自我概念與憂鬱風險最相關,隨機森林模型表現最好,LLaMA3.1和Gemma2敏感度最高。方法準確率達0.78以上,但未來還需注意倫理問題並擴大樣本。 相關文章 PubMed DOI 推理