LLM 相關三個月內文章 / 第 75 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討自然語言處理(NLP)在臨床決策中的應用,特別針對西班牙語的轉診優先級排序和專科分類。研究發現,臨床特定的預訓練語言模型表現最佳,轉診優先級排序的宏觀F1分數達88.85%,專科分類為53.79%。雖然繼續預訓練稍微提升性能,但相對於計算成本,這些提升不算明顯。大型語言模型的少量學習在數據稀缺時仍有用。研究為臨床NLP從業者提供實用建議,強調考量數據可用性和任務複雜性。 相關文章 PubMed DOI 推理

大型語言模型(LLMs)在臨床決策支持(CDS)方面潛力巨大,但目前尚未有任何產品獲得FDA認證為CDS設備。我們評估了兩款常用的LLMs,發現它們能在多種情境中提供類似CDS設備的決策支持。這一結果對於未來在臨床環境中使用LLMs,將帶來重要的監管考量。 相關文章 PubMed DOI 推理

紅隊測試對於識別和解決大型語言模型在醫療領域的意外行為非常重要,因為這可能影響病人的安全與公平性。在一項針對80名臨床醫生和技術專業人員的研究中,我們測試了GPT-3.5和GPT-4.0等模型,發現376個提示中有20.1%的回應不當。GPT-3.5的不當回應率為25.8%,而GPT-4.0為16%。值得注意的是,GPT-3.5中21.5%被認為適當的回應,在更新模型中卻被視為不當。這強調了持續進行紅隊測試的重要性,以確保醫療應用的安全性、準確性和公平性。 相關文章 PubMed DOI 推理

這項研究探討人類與大型語言模型(LLMs)合作對腦部MRI掃描診斷準確性和效率的影響。研究中,六名放射科住院醫師評估40個挑戰性MRI案例,分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示,LLM輔助的診斷準確率為61.4%,高於傳統的46.5%,且差異具統計意義。不過,解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性,但仍需進一步研究以優化人類與LLM的合作。 相關文章 PubMed DOI 推理

這項研究評估了四個大型語言模型(LLMs)在回答植牙相關臨床問題的表現,特別是針對周圍植體疾病。研究者向ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot提出十個問題,並由兩位牙周病專家根據全面性、科學準確性、清晰度和相關性進行評分。結果顯示,Google Gemini Advanced表現最佳,而Google Gemini得分最低,兩者之間有顯著差異(P=.005)。研究強調牙科專業人員在使用LLMs獲取臨床資訊時需謹慎,因為這些模型無法取代專業知識。 相關文章 PubMed DOI 推理

這項研究評估了OpenAI的ChatGPT和Microsoft的Copilot在根據全國綜合癌症網絡針對胰腺導管腺癌指導方針生成回應的準確性。研究發現,ChatGPT的準確性較Copilot優越,完全正確的回應分別為52%和33%。此外,ChatGPT的回應也較為準確,評分為3.33對3.02。兩者的回應普遍冗長,平均字數分別為270字和32字。研究結論指出,雖然這些模型在臨床決策支持上有潛力,但仍需改進以確保準確性和簡潔性。 相關文章 PubMed DOI 推理

這篇評論探討語言模型在蛋白質設計中的應用,將蛋白質視為氨基酸序列,類比於語言模型處理句子中的單詞。文章介紹蛋白質語言模型的基本概念,強調最近的進展,如上下文設計和結構信息整合,並討論目前的限制。此外,評論還建議未來的研究方向,以提升蛋白質語言模型,改善設計結果。 相關文章 PubMed DOI 推理

本研究探討ChatGPT-4o在分析膝關節骨關節炎(OA)X光片的能力,並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析,使用多種分級系統。結果顯示,ChatGPT-4o的識別率達100%,但詳細分級準確性僅35%,遠低於醫生的89.6%。此外,ChatGPT-4o在嚴重病例中常低估OA程度,且其評分一致性較差。雖然能快速識別,但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 相關文章 PubMed DOI 推理

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 相關文章 PubMed DOI 推理

這項研究探討社交機器人虛擬病人平台與大型語言模型在醫學生臨床推理訓練中的效果,並與傳統電腦平台比較。瑞典的15名醫學生參與,結果顯示社交機器人平台更具真實感,對學習幫助更大,平均分數較高。定性反饋指出該機器人在臨床推理、溝通及情感技能訓練上的優勢,但也提到一些技術限制。研究建議將社交機器人和大型語言模型整合進虛擬病人模擬中,以提升醫學教育的學習體驗,並提出改進建議。 相關文章 PubMed DOI 推理