LLM 相關三個月內文章 / 第 152 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究發現,ChatGPT 3.5和Google Gemini在回答家長兒童牙齒外傷問題時,表現差不多。Gemini的答案較可靠,ChatGPT 3.5則較容易懂,實用性兩者相近。不過,AI只能提供初步資訊,還是要諮詢專業牙醫。 相關文章 PubMed DOI 推理

這項研究比較了多種大型語言模型(LLM)方法,把電子病歷的非結構化醫療文本標準化成臨床術語。結果發現,檢索增強生成(RAGnorm)方法表現最穩定、準確度最高,即使沒訓練資料也很有效。這類檢索型LLM在生醫文本標準化上很有潛力,值得持續發展與應用。 相關文章 PubMed DOI 推理

這項歐盟 Interact-Europe 計畫,針對腫瘤學教育教材,開發並評估專為醫學領域設計的語音和機器翻譯系統,把英文訓練影片翻成法文、西班牙文、德文和斯洛維尼亞文。研究比較三種醫療機器翻譯模型,發現大型語言模型(LLMs)翻譯品質可比傳統系統。團隊也公開一個大型腫瘤學訓練影片資料集供大家研究。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4 和 4o 在回答肌肉骨骼放射學問題時,表現比 DeepSeek R1 好很多,答案更準確、結構清楚,參考資料也比較可靠。特別是針對最新研究,ChatGPT-4o 最值得信賴;相較之下,DeepSeek R1 常出錯,還會給假資料,還需要再加強。 相關文章 PubMed DOI 推理

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 相關文章 PubMed DOI 推理

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 相關文章 PubMed DOI 推理

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 相關文章 PubMed DOI 推理

這項研究用transformer深度學習模型,分析美國29年健康與退休資料,預測年長者死亡率。模型涵蓋財務、身心健康等126項風險因子,預測準確度比傳統方法高出許多,平均精確度甚至提升一倍。結果顯示transformer模型在老化與死亡風險預測上很有潛力。 相關文章 PubMed DOI 推理

兒童加護病房在照護創傷病童時,因社會健康決定因素(SDoH)資料收集不一致,常常無法精準媒合資源。這份提案建議用AI工具來標準化SDoH資料,幫助病童和醫療團隊更快找到合適資源。評估AI工具時,會用RE-AIM架構來看其成效、易用性和資源分配影響。 相關文章 PubMed DOI 推理

這項研究開發了一套免寫程式碼、全自動化的方法,利用GPT-4o mini從50份藥品說明書中擷取兒童用藥資訊。辨識兒科適應症時,召回率高達95%、精確率有78%,證明大型語言模型能有效分類適合兒童的藥物。這工具讓沒IT背景的醫療人員也能輕鬆操作。 相關文章 PubMed DOI 推理