LLM 相關三個月內文章 / 第 88 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了ChatGPT-4、Gemini Pro和Llama 3.1三款AI聊天機器人在陰莖增大資訊上的表現。結果顯示,Llama 3.1在資訊可靠性和品質上表現最佳,但三款AI的回答都偏難懂,沒有提供容易理解的答案。 相關文章 PubMed DOI 推理

EMTeC 資料庫收錄 107 位英語母語者閱讀由各種大型語言模型產生文章時的眼動追蹤數據,包含原始與處理後資料、模型內部資訊及語言學標註。這些資料有助於閱讀行為研究、模型可解釋性分析和演算法開發,所有資源都可在 GitHub 免費取得。 相關文章 PubMed DOI 推理

研究發現,ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時,主要診斷正確率低於人類專家(44%比87%),但若加上次要診斷,差距縮小(71%比94%)。雖然準確度還不及專家,但因為速度快又隨時可用,未來有機會成為放射科的輔助工具。 相關文章 PubMed DOI 推理

這項研究發現,Microsoft Copilot、Gemini 和 Meta AI 能把燒燙傷衛教資料簡化到國中六到八年級的閱讀程度,有助於讓醫療資訊更容易被一般民眾理解。不過,內容還是需要醫師或臨床人員審查,確保正確性和適合度。 相關文章 PubMed DOI 推理

這項研究發現,把大型語言模型(LLM)結合檢索增強生成(RAG)技術,能更準確預測病患30天內的術後死亡率和ASA分級,尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法,顯示這種AI工具有助於臨床決策輔助,未來在醫療現場很有應用潛力。 相關文章 PubMed DOI 推理

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4在辨識圖片情緒(愉悅度和激發度)時,表現和人類相近,但對細微情緒還是有點吃力。這代表未來用GPT-4來自動篩選和驗證情緒刺激,有機會大幅減少人力、提升效率。 相關文章 PubMed DOI 推理

這項研究發現,透過 embedding similarity 動態挑選最相關範例來做 few-shot prompting,可以大幅提升開源輕量級 LLM 在臨床紀錄分類的表現。這方法比 zero-shot 最多提升 39.3% macro F1 分數,也比靜態 few-shot 高出 21.1%,證明在臨床 NLP 任務上很有實用價值。 相關文章 PubMed DOI 推理

這項研究設計了一個用 ChatGPT-4 進行 AI 角色扮演的活動,讓牙科相關科系學生模擬病患諮詢和老師討論。學生普遍覺得活動真實又實用,對臨床技能練習很有幫助,操作簡單、成本低(20 人只花約 13 美元)。這種方式有助同儕學習,也能發現自己在病史詢問上的不足,未來有潛力應用於臨床訓練,但還需更多研究證實成效。 相關文章 PubMed DOI 推理

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 相關文章 PubMed DOI 推理