LLM 相關三個月內文章 / 第 43 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這篇綜述回顧了大型語言模型(LLMs)在醫學教育中的應用,涵蓋了第一年內的相關文獻。根據PRISMA指導方針,研究者搜尋了五個科學資料庫,最終納入145項研究。大部分研究聚焦於LLMs通過醫學考試的能力,還有一些探討其優缺點及潛在應用。不過,實證研究較少,且方法學上不夠嚴謹。為了改善這些問題,文獻提出了一個研究議程,期望提升未來相關研究的質量。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現,分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題,結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高(71.7%),而「免疫系統」最低(46.3%)。隨著問題難度和長度增加,表現下降,顯示較複雜問題更易錯誤。整體而言,ChatGPT的能力接近及格門檻,顯示其作為醫學生輔助學習工具的潛力,並強調了精煉AI模型和設計抗AI考題的重要性。 相關文章 PubMed DOI 推理

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 相關文章 PubMed DOI 推理

深度神經網絡(DNNs)如卷積神經網絡和變壓器模型的進展,雖然提升了人工智慧的應用能力,但也增加了計算和數據需求,對脈衝陣列加速器造成挑戰。傳統上,這些加速器採用擴大和擴展兩種策略,但無法同時達到高性能和能源效率。為了解決這個問題,我們提出了一種混合方法,結合兩者優勢,能在多租戶環境中優化DNN操作。實驗結果顯示,這種混合加速器能將能耗降低8%,吞吐量提高57%,相較於TPUv3表現更佳。 相關文章 PubMed DOI 推理

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 相關文章 PubMed DOI 推理

這項研究評估了三個生成式人工智慧模型—ChatGPT、Gemini 和 Copilot—在回答美國醫學執照考試的多選題準確性。結果顯示,ChatGPT的準確率最高,達70%,與醫學教師的回答一致性強。Copilot的準確率為60%,而Gemini最低,僅50%。整體一致性較差,顯示AI模型在醫學教育中的表現仍需謹慎對待。雖然ChatGPT表現較好,但仍不及合格的醫學教師。 相關文章 PubMed DOI 推理

這項回顧性研究評估了不同ChatGPT模型(如GPT-3.5、GPT-4等)在預測急診病人診斷的表現。研究針對30名病人,發現GPT-3.5在前三名鑑別診斷的準確率高達80%,但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過,所有模型在處理非典型案例時仍面臨挑戰,顯示其在急診環境中的應用限制。 相關文章 PubMed DOI 推理

這項研究探討了對話式人工智慧ChatGPT-4在解答正畸病人常見問題的有效性,並與兩位正畸醫師的回答進行比較。研究中,ChatGPT在30個問題中有61個案例排名第一,平均排名為1.69,明顯優於正畸醫師的排名(醫師A: 2.23,醫師B: 2.08)。兩位醫師之間的排名差異不大,而ChatGPT的排名與評估者共識有強正相關(Spearman係數0.69)。總體來看,研究建議ChatGPT-4在回答病人常見問題上可能更有效,尤其是在正畸領域。 相關文章 PubMed DOI 推理

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 相關文章 PubMed DOI 推理

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現,使用了202張超音波影像。結果顯示,GPT-4在大多數類別中具高特異性但低敏感性,對低風險結節的敏感性僅25%,而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好,但在其他特徵上則不理想。整體來看,這些模型在臨床應用前仍需改進和驗證。 相關文章 PubMed DOI 推理