LLM 相關三個月內文章 / 第 52 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究開發了「Client101」網路平台,利用GPT-4聊天機器人模擬憂鬱和焦慮個案,幫助心理師訓練。16位專業人員認為機器人對話很真實且實用,但在某些語言細節上還和真人有差距,未來還需優化。整體來說,這是個有效的訓練工具。 相關文章 PubMed DOI 推理

這項研究比較ChatGPT-4o和DeepSeek在回答下頷角截骨術常見問題的表現。結果顯示,兩者都能提供可靠資訊,但ChatGPT-4o內容更完整、臨床準確度較高,較符合醫療實務需求;DeepSeek則較易閱讀,但在手術過程解釋上較弱。整體來說,AI工具在顱顏整形衛教上很有潛力。 相關文章 PubMed DOI 推理

這篇論文提出 AQE-RF 模型,結合自適應量詞擴展和規則過濾圖網路,強化語言模型的邏輯推理能力。它能從文本建立細緻的邏輯圖,並用廣義量詞理論提升推理精確度,再過濾推理路徑,確保推理連貫且易解釋。實驗證明,AQE-RF 在多項邏輯推理測試中表現都比現有方法更好。 相關文章 PubMed DOI 推理

這篇論文是首度全面整理人類動作影片生成的綜述,涵蓋五大流程階段和十多個子任務,回顧超過200篇多模態相關研究,特別強調大型語言模型的應用。文中整理了技術進展與重要成果,並提供未來數位人類研究的參考資源,所有模型清單也都公開在作者資料庫。 相關文章 PubMed DOI 推理

HoloDx 是一套全新阿茲海默症診斷系統,結合多種臨床資料、專家知識和大型語言模型,讓診斷更準確、易解釋。經五組資料集測試,表現都比現有方法好,也適用於不同病人族群。程式碼已開源,有興趣可到 GitHub 查看。 相關文章 PubMed DOI 推理

OpenAI 最新 o1 語言模型在近 7,000 題眼科題目中,正確率和 F1 分數都勝過其他主流模型。雖然在部分文字生成評分上,GPT-4o 和 GPT-4 表現更好,但專家認為 o1 的回答更有臨床實用性、組織也較清楚。不過,o1 在某些專業眼科任務上還是有侷限,未來可能需要針對特定領域再訓練模型。 相關文章 PubMed DOI 推理

這項研究比較GPT-4o、GPT CodeMedic、外科醫師和醫院編碼人員在腦膜瘤手術報告分配德國OPS代碼的表現。結果發現,專業人員在正確分配基本代碼上還是比較厲害,但GPT CodeMedic在找出能增加收益的代碼時,表現已經快追上醫師。雖然LLMs目前還會犯錯,但未來有機會超越專家。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4o能準確從門診神經血管病歷中產生結構化摘要,正確率高(≥0.96),特別適合擷取穩定資訊如動脈瘤位置。不過,對於會隨時間變動的資料(如動脈瘤大小、用藥)及多次影像檢查,表現較不穩定。整體來說,GPT-4o適合輔助臨床工作,但追蹤變化和資料隱私仍需加強。 相關文章 PubMed DOI 推理

這項研究比較了最新AI語言模型在精神科案例上的表現,發現雖然診斷和建議比舊版進步,但在風險評估、藥物建議和文化敏感度上仍有明顯缺陷。遇到複雜案例時,模型的臨床推理會變差,建議也可能不一致。這些AI無法取代專業醫師,但在特定情境下可作為輔助。未來需提升透明度和提示設計,才能更安全應用於精神醫學。 相關文章 PubMed DOI 推理

我們測試了五款主流聊天機器人,發現 ChatGPT-4o、DeepSeek-R1 和 Grok-2 的正確率最高(80%),其中 ChatGPT-4o 校準最準確。DeepSeek-R1 內容最易讀,住院醫師則覺得 Claude 3.5 最好懂。整體來看,各家 AI 各有優缺點,若要在泌尿科實際應用,還需要再優化。 相關文章 PubMed DOI 推理