LLM 相關三個月內文章 / 第 94 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了ChatGPT-3.5、4.0和4 Turbo在口腔顎面病理學與放射學選擇題的表現,發現4 Turbo正確率最高(90%),4.0次之(85%),3.5最低(78%)。免費版十個月後進步明顯,付費版則一直很穩定。雖然ChatGPT對牙醫教育有幫助,但在複雜推理和圖像判讀上還有待加強。 相關文章 PubMed DOI 推理

這項研究比較GPT-3.5和GPT-4在英文和中文回答呼吸道吸入問題的表現,發現兩者在正確性、完整性和一致性上都很優秀,且不同模型和語言間沒有明顯差異。結果顯示大型語言模型能有效提供相關知識,有潛力成為訓練工具,但使用時要注意其限制。 相關文章 PubMed DOI 推理

這項研究首次用GPT-4來篩選公共政策文獻,主要負責排除不相關的鴉片類藥物政策文章。GPT-4能排除96%的文章,誤刪率極低,但在挑選應納入的文章時表現較差。雖然能大幅減輕人工負擔,但正式用於系統性回顧前,還需謹慎評估其準確性。 相關文章 PubMed DOI 推理

這項研究發現,Google Gemini AI 在神經放射學診斷上,僅靠病史時正確率很低(3.5%),加入影像後提升到 45.7%,尤其在脊椎案例表現最好。雖然 Gemini 展現潛力,但目前正確率還不夠高,臨床應用前還需要更多驗證和審慎評估。 相關文章 PubMed DOI 推理

研究發現,醫學系新生用 ChatGPT-4.0 或線上資源,當下小考成績比只用校內教材的同學好。不過,一週後大家的知識保留差不多。也就是說,ChatGPT-4.0 有助於短期表現,但對短期記憶沒特別優勢,長期效果還要再研究。 相關文章 PubMed DOI 推理

這篇論文提出 UniMRE 架構,結合大型語言模型與醫學知識,能在標註資料很少的情況下,有效從非結構化文本中抽取醫療關係。UniMRE 會自動產生標籤並優化結果,實驗證明表現優於現有方法。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4能從精神科住院病人的臨床紀錄中,準確評估RDoC症狀維度,且與臨床結果如住院天數、再入院風險有顯著關聯。顯示大型語言模型有潛力協助精神醫學研究與臨床照護,能有效萃取重要症狀資訊。 相關文章 PubMed DOI 推理

這項研究比較了ChatGPT-3.5和30位牙周病專科醫師對10個牙周病問題的回答,並用三點式李克特量表評分。結果發現,ChatGPT的答案準確且有參考價值,顯示它未來有機會成為牙周病臨床和研究上的可靠輔助工具。 相關文章 PubMed DOI 推理

這項研究開發了一個專門針對多種癌症和不同實驗室病理報告訓練的深度學習模型,能比一般大型語言模型更準確偵測轉移性癌症。透過評估模型不確定性,將難判斷的案例交給人工審查,能進一步提升召回率。結果證明,結合客製化模型和不確定性棄權機制,可有效自動辨識病理報告中的轉移性癌症。 相關文章 PubMed DOI 推理

這篇研究評估9種大型語言模型在生醫NLP任務的信心校準能力,發現它們原本的校準表現普遍不好,可能影響實際應用安全。作者提出新指標Flex-ECE,能考慮部分正確答案,並證實用事後校準方法能大幅改善模型可信度。 相關文章 PubMed DOI 推理