LLM 相關三個月內文章 / 第 3 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究發現,五種大型語言模型在批改醫學簡答題時,表現有時能媲美專家,但準確度會因題目、模型和是否參考專家標準而不同。沒有單一模型在所有情境下都最優,且用專家標準不一定有幫助。LLMs雖有潛力協助醫學教育自動評分,但實際應用還是需要專業人員把關。 相關文章 PubMed DOI 推理

這項研究發現,現有AI模型在外科考試表現仍不及專科醫師,最佳的Llama-3也僅接近住院醫師水準,且遇到難題時表現下滑。AI目前適合當作學習輔助,但在高風險醫療決策上,還無法取代專家判斷。 相關文章 PubMed DOI 推理

ARplorer 是一款結合 Python 和 Fortran 的新工具,能自動化並加速探索化學反應途徑。它融合量子力學、規則式方法和大型語言模型,能有效搜尋多步驟反應機制。透過主動學習和平行篩選,大幅提升搜尋效率,已在多種複雜反應中展現高效能,非常適合高通量篩選和催化劑開發。 相關文章 PubMed DOI 推理

這項研究用先進語言模型(ESM),不用傳統序列比對,就能辨識和分類metagenome裡未知的CRISPR-Cas蛋白。結果發現7種新Cas12a亞型和特殊CRISPR基因座,並證實這些蛋白有多樣結構和DNA切割偏好。這方法大幅加快新型Cas蛋白的發現,讓CRISPR生技應用更有發展空間。 相關文章 PubMed DOI 推理

這項研究比較GPT-4和GPT-4o在圖片型USMLE醫學考題的表現,GPT-4o正確率較高(89.5%),但和GPT-4(73.4%)差異沒達統計顯著。兩者都能處理不同醫學領域的圖片題,GPT-4o在教學應用上有潛力,但醫學教育還是需要專業人員把關,確保答案正確。 相關文章 PubMed DOI 推理

這篇論文提出把臉部表型知識圖譜結合RAG技術,協助大型語言模型更準確診斷罕見遺傳疾病。這種做法能減少模型產生錯誤答案,提升診斷的準確率和一致性,證明專業知識圖譜能有效強化AI在醫療領域的應用。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4.0在判斷兒童是否需要放置鼓膜通氣管時,答對率高達96.8%,若要求引用最新文獻,準確率甚至達100%。但它對先前錯誤的題目並不會自我修正,顯示自我學習有限。總結來說,ChatGPT-4.0表現優異,但使用時還是要小心下指令並多加審核。 相關文章 PubMed DOI 推理

這項研究提出 CARE-AD,多代理大型語言模型架構,能分析電子病歷,預測阿茲海默症在診斷前最長10年的風險。CARE-AD 透過分工合作的 LLM 代理人提取與評估相關資訊,預測準確度比單一模型更好,展現協作式 LLM 系統在臨床早期風險評估的潛力。 相關文章 PubMed DOI 推理

這項研究比較五種大型語言模型在放射線醫學文獻篩選的表現,發現它們特異性高但敏感度差異大。大多數模型遇到人類標註時會偏向相信人類,顯示有權威偏誤,GPT-4o 這點較不明顯。三元分類下模型很少選「不確定」,敏感度略升。PubMed 搜尋方面,OpenAI 工具召回率中等但精確度高,Gemini 召回率較低。整體來說,LLMs 有潛力但仍需人類監督與精心設計提示詞。 相關文章 PubMed DOI 推理

這項研究用大型語言模型的困惑度分數來評估語言連貫性,並和傳統方法比較。結果發現,兩者結合後,更能貼近臨床對思覺失調症患者思考混亂的評分。這顯示LLM有潛力提升自動化工具在早期偵測和追蹤精神病症狀的準確度。 相關文章 PubMed DOI 推理