LLM 相關三個月內文章 / 第 65 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這篇研究比較了YOLOv11、EasyOCR和GPT-4o在醫療影像PHI偵測上的表現。結果發現,針對不同步驟選用專門的視覺或語言模型,能在準確度、速度和成本間取得最佳平衡。GPT-4o不僅提升OCR效果,也讓PHI偵測更穩健,適合用於端對端去識別化流程。 相關文章 PubMed DOI 推理

這項研究測試兩款在地端部署的 Llama 語言模型,從放射科報告中擷取淋巴瘤進展資訊,同時保障病人隱私。兩款模型都能正確處理 65 位病人的資料,其中 Llama-4-Scout-17B-16E-Instruct 在疾病分期和治療反應判斷上表現較佳。雖然模型未產生虛構疾病部位,但在判讀治療後疾病狀態時較困難。整體來說,這類模型有助簡化醫療文件,但還需進一步優化才能廣泛應用。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4在肩膀MRI影像測量AHD的表現,準確性和一致性都不如有經驗的放射科醫師,測量結果變異也比較大。顯示目前AI像ChatGPT-4還不適合用在精密的醫學影像測量,未來還需要再改進。 相關文章 PubMed DOI 推理

這個專案比較了主流語言模型在萃取和推論癌症病理報告(像是癌症類型、分期、預後)上的表現。經過零樣本測試後,團隊又微調出 Path-llama3.1-8B 和 Path-GPT-4o-mini-FT 兩款模型,這兩個模型在相關任務上表現最好。 相關文章 PubMed DOI 推理

這項研究測試599個基因-藥物案例,發現一般大型語言模型常給出不完整或不安全的藥物基因體建議,但經過專業微調的模型表現最好(分數0.92),而且速度更快。結果顯示,微調和結構化提示比模型大小更重要,證明AI有機會實現更安全、個人化的醫療。 相關文章 PubMed DOI 推理

這項研究比較四款熱門AI語言模型在正畸學考題的表現,發現Microsoft CoPilot最穩定,ChatGPT-4.0最準確,但所有模型的答案都有不一致的情況,且新一代不一定比舊一代好。總結來說,這些AI工具可輔助學習,但目前還不適合單獨用於正畸學教育。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4.5在診斷貓眼疾病的準確率高達90%,表現幾乎和資深獸醫眼科醫師一樣好,也明顯勝過新手醫師。AI模型之間診斷結果也很一致,顯示先進AI有潛力協助臨床決策,尤其在專科醫師不足時特別有幫助。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4o等大型語言模型能自動分析加州自駕車脫離自動駕駛的報告,準確率高達87%,速度和可靠性都比人工分析好。不過,因為車廠報告內容不一致、細節不足,還是有些挑戰。整體來說,LLM有助於提升自駕車安全分析效率,對未來自駕車發展和基礎建設規劃很有幫助。 相關文章 PubMed DOI 推理

這項研究開發了RAG-CPMF智慧中成藥推薦系統,結合大型語言模型、RAG技術和最大規模中成藥資料庫。透過多模型驗證,能有效建立並更新資料庫。整合後,RAG-CPMF在中成藥推薦準確度上明顯優於一般LLM,並經臨床指引驗證,有助西醫師更有效開立中成藥。 相關文章 PubMed DOI 推理

近期認知神經科學進展讓我們更懂情節記憶如何幫助理解現實事件,但目前還缺乏能精準預測其在複雜自然情境下運作的模型。雖然大型語言模型加外部記憶很有潛力,但和人類記憶仍有差異。這篇綜述強調這些差異,並提出更貼近人類記憶的評測標準,也討論用神經影像驗證模型預測的方法。 相關文章 PubMed DOI 推理