LLM 相關三個月內文章 / 第 67 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這篇系統性回顧分析17篇研究,探討大型語言模型(如ChatGPT、Claude、Gemini)在耳鼻喉頭頸外科臨床決策的應用。結果顯示,LLMs在診斷準確率中等,Claude表現通常比ChatGPT好,但在檢查和治療建議的準確率偏低,且不同次專科差異大。總結來說,LLMs在診斷有潛力,但治療建議還不夠穩定,未來需標準化研究方法。 相關文章 PubMed DOI 推理

研究團隊把GPT-4和專業腫瘤醫學工具結合,開發出能自主做臨床決策的AI代理。測試20個複雜癌症案例時,AI選對工具的機率有87.5%,臨床決策正確率91%,引用指引正確率75.5%。這套系統比單用GPT-4準確率高出許多,證明結合語言模型和專業工具能大幅提升癌症照護決策品質。 相關文章 PubMed DOI 推理

研究比較多個AI平台(如ChatGPT 3.5/4.0、Google Bard/Gemini、HIV.gov Chatbot)在提供HIV藥物資訊的表現。結果發現,ChatGPT 4.0 回答最完整,HIV.gov Chatbot 最不全面。所有平台都建議諮詢醫師,且普遍認為HIV藥物有效。AI雖能提供方便的資訊,但個人問題還是要找專業醫療人員討論。未來可再研究AI在HIV預防和照護的應用。 相關文章 PubMed DOI 推理

PandemicLLM 是新一代疫情預測框架,把疾病傳播預測當成文字推理問題來解決。它結合即時多元資料(如防疫政策、基因監測、時序數據),透過 AI 與人類協作提示提升預測準確度。實測美國各州 COVID-19 資料,表現優於現有模型,能整合複雜非數值資訊,讓疫情預測更精準。 相關文章 PubMed DOI 推理

這篇文章探討AI工具在科學論文審查流程的應用,測試了「Screener」和「Reviewer」兩種AI系統。Screener能有效檢查論文格式,獲得編輯和作者好評,已正式上線;但Reviewer給的技術回饋評價兩極。文章建議未來AI應著重在協助作者改善論文,提升審查效率。 相關文章 PubMed DOI 推理

這項研究發現,客製化的ChatGPT模型在從成本效益分析論文擷取資料時,整體準確度跟現有資料庫差不多,有些變項甚至更好。不過,遇到複雜資訊(像效用值)時,表現就比較差。總結來說,AI可以幫忙自動化資料擷取,但複雜內容還是需要專家審核。 相關文章 PubMed DOI 推理

這項研究比較五款聊天機器人在篩選AI牙齒分割相關X光文獻的表現,發現它們在篩選決策上差異很大,跟人類專家的結果也不太一致。ChatGPT-4的精確度和準確率最高,Claude-instant-100k雖然敏感度最好,但精確度最低。整體來說,這些聊天機器人的準確性和一致性都有限,還是需要人類專家來監督和確認結果。 相關文章 PubMed DOI 推理

這次比較發現,GPT-4o 能整合複雜臨床資訊,給出詳細診斷和治療建議,明顯優於 1970 年的 CAL AI 只能提供基本指引。這凸顯 AI 在醫療分析上的進步,但 AI 仍有侷限,應作為醫師的輔助工具,而非完全取代臨床判斷。 相關文章 PubMed DOI 推理

一項研究發現,ChatGPT對10個常見半月板手術問題的回答,大多正確又清楚。4個答案非常優秀,4個只需小幅補充,2個需中度補充,沒有不合格的情況。整體來說,ChatGPT能提供令人滿意且可靠的半月板手術相關資訊。 相關文章 PubMed DOI 推理

將專業知識整合進大型語言模型對醫學教育很有挑戰,尤其牙髓病學又需要文字和影像資源。一般LLM常缺乏臨床精確度和情境。研究團隊開發Endodontics-KB平台,結合實證文獻和操作影片,並用分層RAG架構。其聊天機器人EndoQ能用多模態資料進行臨床推理,專家評比在五大指標都勝過一般LLM,提升牙科教育,也可應用到其他醫學領域。 相關文章 PubMed DOI 推理