原始文章

這項研究比較了四款大型語言模型(如ChatGPT 4o、Grok 3等)和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%,Grok 3表現最好。雖然LLMs有潛力,但推理仍會出錯,暫時無法取代專家,只能當作輔助工具,還是需要專家監督。 PubMed DOI


站上相關主題文章列表

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

這項研究發現,Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性,也更常用專家級推理策略。雖然各模型正確率差不多,但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說,先進 LLMs 雖有專家級潛力,但在情境理解和啟發式推理上還有待加強,臨床應用前需再改進。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現,發現GPT-4o在摘要篩選最優(召回率0.894,精確度0.492),並提出有效調整篩選門檻的方法。偏誤風險評估方面,LLM表現依領域不同而異。整體來說,LLM對自動化系統性回顧有幫助,但還有待改進。 PubMed DOI

這篇綜述整理了LLMs在醫療診斷的最新應用,像是疾病分類和醫學問答,特別以GPT-4和GPT-3.5為主。雖然在放射科、精神科等領域表現不錯,但還是有偏見、隱私和法規等問題。未來要加強驗證、減少偏見、提升可解釋性,並統一法規,才能讓LLMs更安全地應用在醫療上。 PubMed DOI

研究用兩個自訂GPT模型和人工審查者比較,評估系統性回顧的偏誤風險和參與程度。結果顯示,GPT模型的分類和人工類似,但在細節分布上有些不同,統計上沒顯著差異。雖然GPT有潛力,但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI