原始文章

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量,使用手動評估和大型語言模型(LLM)進行分析。共納入54份文件,結果顯示AGREE II的遵循率普遍偏低,最高為41.56%(表達清晰度),最低僅17.28%(發展嚴謹性)。LLM評估的文件得分顯著高於手動評估,顯示LLM在質量評估中具潛力,但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 PubMed DOI


站上相關主題文章列表

圍手術期神經認知障礙(PNDs)是手術後常見的併發症,特別在老年人中,會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性,並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議,並由來自五國的評審進行評估。結果顯示,兩者的建議與指導方針相似,但仍需進一步驗證和臨床醫師的反饋,才能應用於臨床。 PubMed DOI

這項研究評估大型語言模型(LLMs)在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書,並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示,LLM在內容相關性和術語方面表現良好,但在臨床思維和透明度上則較差。為提升表現,研究人員採用檢索增強生成(RAG)方法,顯著改善了內容質量,提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性,並可能改變藥物開發過程。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

這項研究開發了一個自動化系統,利用大型語言模型來評估多語言醫學影像指導方針的質量,目的是提高效率並減少人工負擔。研究團隊創造了QPC-HASE-GuidelineEval演算法,結合四象限問題分類和混合搜索技術,並在45份指導方針上測試。結果顯示,平均準確率為77%,但在複雜任務上較低。評估時間縮短至每份約8分30秒,成本約0.5美元,顯示出相對於傳統方法的優勢。不過,對於複雜任務仍需進一步改進。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

這項研究發現,目前像 ChatGPT、CoPilot 這類大型語言模型,還沒辦法穩定又準確地更新小兒泌尿科指引內容,主要是因為無法即時取得最新文獻,回覆內容也不夠一致。雖然提示工程有點幫助,但整體表現還是不夠好,暫時還無法取代專家。不過,未來如果有更好的外掛和資料庫支援,這些工具還是有發展空間。 PubMed DOI

這項研究發現,GPT-4在協助篩選食道切除術併發症危險因子的文獻時,和人工審查者的判斷一致率高,尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降,但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI