原始文章

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量,使用手動評估和大型語言模型(LLM)進行分析。共納入54份文件,結果顯示AGREE II的遵循率普遍偏低,最高為41.56%(表達清晰度),最低僅17.28%(發展嚴謹性)。LLM評估的文件得分顯著高於手動評估,顯示LLM在質量評估中具潛力,但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

大型語言模型(LLMs)在神經外科領域逐漸受到重視,顯示出提升各種任務的潛力。然而,針對其在不同應用中的表現進行系統性檢視的研究仍然不足。本研究識別了關鍵的LLMs,並建立可重複性的報告指導方針,強調其在神經外科的進展。 我們在PubMed和Google Scholar搜尋相關文獻,找到51篇符合標準的文章,主要應用於臨床文本生成、標準化考試問題回答及支持臨床決策。主要使用的LLMs包括GPT-3.5、GPT-4、Bard和Bing。研究顯示,雖然LLMs在複雜任務中表現優異,但大多數研究仍集中於基本應用,未充分解決性能提升或可重複性問題。推進此領域需標準化報告實踐及採用更複雜的驗證方法。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT,在填寫血管質量倡議(VQI)程序數據庫的有效性。研究針對三種手術進行,結果顯示LLMs的準確率相當高,CEA為84.0%、EVAR為92.2%、LEB為84.3%。排除少見指標後,準確率更提升至CEA的95.5%、EVAR的94.8%和LEB的93.2%。兩個模型(gpt-35-turbo和gpt-4)之間性能差異不大,且分析成本低。整體而言,LLMs能有效協助填寫VQI數據庫,建議進一步研究以提升準確性。 PubMed DOI

圍手術期神經認知障礙(PNDs)是手術後常見的併發症,特別在老年人中,會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性,並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議,並由來自五國的評審進行評估。結果顯示,兩者的建議與指導方針相似,但仍需進一步驗證和臨床醫師的反饋,才能應用於臨床。 PubMed DOI

這項研究評估大型語言模型(LLMs)在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書,並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示,LLM在內容相關性和術語方面表現良好,但在臨床思維和透明度上則較差。為提升表現,研究人員採用檢索增強生成(RAG)方法,顯著改善了內容質量,提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性,並可能改變藥物開發過程。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

這項研究開發了一個自動化系統,利用大型語言模型來評估多語言醫學影像指導方針的質量,目的是提高效率並減少人工負擔。研究團隊創造了QPC-HASE-GuidelineEval演算法,結合四象限問題分類和混合搜索技術,並在45份指導方針上測試。結果顯示,平均準確率為77%,但在複雜任務上較低。評估時間縮短至每份約8分30秒,成本約0.5美元,顯示出相對於傳統方法的優勢。不過,對於複雜任務仍需進一步改進。 PubMed DOI