原始文章

這項研究評估了人類審查者與GPT-4在評估病例報告和系列的質量一致性。研究分析了797篇2023至2024年發表的文獻,發現人類與GPT-4的評估一致性在41.91%到80.93%之間,病例選擇的問題一致性最低。無論期刊影響因子如何,一致性都相對穩定。重複分析顯示GPT-4在大多數情況下表現良好,但仍需人類監督,因為其尚未達到系統性回顧的嚴格標準。 PubMed DOI


站上相關主題文章列表

一項研究評估了在基於PRISMA框架的系統文獻回顧中使用GPT-4 API作為審稿人。研究發現,在摘要篩選方面,GPT-4與人類審稿人之間存在高度一致性,暗示GPT-4有可能在文獻回顧的這個方面取代人類審稿人。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這項研究比較了GPT-4和經驗豐富的醫生在診斷臨床案例的準確性。對於未發表的挑戰性案例,GPT-4的前六個診斷準確率達61.1%,超過醫生的49.1%。在常見情境中,GPT-4的前三個診斷100%正確,而醫生則為84.3%。這顯示GPT-4在內科表現上至少與經驗醫生相當,甚至更佳,特別是在挑戰性案例中。不過,對常見案例的高準確率可能與這些案例是模型訓練數據的一部分有關。 PubMed DOI

這項研究探討了GPT-4在協助懷疑心肌炎的醫療決策中的有效性,分析了396名患者的心臟MRI報告。結果顯示,GPT-4的準確率為83%,敏感度90%,特異度78%。其表現與一位有一年經驗的放射科醫師相當,但低於經驗更豐富的醫師。當報告中包含T1和T2映射序列時,GPT-4和人類醫師的表現都有所提升。這顯示GPT-4可能成為經驗較少醫師的有用診斷輔助工具,但仍需進一步研究以了解其潛力。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI

這項研究探討了使用ChatGPT撰寫醫學案例報告的潛力,特別針對一個理論案例,涉及扭轉卵巢囊腫的囊腫抽吸。作者生成了四篇手稿,前三篇由ChatGPT根據不同細節撰寫,第四篇則是人類撰寫。分析顯示,隨著細節增加,手稿質量和可讀性提升,但人類手稿包含的個人經驗和見解是AI無法捕捉的。研究引發了對醫學寫作中「人性觸感」的討論,並建議進一步研究AI的有效性與適當性,鼓勵醫療專業人員思考使用ChatGPT的看法。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現,以協助系統性回顧。研究團隊創建了四個專門模型,針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示,GPT-4在數據提取的符合率達88.6%,且在2.5%的情況下準確性超過人類評審。在偏見評估方面,GPT-4的內部一致性公平至中等,外部一致性則優於人類評審者。整體而言,GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI