原始文章

這項研究評估了人類審查者與GPT-4在評估病例報告和系列的質量一致性。研究分析了797篇2023至2024年發表的文獻,發現人類與GPT-4的評估一致性在41.91%到80.93%之間,病例選擇的問題一致性最低。無論期刊影響因子如何,一致性都相對穩定。重複分析顯示GPT-4在大多數情況下表現良好,但仍需人類監督,因為其尚未達到系統性回顧的嚴格標準。 PubMed DOI


站上相關主題文章列表

研究比較ChatGPT3與人類評估醫學研究摘要質量的能力,結果顯示兩者整體符合度有些微差異,但在特定領域表現不同。ChatGPT有助於自動化醫學文獻評估,或許提升準確性。未來的AI技術如GPT4可能提供更可靠的評估,進而改善患者治療結果。 PubMed DOI

研究比較了最新的人工智慧模型 GPT-4 與前身 GPT-3.5 在81個複雜醫學案例的表現。GPT-4 在主要診斷準確率達38.3%,在不同診斷方面提高至71.6%。它在84.0%的案例提出主要診斷建議,大多數領域優於GPT-3.5,除了藥物反應。GPT-4 在感染性疾病和藥物反應方面表現優異,但在認知障礙案例中稍差。總的來說,GPT-4 在準確診斷、全面不同診斷和適當調查方面展現潛力,雖然表現因醫學專業領域而略有不同。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

研究發現ChatGPT在生成病例報告表現優秀,但專家審查後發現存在不準確之處,尤其在參考文獻方面。對於同行評審醫學文章,ChatGPT的表現較差,難以辨識內容變化的不一致性。總結來說,ChatGPT在評審能力上有待加強,尤其在一致性和準確性方面,特別是在參考文獻的使用上。 PubMed DOI

一項研究評估了在基於PRISMA框架的系統文獻回顧中使用GPT-4 API作為審稿人。研究發現,在摘要篩選方面,GPT-4與人類審稿人之間存在高度一致性,暗示GPT-4有可能在文獻回顧的這個方面取代人類審稿人。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這項研究比較了GPT-4和經驗豐富的醫生在診斷臨床案例的準確性。對於未發表的挑戰性案例,GPT-4的前六個診斷準確率達61.1%,超過醫生的49.1%。在常見情境中,GPT-4的前三個診斷100%正確,而醫生則為84.3%。這顯示GPT-4在內科表現上至少與經驗醫生相當,甚至更佳,特別是在挑戰性案例中。不過,對常見案例的高準確率可能與這些案例是模型訓練數據的一部分有關。 PubMed DOI

這項研究探討了GPT-4在協助懷疑心肌炎的醫療決策中的有效性,分析了396名患者的心臟MRI報告。結果顯示,GPT-4的準確率為83%,敏感度90%,特異度78%。其表現與一位有一年經驗的放射科醫師相當,但低於經驗更豐富的醫師。當報告中包含T1和T2映射序列時,GPT-4和人類醫師的表現都有所提升。這顯示GPT-4可能成為經驗較少醫師的有用診斷輔助工具,但仍需進一步研究以了解其潛力。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI