原始文章

這項研究評估了ChatGPT-4o在新生兒研究偏倚風險評估的表現,並與2024年發表的Cochrane評估進行比較。分析了九篇研究中的61項隨機研究,結果顯示ChatGPT-4o與原始評估的一致性中等,Cohen's Kappa值為0.43。在分配隱蔽性方面表現最佳(kappa=0.73),但在不完整結果數據方面則最差(kappa=-0.03)。研究指出,ChatGPT-4o在偏倚風險評估中一致性不足,未來應探索其他語言模型或改進提示方式以提升表現。 PubMed DOI


站上相關主題文章列表

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

研究發現使用ChatGPT在放射學文獻篩選上有潛力,能快速且省時,但準確度仍需提升。未來需進一步研究改善其表現,確保在各醫學領域皆可靈活運用。 PubMed DOI

在醫學研究中,系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況,加快了過程並提高了可靠性。ChatGPT-4是智能助手,可快速評估研究中的偏見風險,改變了這領域,潛在挽救生命。雖需人類監督,但ChatGPT-4和自動化助力下,循證醫學前景光明。 PubMed DOI

本研究比較了兩個版本的ChatGPT(3.5和4.0)在生成重症醫療建議的能力。結果顯示,ChatGPT 4.0在適當性上得分顯著高於3.5,但在一致性和可讀性方面差異不大。兩個版本都會產生錯誤資訊,顯示在缺乏專業知識的情況下使用這些工具的風險。這強調了臨床醫師需了解LLM的優缺點,以確保在重症醫療中安全有效地使用這些工具。研究已註冊於 https://osf.io/8chj7/。 PubMed DOI

一項研究評估了ChatGPT4在產科麻醉臨床決策中的表現,測試了八個不同的情境。七位專業麻醉醫師使用五點李克特量表評估其回應。結果顯示,73%的回應被認為是安全的,但沒有一個回應獲得所有專家的一致認可。準確性評為部分準確(4分),完整性則為有些不完整(3.5分)。約25%的回應被視為不安全,顯示大型語言模型在醫療領域仍需進一步訓練與調整,未來可能對產科麻醉的臨床決策有所幫助。 PubMed DOI

這篇文章探討了ChatGPT在系統性回顧和統合分析中的應用、風險及建議。研究指出,ChatGPT在文獻篩選和資訊提取上表現不錯,但在偏見風險評估等複雜任務中則較弱,顯示人類專業知識的重要性。為了有效整合ChatGPT,需謹慎規劃和嚴格控管,並注意AI的錯誤現象。文章強調透明度和遵循倫理標準,建議研究者提升自我迭代、提示工程及批判性思維等技能,以增進AI的表現和人機合作的效率。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果,並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示,ChatGPT-4o的數據提取準確率高達92.4%,錯誤率僅5.2%。其數據提取的重現性也很強,兩次獨立會議的協議率達94.1%,但若論文缺少資訊,這個比例會降到77.2%。總體來看,ChatGPT-4o是一個可靠的數據提取工具,未來在數據總結方面有潛力發展。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現,特別是在脊髓刺激後情緒功能的數據上。結果顯示,ChatGPT在標題和摘要篩選的準確率為70.4%,而全文篩選的準確率為68.4%。在數據整合方面,ChatGPT的準確率達到100%。雖然在篩選任務中表現中等,但在數據整合上表現優異。研究指出,人工智慧能提升系統性回顧的效率,但仍需人類監督以確保研究質量。 PubMed DOI

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分,結果顯示兩個主題的準確性都很高,得分均為5.0(四分位數範圍4-5)。不過,根據問題表述的不同,「懷孕中的營養」準確性為83-89%,而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議,但女性仍需注意其局限性,特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究,意義重大。 PubMed DOI