原始文章

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現,以協助系統性回顧。研究團隊創建了四個專門模型,針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示,GPT-4在數據提取的符合率達88.6%,且在2.5%的情況下準確性超過人類評審。在偏見評估方面,GPT-4的內部一致性公平至中等,外部一致性則優於人類評審者。整體而言,GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI


站上相關主題文章列表

這項研究探討了ChatGPT-4在文獻回顧中的有效性,特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧,並根據準確性、反應時間等標準進行比較。結果顯示,GPT-4在反應時間和知識廣度上表現優異,但在深入理解和情境相關性上較弱。研究強調,雖然GPT-4可作為初步工具,但仍需專家評估以提升學術成果的準確性和情境豐富性,特別是在醫學研究領域。 PubMed DOI

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果,並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示,ChatGPT-4o的數據提取準確率高達92.4%,錯誤率僅5.2%。其數據提取的重現性也很強,兩次獨立會議的協議率達94.1%,但若論文缺少資訊,這個比例會降到77.2%。總體來看,ChatGPT-4o是一個可靠的數據提取工具,未來在數據總結方面有潛力發展。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

隨機對照試驗(RCTs)對循證醫學非常重要,但有些試驗使用虛構數據,影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表,ChatGPT能有效處理RCT論文的PDF,並準確回答檢查項目,與人類評估者的一致性達84%。此外,ChatGPT在數據提取方面也表現出色,對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用,實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現,特別是在脊髓刺激後情緒功能的數據上。結果顯示,ChatGPT在標題和摘要篩選的準確率為70.4%,而全文篩選的準確率為68.4%。在數據整合方面,ChatGPT的準確率達到100%。雖然在篩選任務中表現中等,但在數據整合上表現優異。研究指出,人工智慧能提升系統性回顧的效率,但仍需人類監督以確保研究質量。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現,發現GPT-4o在摘要篩選最優(召回率0.894,精確度0.492),並提出有效調整篩選門檻的方法。偏誤風險評估方面,LLM表現依領域不同而異。整體來說,LLM對自動化系統性回顧有幫助,但還有待改進。 PubMed DOI

這項研究發現,GPT-4在協助篩選食道切除術併發症危險因子的文獻時,和人工審查者的判斷一致率高,尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降,但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI