Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study.
使用大型語言模型進行臨床評論的自動篩選：資料分析研究。 J Med Internet Res 2024-01-29

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時，對臨床研究論文標題和摘要的辨識表現。結果顯示，這些模型在篩選超過24,000個標題和摘要時表現準確且敏感，並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間，並提升臨床研究品質，而非取代研究人員。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Validation of GPT-4 for clinical event classification: A comparative analysis with ICD codes and human reviewers.
GPT-4在臨床事件分類中的驗證：與ICD代碼和人類審查者的比較分析。 J Gastroenterol Hepatol 2024-04-17

研究指出GPT-4在辨識胃腸道出血方面表現優異，準確率高達94.4%，比ICD碼更好。與人工審查相比，表現相當或稍微差一點。GPT-4效率高、成本低，可快速分析數據，是臨床事件分類的可靠替代方案，有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

Utilizing Large Language Models for Enhanced Clinical Trial Matching: A Study on Automation in Patient Screening.
運用大型語言模型增強臨床試驗配對：自動化患者篩選研究。 Cureus 2024-06-10

使用大型語言模型如GPT-3.5 Turbo和GPT-4可提升臨床試驗患者配對的效率和準確性。研究顯示GPT-4在患者記錄和AI技術中表現優異，有助於減少招募錯誤、減輕研究負擔、加速研究。然而，仍需進一步研究以驗證其在實際臨床數據中的效用。 PubMed DOI

Human-Comparable Sensitivity of Large Language Models in Identifying Eligible Studies Through Title and Abstract Screening: 3-Layer Strategy Using GPT-3.5 and GPT-4 for Systematic Reviews.
大型語言模型在通過標題和摘要篩選識別合格研究中的人類可比敏感性：使用 GPT-3.5 和 GPT-4 進行系統評價的三層策略。 J Med Internet Res 2024-08-16

這項研究探討了一種三層篩選方法，利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次：研究設計、目標患者及介入措施。結果顯示，GPT-4在敏感性和特異性上表現良好，顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域，以評估其更廣泛的有效性。 PubMed DOI

Evaluating the Capabilities of Generative AI Tools in Understanding Medical Papers: Qualitative Study.
評估生成式 AI 工具在理解醫學論文中的能力：質性研究。 JMIR Med Inform 2024-09-04

這項研究探討大型語言模型（LLMs）在理解醫學研究論文的能力，特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現，包括GPT-3.5-Turbo和GPT-4系列，與專業醫學教授的評估。分析了50篇來自PubMed的論文，結果顯示GPT-3.5-Turbo的準確率最高（66.9%），而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力，但也指出需進一步研究以克服現有限制。 PubMed DOI

Evaluating Compliance of Randomized Controlled Trial Abstracts in Plastic Surgery Journals with CONSORT Guidelines Using GPT-4 AI.
評估整形外科期刊隨機對照試驗摘要與 CONSORT 指南的一致性，使用 GPT-4 AI。 Plast Reconstr Surg Glob Open 2024-10-15

這項研究評估了三本主要整形外科期刊中隨機對照試驗（RCT）摘要對CONSORT指導方針的遵循情況。研究人員利用GPT-4 AI技術分析了2010至2023年間的371篇RCT摘要，結果顯示平均遵循分數為10.05，顯示出多處需改進。主要問題包括試驗設計、參與者詳情、介入描述等方面的合規性不足。此外，試驗註冊和資金資訊也常缺失。研究強調AI在提升遵循評估的潛力，並呼籲研究者更應遵循CONSORT指導方針，以提升整形外科RCT報告的質量與透明度。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估：案例研究。 J Clin Epidemiol 2025-01-19

隨機對照試驗（RCTs）對循證醫學非常重要，但有些試驗使用虛構數據，影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表，ChatGPT能有效處理RCT論文的PDF，並準確回答檢查項目，與人類評估者的一致性達84%。此外，ChatGPT在數據提取方面也表現出色，對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用，實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Assessing GPT-4's accuracy in answering clinical pharmacological questions on pain therapy.
評估 GPT-4 在疼痛治療臨床藥理學問題回答中的準確性。 Br J Clin Pharmacol 2025-03-11

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題，GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示，99%的參與者認為回應易懂，84%認為信息詳細，93%表示滿意，96%認為醫學準確。不過，只有63%認為信息完整，顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具，結合即時藥理數據庫，以提升臨床決策的準確性。 PubMed DOI

原始文章

站上相關主題文章列表