原始文章

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI


站上相關主題文章列表

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

研究指出GPT-4在辨識胃腸道出血方面表現優異,準確率高達94.4%,比ICD碼更好。與人工審查相比,表現相當或稍微差一點。GPT-4效率高、成本低,可快速分析數據,是臨床事件分類的可靠替代方案,有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

使用大型語言模型如GPT-3.5 Turbo和GPT-4可提升臨床試驗患者配對的效率和準確性。研究顯示GPT-4在患者記錄和AI技術中表現優異,有助於減少招募錯誤、減輕研究負擔、加速研究。然而,仍需進一步研究以驗證其在實際臨床數據中的效用。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究評估了三本主要整形外科期刊中隨機對照試驗(RCT)摘要對CONSORT指導方針的遵循情況。研究人員利用GPT-4 AI技術分析了2010至2023年間的371篇RCT摘要,結果顯示平均遵循分數為10.05,顯示出多處需改進。主要問題包括試驗設計、參與者詳情、介入描述等方面的合規性不足。此外,試驗註冊和資金資訊也常缺失。研究強調AI在提升遵循評估的潛力,並呼籲研究者更應遵循CONSORT指導方針,以提升整形外科RCT報告的質量與透明度。 PubMed DOI

隨機對照試驗(RCTs)對循證醫學非常重要,但有些試驗使用虛構數據,影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表,ChatGPT能有效處理RCT論文的PDF,並準確回答檢查項目,與人類評估者的一致性達84%。此外,ChatGPT在數據提取方面也表現出色,對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用,實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題,GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示,99%的參與者認為回應易懂,84%認為信息詳細,93%表示滿意,96%認為醫學準確。不過,只有63%認為信息完整,顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具,結合即時藥理數據庫,以提升臨床決策的準確性。 PubMed DOI