Clinical Research With Large Language Models Generated Writing-Clinical Research with AI-assisted Writing (CRAW) Study.
大型語言模型生成寫作的臨床研究-具有AI輔助寫作的臨床研究（CRAW）研究。 Crit Care Explor 2023-10-30

研究比較了大型語言模型GPT-3.5和不同H指數的醫學研究人員在寫重症監護臨床研究問題背景的能力。來自20個國家的研究人員評估後發現，GPT-3.5在背景部分表現不錯，但在區分人類內容方面稍遜。總結來說，GPT-3.5能夠創造出和高H指數醫學研究人員相當的背景研究內容。 PubMed DOI

The Accuracy and Potential Racial and Ethnic Biases of GPT-4 in the Diagnosis and Triage of Health Conditions: Evaluation Study.
GPT-4在健康狀況診斷和分類中的準確性和潛在種族和族裔偏見：評估研究。 JMIR Med Educ 2024-02-10

這項研究比較了使用臨床案例來診斷和分類健康狀況時，人工智慧GPT-4與醫師的準確性。結果顯示，GPT-4和醫師在診斷準確性和分類適當性方面表現相似。GPT-4的表現不因患者種族和族裔而有所不同。這表明GPT-4在改善醫療系統中患者診斷和分類效率方面可能會有所幫助。 PubMed DOI

Comprehensive analysis of the performance of GPT-3.5 and GPT-4 on the American Urological Association self-assessment study program exams from 2012-2023.
2012年至2023年美國泌尿學會自我評估研究計畫考試中GPT-3.5和GPT-4表現的全面分析。 Can Urol Assoc J 2024-02-21

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現，結果顯示GPT-4在大多數年份和泌尿學主題中表現優異，得分超過50%。GPT-4的總分為55%，顯著高於GPT-3.5的33%。研究結果指出，像GPT-4這樣的AI語言模型在回答臨床問題上有進步，但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

Validation of GPT-4 for clinical event classification: A comparative analysis with ICD codes and human reviewers.
GPT-4在臨床事件分類中的驗證：與ICD代碼和人類審查者的比較分析。 J Gastroenterol Hepatol 2024-04-17

研究指出GPT-4在辨識胃腸道出血方面表現優異，準確率高達94.4%，比ICD碼更好。與人工審查相比，表現相當或稍微差一點。GPT-4效率高、成本低，可快速分析數據，是臨床事件分類的可靠替代方案，有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

Leveraging Large Language Models for Improved Patient Access and Self-Management: Assessor-Blinded Comparison Between Expert- and AI-Generated Content.
利用大型語言模型改善患者接觸和自我管理：專家和人工智慧生成內容的評估者盲檢比較。 J Med Internet Res 2024-04-25

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果，結果發現Google Bard易讀性高，但適當性稍差；ChatGPT-3.5和ChatGPT-4在適當性表現較好，尤其ChatGPT-4更穩定。這些模型被認為無害，對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力，但仍需改進和考慮道德問題，未來研究應著重於安全整合策略。 PubMed DOI

Investigating the clinical reasoning abilities of large language model GPT-4: an analysis of postoperative complications from renal surgeries.
探討大型語言模型 GPT-4 的臨床推理能力：對腎臟手術後併發症的分析。 Urol Oncol 2024-05-07

研究評估了GPT-4在腎臟手術後併發症的表現，結果顯示檢測準確率高，但解釋Clavien-Dindo分類和特定機構的困難。GPT-4需進一步改進在解釋複雜醫學信息方面。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

Assessing GPT-4's Performance in Delivering Medical Advice: Comparative Analysis With Human Experts.
評估 GPT-4 在提供醫療建議方面的表現：與人類專家的比較分析。 JMIR Med Educ 2024-07-11

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現，GPT-4和人類專家在醫學準確性上差不多，人類專家在高準確性回答上表現較好，但也有更多低準確性回答。GPT-4回答較長，用詞較少多樣，可能有助於一般人理解。然而，人類專家在藥物資訊和初步診斷等特定問題上表現更好，顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力，但需改進整合臨床推理，確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

Comparison of the Quality of Discharge Letters Written by Large Language Models and Junior Clinicians: Single-Blinded Study.
大型語言模型與初級臨床醫師所撰寫出院信的質量比較：單盲研究。 J Med Internet Res 2024-07-24

這項研究評估了GPT-4在泌尿科門診生成出院信件的效果，並與初級醫師進行比較。出院信件對於護理連續性很重要，但撰寫過程常常耗時。研究中，GPT-4根據五個虛構的電子病歷撰寫信件，並由初級醫師用問卷評估其質量。結果顯示，GPT-4在資訊提供上表現優於初級醫師，且沒有產生虛假信息。雖然在清晰度和滿意度上無顯著差異，但GPT-4的信件質量與人類相當。整體而言，GPT-4可望提升醫療文檔的效率與一致性。 PubMed DOI

Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

原始文章

站上相關主題文章列表