Leveraging GPT-4 for identifying cancer phenotypes in electronic health records: a performance comparison between GPT-4, GPT-3.5-turbo, Flan-T5, Llama-3-8B, and spaCy's rule-based and machine learning-based methods.
利用 GPT-4 在電子健康記錄中識別癌症表現：GPT-4、GPT-3.5-turbo、Flan-T5、Llama-3-8B，以及spaCy基於規則和機器學習方法的性能比較。 JAMIA Open 2024-07-04

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄，結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率，具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值，因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

Information extraction from medical case reports using OpenAI InstructGPT.
使用 OpenAI InstructGPT 從醫學案例報告中提取資訊。 Comput Methods Programs Biomed 2024-07-19

這項研究探討了InstructGPT，這是OpenAI的GPT-3變體，專門用來從非結構化的醫療案例報告中提取臨床資訊，特別針對兒童的異物傷害。研究人員從208篇文章中手動編輯出黃金標準數據集，提取關鍵病人資訊。InstructGPT在提取性別、年齡、傷害物體及受傷部位方面顯示高準確率，尤其在排除無法檢索的文章後，準確率更是顯著提升。這項研究顯示大型語言模型在處理複雜數據集時的優勢，且不需專業知識。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data.
大型語言模型生成合成臨床數據集：可行性及與真實世界圍手術數據的比較分析。 Front Artif Intell 2025-02-20

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據，以解決隱私法規和數據稀缺的問題。研究分為兩個階段：第一階段根據13個臨床參數創建了6,166個案例的結構化數據集，數據合理且準確；第二階段則利用真實的圍手術期數據集VitalDB生成數據，結果顯示92.31%的參數與VitalDB相似，且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據，未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Evaluation of the Performance of a Large Language Model to Extract Signs and Symptoms from Clinical Notes.
大型語言模型在臨床筆記中提取徵兆和症狀的表現評估。 Stud Health Technol Inform 2025-04-09

這項研究評估了GPT-4o大型語言模型在從非結構化的臨床筆記中提取徵兆和症狀的表現。研究使用MTSamples語料庫的手動標註筆記作為比較，並透過命名實體識別技術進行提取。結果顯示，GPT-4o在一般提取中達到78%的精確度，心肺數據集更高達87%，泌尿數據集則為81%。雖然模型表現良好，但在專業領域仍需進一步調整以提升召回率和適用性。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

原始文章

站上相關主題文章列表