原始文章

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI


站上相關主題文章列表

GPT-4被用於病例報告的診斷挑戰,但僅在少數病例中表現良好。為了保護隱私,測試了提取術語生成提示的方法。結果顯示從結構化數據創建的提示效果更差,不同版本的GPT-4表現也不同。這凸顯了在臨床診斷中使用GPT-4的限制,強調了需要研究如何從臨床數據中創建有效提示。 PubMed DOI

研究使用電子健康記錄進行表型分析時,需要準確的演算法,但開發這些演算法可能耗費大量時間。研究指出,使用大型語言模型(LLMs)能有效生成初步演算法,其中GPT-4和GPT-3.5在評估中表現較佳。然而,仍需要人類專業知識來完善這些演算法。 PubMed DOI

研究比較了泌尿學協會提供的腎結石患者資訊材料(PIMs)和AI模型生成的內容,發現PIMs更易讀。AI模型準確但可讀性較差,GPT-4比GPT-3.5更準確。雖PIMs準確,AI模型有遺漏細節。總結來說,PIMs比AI生成的內容更易讀,但各有優缺點。 PubMed DOI

社會健康決定因素(SDoH)對健康影響很大,其中住房穩定性至關重要。電子健康記錄(EHRs)中包含有用的SDoH資訊,但常為非結構化,需要透過自然語言處理(NLP)進行分析。新的NLP技術如GPT-4能有效辨識住房不穩定性,雖然在偵測上有高召回率,但精確度較低。LLMs提供擴展且成本效益高的解決方案,同時召回率也較高。結合LLMs和人工審查可提高數據分析效率,支持醫療系統提供更主動的病人護理。 PubMed DOI

人工智慧和大型語言模型可輔助急診室運作,幫助醫生判斷病人是否需要住院。一項使用紐約市醫院真實數據的研究發現,GPT-4模型在預測急診病人入院情況方面表現優異。建議大型語言模型可成為醫療決策支援工具,進一步改進以提高效能。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI