原始文章

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI


站上相關主題文章列表

人工智慧和大型語言模型可輔助急診室運作,幫助醫生判斷病人是否需要住院。一項使用紐約市醫院真實數據的研究發現,GPT-4模型在預測急診病人入院情況方面表現優異。建議大型語言模型可成為醫療決策支援工具,進一步改進以提高效能。 PubMed DOI

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件,尤其是為CSRs創建安全表摘要。評估顯示性能差異,特別是在事實準確性和寫作風格方面。團隊多使用GPT模型,改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力,強調需優化人類輸入和持續研究。 PubMed DOI

研究用醫院病歷數據評估GPT-4和PaLM2的診斷準確度,結果發現GPT-4達93.9%,PaLM2為84.7%。顯示人工智慧可協助減少診斷錯誤,但仍需人類監督。整合AI到醫療面臨道德、責任和監管挑戰。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

本研究評估大型語言模型(LLM),特別是GPT-4,是否能有效分析介入放射學(IR)微波消融裝置的安全事件數據。研究收集了2011年至2023年的安全數據,並由人類審核者進行分類。GPT-4的分類準確率在訓練集達96.0%,驗證集86.4%,測試集87.3%。最終生成的摘要與人類解讀相似,顯示LLM在處理IR安全數據方面的潛力,成為臨床醫生的有用工具。 PubMed DOI

大型語言模型(LLMs),如OpenAI的GPT系列,在醫學領域展現潛力,特別是在腫瘤學中。研究評估了LLM在分類化療引起的主觀毒性方面的能力,結果顯示LLM在一般毒性類別的準確率為85.7%,但在特定類別的準確率僅為64.6%。雖然LLM的表現與腫瘤科醫生相當,但特定類別的準確性仍需改進。未來研究應聚焦於真實病人的驗證及即時互動能力,並考量數據準確性和隱私等倫理問題。總體而言,LLMs有潛力提升病人護理質量與效率。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

診斷罕見兒科疾病相當具挑戰性,因為這些疾病的表現複雜。本研究評估了三種大型語言模型(LLMs)的診斷表現:GPT-4、Gemini Pro,以及一個整合Human Phenotype Ontology的自訂模型(GPT-4 HPO),針對61個罕見疾病進行分析。結果顯示,GPT-4的準確率為13.1%,而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力,但仍需改進以便更好地融入臨床實踐。 PubMed DOI