原始文章

本研究評估大型語言模型(LLM),特別是GPT-4,是否能有效分析介入放射學(IR)微波消融裝置的安全事件數據。研究收集了2011年至2023年的安全數據,並由人類審核者進行分類。GPT-4的分類準確率在訓練集達96.0%,驗證集86.4%,測試集87.3%。最終生成的摘要與人類解讀相似,顯示LLM在處理IR安全數據方面的潛力,成為臨床醫生的有用工具。 PubMed DOI


站上相關主題文章列表

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

研究指出GPT-4在辨識胃腸道出血方面表現優異,準確率高達94.4%,比ICD碼更好。與人工審查相比,表現相當或稍微差一點。GPT-4效率高、成本低,可快速分析數據,是臨床事件分類的可靠替代方案,有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

研究評估了GPT-4在腎臟手術後併發症的表現,結果顯示檢測準確率高,但解釋Clavien-Dindo分類和特定機構的困難。GPT-4需進一步改進在解釋複雜醫學信息方面。 PubMed DOI

研究評估符合HIPAA標準的GPT-4在急診放射學報告中的效用。人工智慧在辨識重要發現方面表現良好,但仍需人類監督。總結來說,AI對於辨識病人放射學報告中的重要資訊有幫助,但人類的角色仍然不可或缺。 PubMed DOI

這項研究探討了GPT-4在協助懷疑心肌炎的醫療決策中的有效性,分析了396名患者的心臟MRI報告。結果顯示,GPT-4的準確率為83%,敏感度90%,特異度78%。其表現與一位有一年經驗的放射科醫師相當,但低於經驗更豐富的醫師。當報告中包含T1和T2映射序列時,GPT-4和人類醫師的表現都有所提升。這顯示GPT-4可能成為經驗較少醫師的有用診斷輔助工具,但仍需進一步研究以了解其潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

大型語言模型(LLMs),如OpenAI的GPT系列,在醫學領域展現潛力,特別是在腫瘤學中。研究評估了LLM在分類化療引起的主觀毒性方面的能力,結果顯示LLM在一般毒性類別的準確率為85.7%,但在特定類別的準確率僅為64.6%。雖然LLM的表現與腫瘤科醫生相當,但特定類別的準確性仍需改進。未來研究應聚焦於真實病人的驗證及即時互動能力,並考量數據準確性和隱私等倫理問題。總體而言,LLMs有潛力提升病人護理質量與效率。 PubMed DOI

這項研究探討大型語言模型(LLMs)在識別接受免疫檢查點抑制劑(ICI)治療患者的免疫相關不良事件(irAEs)中的應用,並與傳統手動裁定及ICD代碼進行比較。研究分析了超過12年的住院紀錄,發現LLMs在檢測irAEs的敏感性顯著高於ICD代碼,且效率更佳,平均每份病歷僅需9.53秒。總體來說,LLMs被認為是檢測irAEs的有效工具,提供更高的敏感性和效率。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI