原始文章

這項研究分析了四種自然語言處理(NLP)工具在標註胸部放射線報告的準確性及其人口統計偏差。研究期間為2022年4月至2024年4月,評估了CheXpert、RadReportAnnotator (RRA)、OpenAI的GPT-4和cTAKES在MIMIC和印第安納大學數據集上的表現。結果顯示,所有工具整體準確性高,但在不同數據集間有所差異,RRA和cTAKES在MIMIC數據集表現較佳,而CheXpert和GPT-4則在IU數據集上更突出。研究也發現年長患者的錯誤率較高,顯示這些工具在不同人口群體中的表現存在顯著差異,需進一步調查。 PubMed DOI


站上相關主題文章列表

研究發現,比較放射科醫師和GPT-4 AI生成的放射學報告,發現兩者在質量和內容上相當,但AI報告更為簡潔,且結構稍有不同。這顯示GPT-4可能是一個可靠的工具,有助於提升臨床效率和溝通。然而,仍需解決道德問題和限制,以確保安全實施。 PubMed DOI

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題,未能充分考慮人口多樣性,容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前,務必評估和解決偏見問題。 PubMed DOI

人工智慧在放射學報告生成方面有進步,但評估AI報告仍有挑戰。結合放射科醫師專業知識與GPT-3.5、GPT-4等大型語言模型,使用ICIL和CoT推理對齊評估標準。透過回歸模型聚合分數進行比較,實驗結果顯示此方法優於現有指標。穩健性已驗證,將釋出專家註釋以增進AI醫學報告評估品質。 PubMed DOI

這項研究探討了利用自然語言處理(NLP)技術,特別是ChatGPT,來提升放射科報告的產出效率。研究人員分析了1,000條來自MIMIC胸部X光數據庫的記錄,並使用Claude.ai提取關鍵字,再透過ChatGPT生成報告。結果顯示,Bart和XLM模型的報告與醫生撰寫的相似度高達99.3%,而其他模型表現較差。研究強調選擇合適的NLP模型對於提升放射科報告的效率和準確性至關重要。 PubMed DOI

這項研究比較了ChatGPT大型語言模型(LLMs)與不同經驗的人類讀者在肺癌分期的表現。研究納入700名非小細胞肺癌患者,使用胸部CT和FDG PET/CT報告進行分析。結果顯示,GPT-4o的準確率為74.1%,優於其他模型和一位住院醫師,但仍低於專科訓練的放射科醫生。這表明,雖然LLMs在某些方面表現不錯,但在癌症分期等複雜任務中,專業醫療人員的角色仍然不可或缺。 PubMed DOI

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現,並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例,結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中,醫師的表現並未顯著優於GPT-4V。特別是,GPT-4V在僅使用文字輸入時的準確率較高(50%),而僅使用影像輸入則為38%。總體來看,GPT-4V的表現與人類相當,且未能提升人類的解讀準確性。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

這項研究分析了不同的自然語言處理(NLP)模型和大型語言模型(LLM)在放射科報告中匿名化個人健康資訊(PHI)的效果,並遵循HIPAA法規。研究發現,兩個NLP模型成功移除了所有日期、醫療紀錄號碼和檢查號碼,而LLM在日期的移除效果較差。針對準確性優化的NLP模型表現最佳,達到完美的F1分數。研究結論指出,預訓練的NLP模型在不影響臨床數據的情況下,更有效地進行匿名化,LLM則可能意外刪除重要資訊,強調了可靠的PHI匿名化對醫療應用的重要性。 PubMed DOI

這項研究探討了OpenAI的GPT-4進階數據分析(ADA)在分析重症監護病房病人胸部X光片的有效性。研究使用了43,788份病人報告,要求GPT-4進行多種分析,包括繪圖和預測模型。三位具機器學習經驗的科學家評估了GPT-4的輸出,結果顯示其視覺化和統計分析大多準確,但也有錯誤。GPT-4的機器學習模型AUC為0.75,與人類模型相近(0.80),準確率也相似。研究建議大型語言模型可增強放射學數據分析,但仍需注意準確性限制。 PubMed DOI

這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。 PubMed DOI