原始文章

肝脂肪變性(脂肪肝)是嚴重肝臟疾病的前兆,會增加健康風險。這項研究探討大型語言模型(LLMs)在急診影像報告中識別肝脂肪變性的潛力。研究分析了200名成人的CT掃描,使用三種Azure OpenAI模型(ChatGPT 3.5、4和4o)進行檢測。結果顯示,這些模型的準確率高達96.2%至98.8%,且評估者間的可靠性極高。研究認為,LLMs能有效識別影像報告中的異常,對早期疾病介入有重要意義,並簡化電子病歷分析過程。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

本研究探討大型語言模型(LLMs),特別是GPT-3.5 turbo和GPT-4,如何提取肝細胞癌病理報告中的關鍵要素。考量到手動整理報告的困難,研究比較了LLMs與傳統的正則表達式(REGEX)方法的準確性。共分析了88份病理報告,重點在五個關鍵要素。結果顯示,LLMs和REGEX的提取準確性均相當,介於84.1%到94.8%之間。研究指出,LLMs有潛力顯著簡化提取過程,進而加速癌症研究的進展。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在診斷代謝功能障礙相關脂肪肝病(MASLD)的有效性,數據來自2017-2018年的NHANES。結果顯示,GPT-4的診斷準確性與傳統評分系統(如脂肪肝指數)相當,ROC曲線下面積(AUROC)分別為0.831、0.817和0.827,且優於GPT-3.5。此外,GPT-4V在解讀MASLD患者的超音波影像上顯示潛力,但準確性仍不及經驗豐富的放射科醫師。總體而言,GPT-4在診斷MASLD方面表現良好,並在便利性和多樣性上具優勢。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),用於根據MRI報告自動分類肝臟觀察,依據LI-RADS v2018指導方針。研究分析了291個肝臟觀察,並將其分為訓練、驗證和測試集。結果顯示,模型在LI-RADS分類上有中等一致性(κ = 0.54),對於惡性腫瘤的識別也有不錯的表現。使用LLM後,放射科醫師的工作量減少了45%,顯示出該模型在臨床應用中的潛力,能有效提升數據整理效率。 PubMed DOI

這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究探討大型語言模型(LLMs)與對比增強超聲肝臟影像報告系統(CEUS LI-RADS)結合,對高風險患者診斷小型肝細胞癌(sHCC)的效果。研究涵蓋403名未治療的高風險患者,評估的LLMs包括ChatGPT-4.0等。結果顯示,ChatGPT-4.0在CEUS LI-RADS分類上表現優於其他模型,且在檢測sHCC的敏感性上也優於ChatGPT-4o。整體而言,研究建議ChatGPT-4.0結合CEUS LI-RADS,可能成為診斷sHCC的有效工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI