A pilot feasibility study comparing large language models in extracting key information from ICU patient text records from an Irish population.
一項針對愛爾蘭人群 ICU 患者文本記錄中提取關鍵信息的大型語言模型比較的初步可行性研究。 Intensive Care Med Exp 2024-08-15

這項研究探討大型語言模型（LLMs）在生成重症監護病房（ICU）病人出院摘要的表現，分析了匿名臨床筆記。三個模型中，GPT-4 API的表現最佳，準確識別41.5%的關鍵臨床事件，ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異，但仍有小錯誤，且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看，這些LLM在生成出院摘要上有潛力，但仍需改進。 PubMed DOI

Exploring the potential of large language models in identifying metabolic dysfunction-associated steatotic liver disease: A comparative study of non-invasive tests and artificial intelligence-generated responses.
探討大型語言模型在識別代謝功能障礙相關脂肪肝病的潛力：非侵入性測試與人工智慧生成回應的比較研究。 Liver Int 2024-11-11

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在診斷代謝功能障礙相關脂肪肝病（MASLD）的有效性，數據來自2017-2018年的NHANES。結果顯示，GPT-4的診斷準確性與傳統評分系統（如脂肪肝指數）相當，ROC曲線下面積（AUROC）分別為0.831、0.817和0.827，且優於GPT-3.5。此外，GPT-4V在解讀MASLD患者的超音波影像上顯示潛力，但準確性仍不及經驗豐富的放射科醫師。總體而言，GPT-4在診斷MASLD方面表現良好，並在便利性和多樣性上具優勢。 PubMed DOI

Can the large language model ChatGPT-4omni predict outcomes in adult patients with status epilepticus?
大型語言模型 ChatGPT-4omni 能否預測成人癲癇持續狀態患者的結果？ Epilepsia 2024-12-26

這項研究評估了更新版的ChatGPT-4o在預測癲癇持續狀態患者的臨床結果，並與癲癇持續狀態嚴重程度評分（STESS）進行比較。研究涵蓋760名患者，結果顯示ChatGPT-4o預測生存情況的敏感度為75.8%，但特異度僅36.6%。在預測恢復神經功能方面，敏感度為43.2%，特異度為74.7%。研究結論認為ChatGPT-4o在此預後評估上不可靠，建議臨床醫師不要依賴其結果。 PubMed DOI

Can ChatGPT 4.0 Diagnose Epilepsy? A Study on Artificial Intelligence's Diagnostic Capabilities.
ChatGPT 4.0 能否診斷癲癇？人工智慧診斷能力的研究。 J Clin Med 2025-01-25

本研究評估了大型語言模型（如ChatGPT）在癲癇診斷中的有效性，並比較了癲癇醫師與AI的診斷一致性。研究分析了597名急診患者，結果顯示神經科醫師診斷癲癇的比例為36.2%，而ChatGPT僅為18.2%。兩者之間的協議極低，Cohen's kappa值為-0.01，顯示AI在癲癇診斷上無法與人類醫師相提並論。雖然AI在識別非癲癇病例上表現較好，但仍需進一步研究以提升其診斷準確性。 PubMed DOI

The Clinical Value of ChatGPT for Epilepsy Presurgical Decision Making: Systematic Evaluation on Seizure Semiology Interpretation.
ChatGPT 在癲癇手術前決策中的臨床價值：對癲癇發作表現解釋的系統評估。 medRxiv 2025-02-20

這項研究探討了大型語言模型 ChatGPT 在解釋癲癇發作的臨床表現，以定位藥物抗性局部癲癇患者的癲癇病灶區的有效性。準確的病灶區定位對外科治療至關重要。研究比較了 ChatGPT 與癲癇專家的表現，使用了852組公開數據和184組台灣私有數據。結果顯示，ChatGPT 在額葉和顳葉的敏感性高達80-90%，且在常見病灶區的表現顯著優於專家。總體而言，ChatGPT 可成為癲癇術前評估的有用工具，未來隨著技術進步，其可靠性和有效性有望提升。 PubMed DOI

Epilepsy surgery candidate identification with artificial intelligence: An implementation study.
人工智慧在癲癇手術候選者識別中的應用研究。 J Clin Neurosci 2025-02-23

這項研究評估了機器學習演算法在識別適合癲癇手術評估病人方面的有效性，並檢視大型語言模型（LLM）在提取相關資訊的表現。研究在一所三級醫院進行，分析了310名癲癇病人的資料。使用隨機森林模型排名後，前5%的病人中有53.3%符合手術評估標準，且有20%在一個月內被轉診。LLM在提取關鍵資訊的準確率介於80%到100%之間，但仍有錯誤，顯示人工智慧在此領域的潛力與挑戰。 PubMed DOI

Can artificial intelligence diagnose seizures based on patients' descriptions? A study of GPT-4.
人工智慧能否根據病患的描述診斷癲癇？一項關於 GPT-4 的研究。 Epilepsia 2025-02-27

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中，GPT-4在41個案例上表現出來，最初在沒有範例的情況下準確率為57%，提供一個範例後提升至64%，但更多範例並未進一步改善。相比之下，經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是，在醫生一致同意的案例中，GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限，但若能獲得更多臨床數據，或許能提升其診斷能力。 PubMed DOI

Inductive reasoning with large language models: A simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：針對癲癇的模擬隨機對照試驗。 Epilepsy Res 2025-02-28

這項研究探討了人工智慧，特別是大型語言模型（LLMs），在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者，分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記，評估藥物的療效與安全性，結果顯示AI分析與人類分析相近，僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力，能減少對傳統數據挖掘方法的需求。 PubMed DOI

Artificial intelligence (ChatGPT 4.0) vs. Human expertise for epileptic seizure and epilepsy diagnosis and classification in Adults: An exploratory study.
人工智慧 (ChatGPT 4.0) 與人類專業在成人癲癇發作及癲癇診斷與分類中的比較：一項探索性研究。 Epilepsy Behav 2025-03-13

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性，並與專家進行比較。使用37個臨床案例，結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%，但特異度較低，特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好，但在處理模糊案例時仍有困難。相比之下，人類專家的準確性更高。研究建議未來可將AI與專家結合，以提升癲癇診斷的準確性。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

原始文章

站上相關主題文章列表