Leveraging GPT-4 for identifying cancer phenotypes in electronic health records: a performance comparison between GPT-4, GPT-3.5-turbo, Flan-T5, Llama-3-8B, and spaCy's rule-based and machine learning-based methods.
利用 GPT-4 在電子健康記錄中識別癌症表現：GPT-4、GPT-3.5-turbo、Flan-T5、Llama-3-8B，以及spaCy基於規則和機器學習方法的性能比較。 JAMIA Open 2024-07-04

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄，結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率，具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值，因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

A case study on using a large language model to analyze continuous glucose monitoring data.
使用大型語言模型分析持續血糖監測數據的案例研究。 Sci Rep 2025-01-08

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何分析1型糖尿病患者的持續血糖監測（CGM）數據。研究發現，GPT-4在10項定量指標中有9項達到完美準確度，並且在兩位臨床評分者的評估下，其生成的定性描述在準確性、完整性和安全性方面表現優異。這顯示GPT-4能有效總結CGM數據，可能提升糖尿病護理，並提供分析醫療數據的新方法。 PubMed DOI

Supervised machine learning compared to large language models for identifying functional seizures from medical records.
從醫療紀錄中識別功能性癲癇的監督式機器學習與大型語言模型的比較。 Epilepsia 2025-02-17

這項研究比較了功能性癲癇發作可能性評分（FSLS）與兩個大型語言模型（ChatGPT和GPT-4）在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例，FSLS的準確率為74%，而GPT-4的準確率達85%。研究發現，LLMs的預測結果在不同時間不一致，且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患，但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂，顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

The Clinical Value of ChatGPT for Epilepsy Presurgical Decision Making: Systematic Evaluation on Seizure Semiology Interpretation.
ChatGPT 在癲癇手術前決策中的臨床價值：對癲癇發作表現解釋的系統評估。 medRxiv 2025-02-20

這項研究探討了大型語言模型 ChatGPT 在解釋癲癇發作的臨床表現，以定位藥物抗性局部癲癇患者的癲癇病灶區的有效性。準確的病灶區定位對外科治療至關重要。研究比較了 ChatGPT 與癲癇專家的表現，使用了852組公開數據和184組台灣私有數據。結果顯示，ChatGPT 在額葉和顳葉的敏感性高達80-90%，且在常見病灶區的表現顯著優於專家。總體而言，ChatGPT 可成為癲癇術前評估的有用工具，未來隨著技術進步，其可靠性和有效性有望提升。 PubMed DOI

Llama 3.1 405B Is Comparable to GPT-4 for Extraction of Data from Thrombectomy Reports-A Step Towards Secure Data Extraction.
Llama 3.1 405B 在血栓切除報告中的數據提取上可與 GPT-4 相媲美 - 朝向安全數據提取的一步。 Clin Neuroradiol 2025-02-25

這項研究評估了多種大型語言模型（LLMs）在從機械血栓切除術的自由文本報告中提取程序細節的表現，並與GPT-4進行比較。測試的模型包括Llama3.1 405B、Llama3 70B、Llama3 8B和Mixtral 8X7B，分析了130份來自兩個機構的報告。結果顯示，Llama3.1 405B的數據提取準確率達93.5%，與GPT-4相當。Llama3 70B的準確率為90.6%（英語）和88.2%（德語），而Llama3 8B和Mixtral 8X7B的準確率均為86.1%。總體而言，Llama3.1 405B在數據提取上可作為安全的本地替代方案，特別適合重視個人數據隱私的情況。 PubMed DOI

Can artificial intelligence diagnose seizures based on patients' descriptions? A study of GPT-4.
人工智慧能否根據病患的描述診斷癲癇？一項關於 GPT-4 的研究。 Epilepsia 2025-02-27

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中，GPT-4在41個案例上表現出來，最初在沒有範例的情況下準確率為57%，提供一個範例後提升至64%，但更多範例並未進一步改善。相比之下，經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是，在醫生一致同意的案例中，GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限，但若能獲得更多臨床數據，或許能提升其診斷能力。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Data extraction from free-text stroke CT reports using GPT-4o and Llama-3.3-70B: the impact of annotation guidelines.
使用 GPT-4o 與 Llama-3.3-70B 從自由文本中風中風電腦斷層報告擷取資料：標註指引的影響 Eur Radiol Exp 2025-06-22

這項研究發現，給大型語言模型（如GPT-4o和Llama-3.3-70B）明確的標註指引，能大幅提升它們從中風CT報告擷取重點的準確度，其中GPT-4o表現最好。結果強調，清楚的指引對提升醫療自動化資料擷取很重要。 PubMed DOI

原始文章

站上相關主題文章列表