原始文章

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊,對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究:識別發作頻率的短語和提取相關屬性。他們微調了多個模型,包括BERT和生成性大型語言模型如GPT-4。結果顯示,GPT-4在所有任務中表現最佳,發作頻率短語的精確度達86.61%,屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI


站上相關主題文章列表

研究專注於從電子健康記錄中準確提取頭痛頻率數據,比較了不同NLP框架,結果顯示GPT-2表現最佳,準確度高且R平方分數優秀,勝過ClinicalBERT。研究顯示先進語言模型在臨床數據提取上有潛力,並已在GitHub分享模型和程式碼。 PubMed DOI

研究目標是開發NLP演算法,幫助準確提取臨床註記中的頭痛頻率。研究發現GPT-2效能最好,能有效提取頭痛頻率,並克服傳統演算法的挑戰。比較GPT-2和ClinicalBERT後發現GPT-2表現更優。GPT-2模型和程式碼已在GitHub上釋出,歡迎社群使用和進行微調。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

監測癲癇患者的發作控制指標對病情管理非常重要,但手動從電子健康紀錄中提取資訊耗時。本研究利用自然語言處理(NLP)自動提取癲癇發作的日期和頻率,使用預訓練模型RoBERTa_for_seizureFrequency_QA,結合正則表達式,從波士頓兩家醫院的臨床筆記中提取資料。研究涵蓋1,773名患者,結果顯示NLP模型在提取發作日期和頻率方面表現良好,顯示此方法可促進癲癇研究的進行。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何分析1型糖尿病患者的持續血糖監測(CGM)數據。研究發現,GPT-4在10項定量指標中有9項達到完美準確度,並且在兩位臨床評分者的評估下,其生成的定性描述在準確性、完整性和安全性方面表現優異。這顯示GPT-4能有效總結CGM數據,可能提升糖尿病護理,並提供分析醫療數據的新方法。 PubMed DOI

這項研究比較了功能性癲癇發作可能性評分(FSLS)與兩個大型語言模型(ChatGPT和GPT-4)在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例,FSLS的準確率為74%,而GPT-4的準確率達85%。研究發現,LLMs的預測結果在不同時間不一致,且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患,但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂,顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中,GPT-4在41個案例上表現出來,最初在沒有範例的情況下準確率為57%,提供一個範例後提升至64%,但更多範例並未進一步改善。相比之下,經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是,在醫生一致同意的案例中,GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限,但若能獲得更多臨床數據,或許能提升其診斷能力。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI