原始文章

這項研究致力於開發一種整合大型語言模型(LLM;GPT4-Turbo)的自然語言處理(NLP)演算法,目的是自動從電子健康紀錄(EHRs)中提取脊椎手術數據。傳統的手動審查方法繁瑣且易出錯,因此自動化非常重要。演算法採用兩階段流程,先用基於規則的NLP框架識別文本,再由LLM進行驗證。結果顯示,這種方法在準確性、時間效率和成本上均優於傳統方式,顯示出在臨床應用的潛力。 PubMed DOI


站上相關主題文章列表

LLMs在從公開來源中提取數據很有用,但在臨床設置中的效果尚不明確。這項研究比較了使用「Versa Chat」(OpenAI gpt-35-turbo LLM的實現)與手動病歷審查在肝癌影像報告中提取數據的準確性。研究涉及182份腹部影像報告,評估其性能包括準確性、精確性、召回率和F1分數。 PubMed DOI

在大型醫療系統中,準確編碼醫學診斷和程序對於高效的醫療管理、品質改善、研究和報酬至關重要。使用自然語言處理(NLP)能簡化手動編碼,但最佳使用方法尚未廣為人知。雖然大型語言模型(LLMs)受歡迎,但非所有任務都需要其複雜程度。一項研究指出,傳統NLP技術在預測手術程序代碼方面表現優於BERT,具有高準確性和可解釋性,並提出了複雜度衡量標準,強調NLP在減少編碼錯誤方面的潛力。 PubMed DOI

這項研究評估了開源大型語言模型(LLMs)在從機械血栓切除報告中提取缺血性中風患者臨床數據的效果。研究使用了本地LLMs分析2020至2023年的患者報告,並引入外部數據集。測試了三個模型:Mixtral、Qwen和BioMistral,Mixtral在內部數據集上表現最佳,精確度達0.99。HITL方法使每個案例平均節省65.6%的時間,顯示LLMs在臨床數據自動提取中的潛力,並提升了精確度和可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別顱面外科手術的CPT代碼的有效性,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時,尤其在專業編碼人員短缺的情況下,研究旨在評估這些AI模型的效率和準確性。結果顯示,雖然整體準確性差異不大,但ChatGPT 4.0在複雜代碼上表現較佳,而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔,並提升CPT編碼的資源效率,支持將其整合進臨床流程。 PubMed DOI

本研究探討大型語言模型(LLMs),特別是GPT-3.5 turbo和GPT-4,如何提取肝細胞癌病理報告中的關鍵要素。考量到手動整理報告的困難,研究比較了LLMs與傳統的正則表達式(REGEX)方法的準確性。共分析了88份病理報告,重點在五個關鍵要素。結果顯示,LLMs和REGEX的提取準確性均相當,介於84.1%到94.8%之間。研究指出,LLMs有潛力顯著簡化提取過程,進而加速癌症研究的進展。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了一個安全的機構大型語言模型(LLM)在增強MRI脊椎檢查申請表及自動協議方面的效果。研究分析了218名患者的250份申請表,結果顯示LLM增強的申請表在臨床資訊充分性上達93.6-96.0%,遠高於臨床醫師的46.8-58.8%。LLM在78.4%的案例中提供正確的MRI協議建議,雖然低於放射科醫師的準確率,但在識別脊椎器械方面表現優異,準確率達95.1%。總體而言,LLM顯著提升了MRI申請表的質量,顯示出優化放射科醫師工作流程的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。 PubMed DOI