原始文章

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI


站上相關主題文章列表

結構化報告可以增進放射學工作流程,並促進醫師間的溝通。人工智慧在醫學領域的應用越來越普遍,大型語言模型(LLMs)被用於放射學的結構化報告。四個LLM模型被比較其知識和模板提議能力。LLMs在放射學中生成結構化報告方面顯示出潛力,但需要進一步的正式驗證。 PubMed DOI

研究比較了GPT-4和GPT-3.5在提取神經放射學報告中缺血性中風患者機械溶栓術數據的表現。結果發現,GPT-4比GPT-3.5更準確,處理所有報告且無需進一步處理即可正確提取94.0%的數據項目,而GPT-3.5僅有63.9%的準確率。總結來說,GPT-4在提取正確程序數據方面更有效。 PubMed DOI

這項研究評估了開源大型語言模型(LLMs)在從機械血栓切除報告中提取缺血性中風患者臨床數據的效果。研究使用了本地LLMs分析2020至2023年的患者報告,並引入外部數據集。測試了三個模型:Mixtral、Qwen和BioMistral,Mixtral在內部數據集上表現最佳,精確度達0.99。HITL方法使每個案例平均節省65.6%的時間,顯示LLMs在臨床數據自動提取中的潛力,並提升了精確度和可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項初步研究探討了大型語言模型(LLM),特別是LLaMA3,如何從三級醫院的出院摘要中提取中風審核數據。研究分析了一個月內的中風住院病人出院摘要,成功提取144個數據點,LLM的準確率高達93.8%(135個正確)。結果顯示,LLM能有效提升中風審核數據的收集效率,並建議進一步研究以優化LLM與醫療專業人員的合作。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在院前篩檢急性缺血性中風(AIS)和大血管阻塞(LVO)的效果。研究在茂名市人民醫院進行,分析了400份急診病歷。結果顯示,GPT-4在AIS和LVO的篩檢準確率上均優於GPT-3.5,特別是在神經推理和事實正確性方面表現更佳。整體來看,GPT-4有潛力成為急救醫療服務中有效的決策支持工具,可能改善及時介入的效果。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

大型語言模型(LLMs)是透過大量文本訓練的先進神經網絡,能理解和生成類似人類的語言。ChatGPT是OpenAI開發的知名範例,具備語言翻譯、問題回答和文本補全等功能。它能生成醫療報告、手術記錄和詩歌等多種文本,並在神經外科中協助撰寫手術報告,促進醫療團隊溝通,還可作為醫學生的學習資源。不過,這類模型在醫療應用上也面臨一些挑戰。 PubMed DOI

大型語言模型(LLMs)在神經外科領域逐漸受到重視,顯示出提升各種任務的潛力。然而,針對其在不同應用中的表現進行系統性檢視的研究仍然不足。本研究識別了關鍵的LLMs,並建立可重複性的報告指導方針,強調其在神經外科的進展。 我們在PubMed和Google Scholar搜尋相關文獻,找到51篇符合標準的文章,主要應用於臨床文本生成、標準化考試問題回答及支持臨床決策。主要使用的LLMs包括GPT-3.5、GPT-4、Bard和Bing。研究顯示,雖然LLMs在複雜任務中表現優異,但大多數研究仍集中於基本應用,未充分解決性能提升或可重複性問題。推進此領域需標準化報告實踐及採用更複雜的驗證方法。 PubMed DOI