原始文章

這項研究利用大型語言模型(LLM)來識別電子健康紀錄中的照護目標對話,並評估其總結能力。針對2024年4月至6月的晚期癌症患者,使用符合HIPAA的GPT-4o版本。研究發現,LLM標記約40%的臨床筆記為照護目標文檔,並確認128名患者有相關對話。幻覺指數低,顯示LLM輸出與原始紀錄相符,且能在每位患者不到2分鐘內產生準確摘要。結果顯示LLM在識別和總結GOC討論方面具有效能,未來在臨床應用中具潛力。 PubMed DOI


站上相關主題文章列表

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

大型語言模型(LLMs),如OpenAI的GPT系列,在醫學領域展現潛力,特別是在腫瘤學中。研究評估了LLM在分類化療引起的主觀毒性方面的能力,結果顯示LLM在一般毒性類別的準確率為85.7%,但在特定類別的準確率僅為64.6%。雖然LLM的表現與腫瘤科醫生相當,但特定類別的準確性仍需改進。未來研究應聚焦於真實病人的驗證及即時互動能力,並考量數據準確性和隱私等倫理問題。總體而言,LLMs有潛力提升病人護理質量與效率。 PubMed DOI

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究探討了GPT-4在癌症護理電話諮詢中分類病人意圖的效果,並與傳統深度學習模型如LSTM和BERT進行比較。研究使用了430,355句的數據,發現GPT-4的準確率達85.2%,明顯優於LSTM(73.7%)和BERT(71.3%)。特別是在處理複雜查詢如「治療」和「症狀」時,GPT-4的表現提升超過15%。研究指出,雖然GPT-4在醫療應用中展現潛力,但仍需改進提示設計和類別定義,未來將探索與人類監督的混合系統。 PubMed DOI

這項研究評估大型語言模型(LLM)在提取與肺部微波腫瘤消融(MWA)相關的臨床資訊的效果。研究針對20名患者進行回顧性分析,檢視治療後最多12個月的放射學報告和診所筆記。使用LLM(GPT 3.5 Turbo 16k)識別四個關鍵臨床結果,結果經手動審查驗證。分析104份放射學報告和37份診所筆記,顯示LLM在識別這些結果上準確率高達85%到100%。研究顯示LLM能有效提取醫療數據中的臨床資訊,未來可能對介入放射學研究有幫助。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI