原始文章

這項研究利用大型語言模型(LLM)來識別電子健康紀錄中的照護目標對話,並評估其總結能力。針對2024年4月至6月的晚期癌症患者,使用符合HIPAA的GPT-4o版本。研究發現,LLM標記約40%的臨床筆記為照護目標文檔,並確認128名患者有相關對話。幻覺指數低,顯示LLM輸出與原始紀錄相符,且能在每位患者不到2分鐘內產生準確摘要。結果顯示LLM在識別和總結GOC討論方面具有效能,未來在臨床應用中具潛力。 PubMed DOI


站上相關主題文章列表

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在幫助病人理解臨床筆記及做出明智決策的效果。研究評估了三種LLM(ChatGPT 4o、Claude 3 Opus、Gemini 1.5),使用四種提示方式,並由神經腫瘤科醫生和病人根據準確性、相關性、清晰度和同理心等標準進行評分。結果顯示,標準提示和角色提示的表現最佳,特別是ChatGPT 4o最為突出。不過,所有LLM在提供基於證據的回應上仍有挑戰。研究建議,LLM有潛力幫助病人解讀臨床筆記,特別是使用角色提示時。 PubMed DOI

這項研究發現,公開的大型語言模型(像Llama 3.3)即使沒經過特定任務訓練,只要給定結果定義,在辨識電子病歷中的goals-of-care討論時,表現跟傳統BERT模型一樣好。這代表新一代語言模型能省下大量訓練資料和成本,讓臨床研究更簡單有效率。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI

這項研究發現,GPT-4在分析癌症病患與醫療人員的對話內容時,和人類專家有高度到中度的一致性,像是判斷有無討論症狀、誰先提起、以及建議內容等。雙方意見分歧的情況不多,且有詳細分類。結果顯示,LLM有潛力協助提升醫療溝通與照護品質。 PubMed DOI