Exploring the potential of ChatGPT in medical dialogue summarization: a study on consistency with human preferences.
探索 ChatGPT 在醫學對話摘要中的潛力：與人類偏好一致性的研究。 BMC Med Inform Decis Mak 2024-03-18

遠距醫療在 COVID-19 時期大受歡迎，讓人們可以線上看醫生。研究發現大型語言模型如GPT-3對醫療對話摘要有幫助。雖然BART模型表現較佳，但專家更喜歡ChatGPT。GPT-3.5在撰寫易懂醫療摘要方面有潛力，但評估指標或許需調整。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

A pilot feasibility study comparing large language models in extracting key information from ICU patient text records from an Irish population.
一項針對愛爾蘭人群 ICU 患者文本記錄中提取關鍵信息的大型語言模型比較的初步可行性研究。 Intensive Care Med Exp 2024-08-15

這項研究探討大型語言模型（LLMs）在生成重症監護病房（ICU）病人出院摘要的表現，分析了匿名臨床筆記。三個模型中，GPT-4 API的表現最佳，準確識別41.5%的關鍵臨床事件，ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異，但仍有小錯誤，且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看，這些LLM在生成出院摘要上有潛力，但仍需改進。 PubMed DOI

Large Language Models Can Enable Inductive Thematic Analysis of a Social Media Corpus in a Single Prompt: Human Validation Study.
大型語言模型能夠在單一提示中啟用社交媒體語料庫的歸納主題分析：人類驗證研究。 JMIR Infodemiology 2024-08-29

這項研究探討生成性大型語言模型（LLMs）在分析公共健康相關社交媒體內容的可行性，特別是疫苗言論。研究發現，LLMs通常能有效識別人類專家所關注的主題，且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家，但專家認為其生成的主題仍然合理且相關。總體來看，LLMs在處理健康相關社交媒體內容方面展現出顯著潛力，未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

Investigating the capabilities of advanced large language models in generating patient instructions and patient educational material.
探討先進大型語言模型在生成病人指導和病人教育材料方面的能力。 Eur J Hosp Pharm 2024-10-11

這項研究評估了兩個大型語言模型（LLMs），ChatGPT 4.0 和 Gemini 1.0 Pro，在生成病人指導和教育材料的效果。研究發現，兩者提供的信息一致且可靠，但在藥物過期和處理指導上有所不足。ChatGPT 4.0 在可理解性和可行性上表現較佳，且其輸出可讀性較高。整體來看，這些模型能有效生成病人教育材料，但仍需醫療專業人員的監督與指導，以確保最佳實施。 PubMed DOI

Exploring the opportunities of large language models for summarizing palliative care consultations: A pilot comparative study.
探索大型語言模型在緩和醫療諮詢摘要中的機會：一項初步比較研究。 Digit Health 2024-11-21

最近的研究顯示大型語言模型（LLMs）在自然語言處理，特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示，LLaMA2-7B在n-gram精確度上表現最佳，而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似，但GPT-4在內容理解和結構上稍有優勢，顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Expert evaluation of large language models for clinical dialogue summarization.
大型語言模型在臨床對話摘要中的專家評估。 Sci Rep 2025-01-08

這項研究評估了多種大型語言模型在總結臨床對話的表現，並與人類生成的摘要進行比較。測試了五個模型，包括微調的變壓器模型和ChatGPT。結果顯示，微調模型在ROUGE分數上表現最佳，而ChatGPT在UniEval指標上表現優異，獲得最高分。臨床醫師的評估也偏向ChatGPT，顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估，強調了大型語言模型在自動化臨床對話摘要的潛力，但仍需進一步研究以確認其可靠性。 PubMed DOI

The use of large language models to enhance cancer clinical trial educational materials.
利用大型語言模型增強癌症臨床試驗教育材料的應用。 JNCI Cancer Spectr 2025-02-08

這項研究探討了大型語言模型（LLMs），特別是GPT-4，在製作癌症臨床試驗教育內容的潛力，旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書，生成簡短摘要和多選題，並透過患者調查和眾包註釋來評估其有效性。結果顯示，摘要內容可讀且具資訊性，患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高，但當要求提供未明確列出的資訊時，GPT-4的準確性較低。整體而言，研究顯示GPT-4能有效生成患者友好的教育材料，但仍需人類監督以確保準確性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

原始文章

站上相關主題文章列表