The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Bots in white coats: are large language models the future of patient education? a multi-center cross-sectional analysis.
白袍中的機器人：大型語言模型是否是病人教育的未來？一項多中心橫斷面分析。 Int J Surg 2025-01-29

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術，手術後30天內死亡人數達420萬，因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應，並由外科醫生評估。主要發現包括： - ChatGPT-4o在準確性（4.12/5）和相關性（4.46/5）上表現優異，潛在危害性低（0.22/5）。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少，但準確性高於大型手術。研究建議將GPT-4o整合進醫院系統，以提供即時可靠的信息，提升病人滿意度和知情決策能力。 PubMed DOI

Laypeople's Use of and Attitudes Toward Large Language Models and Search Engines for Health Queries: Survey Study.
大眾對於大型語言模型和搜尋引擎在健康查詢中的使用與態度：調查研究。 J Med Internet Res 2025-02-13

這項研究探討大型語言模型（LLMs）如ChatGPT與傳統搜尋引擎如Google在獲取健康資訊的使用情況。調查顯示，95.6%的人使用搜尋引擎查詢健康問題，但只有32.6%的人使用LLMs。男性、黑人和亞裔更常使用LLMs，且健康狀況較好和技術熟練度高的人也較常使用。後續調查中，大多數LLM使用者仍偏好搜尋引擎，認為LLMs的實用性不如搜尋引擎，但對其負面感受較少，認為LLMs更具人性化。總體來看，搜尋引擎仍是主要工具，但LLMs的正面評價顯示其未來增長潛力。 PubMed DOI

Large language models for diabetes training: a prospective study.
糖尿病訓練的大型語言模型：一項前瞻性研究。 Sci Bull (Beijing) 2025-02-13

糖尿病是全球健康的重要議題，醫療人員對其知識水平參差不齊，顯示出有效訓練的必要性。大型語言模型（LLMs）如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現，結果顯示ChatGPT-4.0在英語考試中通過率達62.50%，在中文考試中也表現優異，準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Online Health Information-Seeking in the Era of Large Language Models: Cross-Sectional Web-Based Survey Study.
大型語言模型時代的線上健康資訊搜尋：橫斷面網路調查研究。 J Med Internet Res 2025-03-31

這項研究探討使用者對大型語言模型（LLM）驅動的聊天機器人（如ChatGPT）提供的健康資訊的看法，與傳統線上資源相比。結果顯示，98%的參與者仍主要依賴搜尋引擎尋找健康資訊，只有21.2%使用聊天機器人。大多數人尋求健康狀況資訊，但對於用藥建議和自我診斷的需求較低。雖然LLM聊天機器人逐漸受到年輕族群的青睞，但使用者在遵循建議時仍較為謹慎。研究強調提高準確性和透明度對於健康資訊的安全性至關重要。 PubMed DOI

Evaluating the Reliability and Quality of Sarcoidosis-Related Information Provided by AI Chatbots.
AI 聊天機器人所提供有關 Sarcoidosis 資訊之可靠性與品質評估 Healthcare (Basel) 2025-06-13

這項研究發現，採用檢索增強技術的AI聊天機器人（如ChatGPT-4o Deep Research等）在提供結節病資訊時，比一般AI更準確可靠。不過，他們的回答多半太艱深，病人不易看懂，而且給的實際建議也不夠明確。整體來說，AI雖然能提供高品質資訊，但在易讀性和實用性上還有進步空間。 PubMed DOI

原始文章

站上相關主題文章列表