Doctor Versus Artificial Intelligence: Patient and Physician Evaluation of Large Language Model Responses to Rheumatology Patient Questions in a Cross-Sectional Study.
醫生對抗人工智慧：患者和醫師評估大型語言模型回答風濕病學患者問題的交叉研究。 Arthritis Rheumatol 2024-02-29

研究比較了患者對風濕病問題的大型語言模型（LLM）聊天機器人和醫師回答的評價。結果顯示，患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同，患者更難分辨AI生成的答案。總結來說，患者對AI回答的看法與醫師相似，但風濕病專家則認為AI回答表現較差。 PubMed DOI

"Application and accuracy of artificial intelligence-derived large language models in patients with age related macular degeneration".
「人工智慧衍生的大型語言模型在年齡相關性黃斑部病變患者中的應用和準確性」。 Int J Retina Vitreous 2023-12-22

研究發現，ChatGPT 3.5在回答年長者問題時表現最好，尤其是對於技術性問題。儘管對於黃斑部病變（AMD）提供了準確資訊，但仍有進步空間，特別是在處理更專業的問題上。 PubMed DOI

Comparison of large language models in management advice for melanoma: Google's AI BARD, BingAI and ChatGPT.
大型語言模型在黑色素瘤管理建議中的比較：Google 的 AI BARD、BingAI 和 ChatGPT。 Skin Health Dis 2024-02-06

大型語言模型如BARD、BingAI和ChatGPT-4正被運用在醫療領域，提供醫學資訊和指導。研究顯示，ChatGPT在黑色素瘤臨床指南方面表現較佳，但所有模型仍有限制。未來研究應該著重整合專業數據和專家知識，以提升模型性能，更好地支援患者護理。 PubMed DOI

Assessing the Application of Large Language Models in Generating Dermatologic Patient Education Materials According to Reading Level: Qualitative Study.
評估大型語言模型在生成皮膚科患者教育資料方面的應用，根據閱讀水平：質性研究。 JMIR Dermatol 2024-05-16

研究發現大型語言模型（LLMs）如ChatGPT-3.5、GPT-4、DermGPT和DocsGPT在製作皮膚科患者教育資料（PEMs）方面表現良好，能提供易讀易懂的資訊，且大多數情況下準確無誤。其中，GPT-4在常見和罕見疾病的解釋上表現優秀，而ChatGPT-3.5和DocsGPT在罕見疾病的說明方面更為出色。總結來說，LLMs對於提升健康知識和提供易懂的PEMs具有潛力。 PubMed DOI

Clinical Accuracy, Relevance, Clarity, and Emotional Sensitivity of Large Language Models to Surgical Patient Questions: Cross-Sectional Study.
大型語言模型對外科患者問題的臨床準確性、相關性、清晰度和情感敏感度：橫斷面研究。 JMIR Form Res 2024-06-07

研究發現大型語言模型（LLMs）像Anthropic的Claude 2在手術前回應病人問題時表現優異，比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

Comparative Evaluation of LLMs in Clinical Oncology.
臨床腫瘤學中大型語言模型的比較評估。 NEJM AI 2024-08-12

隨著人工智慧工具的普及，患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型（LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4）在2044個腫瘤學相關問題上的表現。結果顯示，GPT-4在與人類基準比較中表現最佳，達到第50百分位以上。雖然GPT-4的準確率高達81.1%，但所有模型仍存在顯著錯誤率，顯示出持續評估這些AI工具的重要性，以確保其安全應用於臨床實踐。 PubMed DOI

Exploring the role of artificial intelligence, large language models: Comparing patient-focused information and clinical decision support capabilities to the gynecologic oncology guidelines.
探索人工智慧與大型語言模型的角色：比較以病人為中心的信息與臨床決策支持能力對婦科腫瘤學指導方針的影響。 Int J Gynaecol Obstet 2024-08-20

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示，這兩個模型對於一些常見問題的回答大多準確，如子宮頸癌篩檢和 BRCA 相關問題。然而，面對更複雜的案例時，它們的表現較差，常缺乏對地區指導方針的了解。儘管如此，這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出，LLMs 雖無法取代專業醫療建議，但可作為輔助工具，提供資訊和支持。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Preoperative Patient Guidance and Education in Aesthetic Breast Plastic Surgery: A Novel Proposed Application of Artificial Intelligence Large Language Models.
美學乳房整形手術的術前病人指導與教育：人工智慧大型語言模型的新應用建議。 Aesthet Surg J Open Forum 2024-09-11

這項研究評估了一個公開的人工智慧大型語言模型（LLM）在回答模擬病人關於美學乳房整形手術問題的表現。專家根據準確性、全面性等標準評分，總體得分為7.3分，乳房增大7.0分、乳房懸吊術7.6分、乳房縮小手術7.4分，對乳房植入物的知識得分為6.7分。儘管有些限制，研究顯示AI LLM可成為病人教育的有用工具，並可能隨著機器學習進步而改善。 PubMed DOI

原始文章

站上相關主題文章列表