The exciting potential for ChatGPT in obstetrics and gynecology.
ChatGPT 在產科學與婦產科學中的潛力。 Am J Obstet Gynecol 2023-12-13

深度學習技術在自然語言處理領域有顯著進展，如OpenAI的ChatGPT聊天機器人。儘管在臨床問題上表現出潛力，仍有限制，如訓練數據過時可能導致不準確，無法引用來源或完全理解用戶查詢。使用這些模型需謹慎，確保提供有用資訊並避免造成損害。 PubMed DOI

Large Language Models for Therapy Recommendations Across 3 Clinical Specialties: Comparative Study.
跨越三個臨床專業領域的治療建議大型語言模型：比較研究。 J Med Internet Res 2023-11-16

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現，發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全，Bloomz質量較差。研究強調需持續改進人工智慧工具，確保醫學建議可靠。建議引入GPT-4的自動評估機制，擴展評估範疇。 PubMed DOI

The Emerging Role of AI in Patient Education: A Comparative Analysis of LLM Accuracy for Pelvic Organ Prolapse.
人工智慧在患者教育中的新興角色：骨盆器官脫垂的 LLM 準確性比較分析。 Med Princ Pract 2024-03-25

研究比較了三個大型語言模型（LLMs）在談論骨盆器官脫垂（POP）資訊的表現，並拿英國皇家婦產科醫師學院（RCOG）的資料來比較。結果發現，ChatGPT在完整性方面最好，Bing在準確性方面較強。整體而言，ChatGPT表現較好，強調了在傳遞健康資訊時要仔細看LLM的輸出。 PubMed DOI

Leveraging Large Language Models for Improved Patient Access and Self-Management: Assessor-Blinded Comparison Between Expert- and AI-Generated Content.
利用大型語言模型改善患者接觸和自我管理：專家和人工智慧生成內容的評估者盲檢比較。 J Med Internet Res 2024-04-25

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果，結果發現Google Bard易讀性高，但適當性稍差；ChatGPT-3.5和ChatGPT-4在適當性表現較好，尤其ChatGPT-4更穩定。這些模型被認為無害，對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力，但仍需改進和考慮道德問題，未來研究應著重於安全整合策略。 PubMed DOI

Using artificial intelligence to generate medical literature for urology patients: a comparison of three different large language models.
使用人工智慧生成泌尿科病患的醫學文獻：三種不同大型語言模型的比較。 World J Urol 2024-07-29

本研究評估了三個大型語言模型（LLMs）生成的泌尿科病人資訊小冊子（PILs）品質，包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術（TURP）進行評估。結果顯示，PaLM 2的PILs品質最佳，平均得分3.58，且最易閱讀。雖然LLMs能減輕醫療人員負擔，但內容仍需臨床醫師審查，且閱讀水平偏高，顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

Accuracy and consistency of publicly available Large Language Models as clinical decision support tools for the management of colon cancer.
公開可用的大型語言模型在結腸癌管理中的準確性和一致性作為臨床決策支持工具。 J Surg Oncol 2024-08-19

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示，兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊，24% 不準確；Copilot 則有 37% 缺少資訊，28% 不準確。兩者表現差異不顯著。此外，臨床醫師的回應明顯較短，平均 34 字，而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出，雖然 LLM 可協助臨床決策，但仍需優化以確保準確性。 PubMed DOI

Exploring the role of artificial intelligence, large language models: Comparing patient-focused information and clinical decision support capabilities to the gynecologic oncology guidelines.
探索人工智慧與大型語言模型的角色：比較以病人為中心的信息與臨床決策支持能力對婦科腫瘤學指導方針的影響。 Int J Gynaecol Obstet 2024-08-20

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示，這兩個模型對於一些常見問題的回答大多準確，如子宮頸癌篩檢和 BRCA 相關問題。然而，面對更複雜的案例時，它們的表現較差，常缺乏對地區指導方針的了解。儘管如此，這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出，LLMs 雖無法取代專業醫療建議，但可作為輔助工具，提供資訊和支持。 PubMed DOI

Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

Investigating the capabilities of advanced large language models in generating patient instructions and patient educational material.
探討先進大型語言模型在生成病人指導和病人教育材料方面的能力。 Eur J Hosp Pharm 2024-10-11

這項研究評估了兩個大型語言模型（LLMs），ChatGPT 4.0 和 Gemini 1.0 Pro，在生成病人指導和教育材料的效果。研究發現，兩者提供的信息一致且可靠，但在藥物過期和處理指導上有所不足。ChatGPT 4.0 在可理解性和可行性上表現較佳，且其輸出可讀性較高。整體來看，這些模型能有效生成病人教育材料，但仍需醫療專業人員的監督與指導，以確保最佳實施。 PubMed DOI

原始文章

站上相關主題文章列表