Utility and Comparative Performance of Current Artificial Intelligence Large Language Models as Postoperative Medical Support Chatbots in Aesthetic Surgery.
當前人工智慧大型語言模型作為美容外科手術後醫療支援聊天機器人的效用和比較表現。 Aesthet Surg J 2024-02-06

研究比較了ChatGPT和Bard兩個大型語言模型在為接受美容乳房整形手術的患者提供術後醫療支援的表現。結果顯示，ChatGPT在診斷、醫療建議和危險症狀辨識方面表現較佳，提問更全面且準確度較高。研究指出，ChatGPT適合用於AI驅動的術後醫療支援聊天機器人，但仍有改進空間。 PubMed DOI

Clinical Accuracy, Relevance, Clarity, and Emotional Sensitivity of Large Language Models to Surgical Patient Questions: Cross-Sectional Study.
大型語言模型對外科患者問題的臨床準確性、相關性、清晰度和情感敏感度：橫斷面研究。 JMIR Form Res 2024-06-07

研究發現大型語言模型（LLMs）像Anthropic的Claude 2在手術前回應病人問題時表現優異，比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

Comparative Analysis of Large Language Models in Emergency Plastic Surgery Decision-Making: The Role of Physical Exam Data.
緊急整形外科決策中大型語言模型的比較分析：身體檢查數據的作用。 J Pers Med 2024-06-27

美國醫療常有診斷錯誤，研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據，ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能，顯示人工智慧可輔助臨床決策，但不應取代傳統醫學知識。 PubMed DOI

Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

Comparative Performance of Current Patient-Accessible Artificial Intelligence Large Language Models in the Preoperative Education of Patients in Facial Aesthetic Surgery.
面部美容手術患者術前教育中當前可訪問的人工智慧大型語言模型的比較表現。 Aesthet Surg J Open Forum 2024-09-04

這項研究比較了OpenAI的ChatGPT和Google的Bard在提供美容手術病人指導的表現，特別針對拉皮、鼻整形和眉毛提升手術。結果顯示，ChatGPT的平均得分為8.1/10，優於Bard的7.4/10，且在準確性、全面性等方面表現更佳。不過，Bard的回應速度較快。儘管如此，兩者的表現仍有待改進，需進一步開發和驗證才能推薦用於美容外科實踐。 PubMed DOI

Assessment of Large Language Models in Cataract Care Information Provision: A Quantitative Comparison.
大型語言模型在白內障護理資訊提供中的評估：定量比較。 Ophthalmol Ther 2024-11-08

白內障是失明的主要原因之一，許多人在線上尋求醫療建議，但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題，評估了不同大型語言模型（LLMs）的回應準確性與完整性。結果顯示，ChatGPT-4o和Google Bard在準確性上表現優異，ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力，特別是在預防方面，並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

Use of Online Large Language Model Chatbots in Cornea Clinics.
角膜診所中使用線上大型語言模型聊天機器人。 Cornea 2024-12-03

這項研究評估了幾種大型語言模型（LLM）聊天機器人的表現，包括ChatGPT、Writesonic、Google Bard和Bing Chat，針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示，ChatGPT在準確性和全面性上表現最佳，得分3.35（滿分4分），而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險，顯示信息安全可靠。研究強調LLM在眼科的潛力，但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

Assessing the Quality, Readability, and Acceptability of AI-Generated Information in Plastic and Aesthetic Surgery.
評估人工智慧生成的整形與美容外科資訊的質量、可讀性和可接受性。 Cureus 2024-12-19

這項研究評估了ChatGPT-4在整形外科和重建外科的資訊質量與可讀性。研究人員針對過去15年最常搜尋的十個主題，設計了九個問題並輸入ChatGPT-4。結果顯示，使用DISCERN工具評估後，回應的資訊質量得分偏低，平均為34；可讀性指數也不佳，Flesch-Kincaid平均為33.6，Coleman-Liau為15.6。儘管如此，十二位整形外科醫師對回應的清晰度和準確性給予正面評價，平均得分分別為7.38和7.4。研究建議，AI語言模型如ChatGPT可作為健康資訊的起點，未來有潛力改善內容質量。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Comparative Performance of the Leading Large Language Models in Answering Complex Rhinoplasty Consultation Questions.
大型語言模型在回答複雜鼻整形諮詢問題中的比較表現。 Facial Plast Surg Aesthet Med 2025-01-15

這項研究評估了四個大型語言模型（LLMs）在回答鼻整形手術諮詢問題的表現。結果顯示，Claude在七個問題中表現最佳，總分224分，ChatGPT緊隨其後，得200分。Meta和Gemini的表現較差，各得138分。整形外科醫生的評價顯示，Claude提供了最全面的答案，而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型，因為它們仍在不斷進步。 PubMed DOI

原始文章

站上相關主題文章列表