原始文章

這項研究評估了大型語言模型(LLMs),如ChatGPT和Google Bard,對美學整形手術的回應可靠性,並與經驗豐富的外科醫生的見解進行比較。研究分析了三十位患者對皮膚填充劑、肉毒桿菌注射和眼瞼手術等問題的回應。十三位外科醫生根據可及性、準確性和實用性評估了LLM的回應。結果顯示,雖然聊天機器人的回應通常清晰且準確,但缺乏來源透明度限制了其可信度。研究建議在依賴LLMs作為主要信息來源時需謹慎,並呼籲進一步研究以增強其在醫療保健中的可靠性。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT和Bard兩個大型語言模型在為接受美容乳房整形手術的患者提供術後醫療支援的表現。結果顯示,ChatGPT在診斷、醫療建議和危險症狀辨識方面表現較佳,提問更全面且準確度較高。研究指出,ChatGPT適合用於AI驅動的術後醫療支援聊天機器人,但仍有改進空間。 PubMed DOI

研究發現大型語言模型(LLMs)像Anthropic的Claude 2在手術前回應病人問題時表現優異,比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

美國醫療常有診斷錯誤,研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據,ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能,顯示人工智慧可輔助臨床決策,但不應取代傳統醫學知識。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究比較了OpenAI的ChatGPT和Google的Bard在提供美容手術病人指導的表現,特別針對拉皮、鼻整形和眉毛提升手術。結果顯示,ChatGPT的平均得分為8.1/10,優於Bard的7.4/10,且在準確性、全面性等方面表現更佳。不過,Bard的回應速度較快。儘管如此,兩者的表現仍有待改進,需進一步開發和驗證才能推薦用於美容外科實踐。 PubMed DOI

白內障是失明的主要原因之一,許多人在線上尋求醫療建議,但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題,評估了不同大型語言模型(LLMs)的回應準確性與完整性。結果顯示,ChatGPT-4o和Google Bard在準確性上表現優異,ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力,特別是在預防方面,並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLM)聊天機器人的表現,包括ChatGPT、Writesonic、Google Bard和Bing Chat,針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示,ChatGPT在準確性和全面性上表現最佳,得分3.35(滿分4分),而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險,顯示信息安全可靠。研究強調LLM在眼科的潛力,但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科和重建外科的資訊質量與可讀性。研究人員針對過去15年最常搜尋的十個主題,設計了九個問題並輸入ChatGPT-4。結果顯示,使用DISCERN工具評估後,回應的資訊質量得分偏低,平均為34;可讀性指數也不佳,Flesch-Kincaid平均為33.6,Coleman-Liau為15.6。儘管如此,十二位整形外科醫師對回應的清晰度和準確性給予正面評價,平均得分分別為7.38和7.4。研究建議,AI語言模型如ChatGPT可作為健康資訊的起點,未來有潛力改善內容質量。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答鼻整形手術諮詢問題的表現。結果顯示,Claude在七個問題中表現最佳,總分224分,ChatGPT緊隨其後,得200分。Meta和Gemini的表現較差,各得138分。整形外科醫生的評價顯示,Claude提供了最全面的答案,而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型,因為它們仍在不斷進步。 PubMed DOI