Comparison of large language models in management advice for melanoma: Google's AI BARD, BingAI and ChatGPT.
大型語言模型在黑色素瘤管理建議中的比較：Google 的 AI BARD、BingAI 和 ChatGPT。 Skin Health Dis 2024-02-06

大型語言模型如BARD、BingAI和ChatGPT-4正被運用在醫療領域，提供醫學資訊和指導。研究顯示，ChatGPT在黑色素瘤臨床指南方面表現較佳，但所有模型仍有限制。未來研究應該著重整合專業數據和專家知識，以提升模型性能，更好地支援患者護理。 PubMed DOI

Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

Clinical application potential of large language model: a study based on thyroid nodules.
大型語言模型的臨床應用潛力：基於甲狀腺結節的研究。 Endocrine 2024-07-30

這項研究評估了大型語言模型（LLMs），特別是ChatGPT-3.5和New Bing Chat，在模擬醫生角色管理甲狀腺結節的表現。研究中提出145個病人的問題，並與初級醫生和資深醫生的回答進行比較。結果顯示，這兩個LLMs在某些問題上表現接近初級醫生，但整體準確性較低。雖然ChatGPT-3.5在特定問題上表現較好，但New Bing Chat在甲狀腺結節的決策準確性較高。總體而言，這些LLMs尚未達到人類醫生的臨床決策能力。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Assessing the Impact of ChatGPT in Dermatology: A Comprehensive Rapid Review.
評估 ChatGPT 在皮膚科的影響：一項綜合快速回顧。 J Clin Med 2024-10-16

人工智慧（AI）在皮膚科的應用迅速發展，特別是 ChatGPT 成為患者教育和臨床決策的重要工具。本研究評估了 ChatGPT 在皮膚科的有效性與挑戰，發現其在回答常見皮膚病問題上表現良好，但在複雜病例診斷上仍有困難，且存在信息準確性和倫理問題。未來應謹慎整合 ChatGPT，解決數據隱私和算法偏見等挑戰，並強調其應輔助而非取代醫生的角色。 PubMed DOI

Use of Online Large Language Model Chatbots in Cornea Clinics.
角膜診所中使用線上大型語言模型聊天機器人。 Cornea 2024-12-03

這項研究評估了幾種大型語言模型（LLM）聊天機器人的表現，包括ChatGPT、Writesonic、Google Bard和Bing Chat，針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示，ChatGPT在準確性和全面性上表現最佳，得分3.35（滿分4分），而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險，顯示信息安全可靠。研究強調LLM在眼科的潛力，但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

"Comparative analysis of large language models against the NHS 111 online triaging for emergency ophthalmology".
「大型語言模型與 NHS 111 線上急診眼科分診的比較分析」 Eye (Lond) 2025-01-21

這項研究評估了多種大型語言模型（LLMs）在處理眼科緊急情況的表現，並與英國國民健康服務（NHS）111的系統進行比較。研究涵蓋21個緊急情境問題，測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示，93%的LLM回應至少得分為「良好」，顯示它們提供的資訊正確且無重大錯誤。整體來看，這些模型在提供即時資訊和指導方面，顯示出作為有效工具的潛力，能提升患者護理及醫療可及性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表