原始文章

這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。 研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。 PubMed DOI


站上相關主題文章列表

大型語言模型如BARD、BingAI和ChatGPT-4正被運用在醫療領域,提供醫學資訊和指導。研究顯示,ChatGPT在黑色素瘤臨床指南方面表現較佳,但所有模型仍有限制。未來研究應該著重整合專業數據和專家知識,以提升模型性能,更好地支援患者護理。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT-3.5和New Bing Chat,在模擬醫生角色管理甲狀腺結節的表現。研究中提出145個病人的問題,並與初級醫生和資深醫生的回答進行比較。結果顯示,這兩個LLMs在某些問題上表現接近初級醫生,但整體準確性較低。雖然ChatGPT-3.5在特定問題上表現較好,但New Bing Chat在甲狀腺結節的決策準確性較高。總體而言,這些LLMs尚未達到人類醫生的臨床決策能力。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,對黑色素瘤病人問題的回答效果,並與荷蘭的病人資訊資源(PIRs)比較。結果顯示,ChatGPT-3.5在準確性上表現最佳,而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定,某網站在個人化和可讀性上特別強。整體來看,LLMs在大多數領域超越PIRs,但準確性仍需加強,且LLM的可重複性隨時間下降。研究強調,LLMs需提升準確性和可重複性,才能有效取代或補充傳統PIRs。 PubMed DOI

人工智慧(AI)在皮膚科的應用迅速發展,特別是 ChatGPT 成為患者教育和臨床決策的重要工具。本研究評估了 ChatGPT 在皮膚科的有效性與挑戰,發現其在回答常見皮膚病問題上表現良好,但在複雜病例診斷上仍有困難,且存在信息準確性和倫理問題。未來應謹慎整合 ChatGPT,解決數據隱私和算法偏見等挑戰,並強調其應輔助而非取代醫生的角色。 PubMed DOI

這項研究評估了幾種大型語言模型(LLM)聊天機器人的表現,包括ChatGPT、Writesonic、Google Bard和Bing Chat,針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示,ChatGPT在準確性和全面性上表現最佳,得分3.35(滿分4分),而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險,顯示信息安全可靠。研究強調LLM在眼科的潛力,但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在處理眼科緊急情況的表現,並與英國國民健康服務(NHS)111的系統進行比較。研究涵蓋21個緊急情境問題,測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示,93%的LLM回應至少得分為「良好」,顯示它們提供的資訊正確且無重大錯誤。整體來看,這些模型在提供即時資訊和指導方面,顯示出作為有效工具的潛力,能提升患者護理及醫療可及性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI