原始文章

這項研究比較了三種人工智慧語言模型—GPT-3.5、GPT-4o 和 Gemini—在提供甲狀腺眼病(TED)患者資訊的有效性。結果顯示,GPT-3.5的表現最佳,正確性得分5.75,可靠性得分5.68,特別在治療和手術選項上表現突出。GPT-4o和Gemini的得分較低,分別為5.32和5.10。研究認為,GPT-3.5是提供TED資訊的最佳選擇,建議臨床醫師在患者教育中使用。 PubMed DOI


站上相關主題文章列表

研究比較了三個大型語言模型(ChatGPT-3.5、ChatGPT-4和Google Gemini)在分析視網膜脫落病例並提出手術計劃的表現。經過50個病例的分析後發現,ChatGPT-4與專家外科醫師的意見最接近,ChatGPT-3.5次之,Google Gemini表現最差。ChatGPT模型也獲得了比Google Gemini更高的全球品質分數。ChatGPT-4是唯一建議採用聯合晶體玻璃切割手術方法的模型。總體而言,ChatGPT模型提供了比Google Gemini更準確和精確的建議。 PubMed DOI

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,對甲狀腺疾病病人問題的回答效果,並與醫生的回應進行比較。分析了來自Reddit的33個問題,並收集了醫生及LLMs(GPT-3.5和GPT-4)的回應。 結果顯示,GPT在準確性、質量和同理心上均優於醫生,特別是GPT-4表現最佳。這顯示LLMs能提供更準確、完整且具同理心的回應,可能有助於減輕醫生的工作負擔及降低職業倦怠。 PubMed DOI

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

這項研究評估了三種AI模型—ChatGPT-4、ChatGPT-3.5和Google Gemini—在提供多囊卵巢症候群(PCOS)資訊的有效性。結果顯示,ChatGPT-4和3.5在回答準確性和質量上優於Gemini,但Gemini的可讀性較高,讓回答更易懂。此外,Gemini的錯誤資訊傾向較低。總體來看,ChatGPT-4和3.5在臨床上可成為教育患者的有用工具,未來AI技術的進步可能進一步提升其效用。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs),包括ChatGPT(3.5和4.0版)、Google Gemini和Claude 3,針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示,Claude 3和ChatGPT 4的準確性明顯高於Gemini,Claude 3獲得最高的「優秀」評分(96.3%)。ChatGPT 4在全面性上也優於Gemini,而Gemini在可讀性方面表現最佳。總體來看,Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

這項研究評估了ChatGPT-4o在提供甲狀腺眼病(TED)諮詢和初步診斷的表現,特別是在非英語環境中。研究比較了ChatGPT-4o、ChatGPT-4和一位經驗豐富的眼科教授的回應,重點在準確性、全面性、簡潔性和整體滿意度。結果顯示,ChatGPT-4o在準確性和結構化回應上優於其他兩者,並成功識別病理狀況,解讀CT影像的準確性也與教授相當。儘管如此,研究也指出了錯誤資訊和法律問題的潛在風險,需謹慎處理。 PubMed DOI