原始文章

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現,Copilot正確率最高(74%),也最容易閱讀。雖然這些AI對學習有幫助,但答案不一定完全正確,使用時還是要多加留意。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT對家長詢問兒童眼科和斜視問題的回答準確性。分析了817個問題,結果顯示78.09%的回答完全正確,19.09%正確但不完整,只有2.81%部分不正確,且沒有完全錯誤的回答。平均可讀性分數為14.49,超過成人的標準,這引發了一些擔憂。儘管可讀性有待改善,研究仍顯示ChatGPT能提供準確可靠的資訊,顯示其在醫療領域的潛力。 PubMed DOI

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

本研究評估了六款流行聊天機器人(ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity)在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分(GQS)指標進行評估,結果顯示大部分網站的責任性較低,且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳,顯示出較高的可靠性和質量,但仍需改善以符合病人的健康素養需求。 PubMed DOI

本研究評估四種大型語言模型(LLMs)在回答內眼炎病人問題的準確性、可靠性和可讀性。兩位眼科醫生使用五點李克特量表評估25個問題的回答,並用DISCERN量表測量可靠性,Flesch可讀性指數和Flesch-Kincaid年級水平評估可讀性。結果顯示,A-Eye Consult和ChatGPT-4.0的回答比Google Gemini和Copilot更全面且準確,且兩者的得分顯著高於後者。結論是,A-Eye Consult和ChatGPT-4.0在可靠性和準確性上優於其他模型。 PubMed DOI

針對斜視和弱視的問題,ChatGPT-4的回應評估顯示,97%的回答是可接受的。這項研究由小兒眼科醫師獨立評估,並使用可讀性工具進行分析。雖然大部分回應都合格,但有3%的回應被認為不完整,且沒有發現不可接受的內容。不過,這些回應的可讀性較高,需具備大學程度的教育才能理解,顯示出ChatGPT-4在準確性上表現良好,但在可讀性上仍需改進,以便讓一般民眾和醫療專業人員更容易理解。 PubMed DOI

這項研究評估了四款大型語言模型(LLM)聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性,並用五種指標測量可讀性。結果顯示,ChatGPT 3.5 正確率為 45%,ChatGPT 4.0 為 52.5%,Gemini 表現最佳,達 87.5%,Copilot 則為 60%。所有機器人的可讀性都很困難,理解需具大學學位。儘管如此,Gemini 提供的答案最為適當,且可讀性較佳。總體而言,這些聊天機器人仍可能產生不當回應,且閱讀上有挑戰。 PubMed DOI

這項研究評估了ChatGPT在斜視醫療方面的準確性與可讀性,使用了免費版(3.5)和付費版(4.0)。共提出34個問題,並在加州和佛羅里達州的三個時間點進行評估。結果顯示,64%的回應被認為是「可接受的」,但根據版本和地點有所不同。佛羅里達州的回應更可能被評為「不準確且可能有害」。整體來看,雖然大部分回應可接受,但準確性和可讀性仍需提升,以增強對斜視家長和病患的實用性。 PubMed DOI

這項研究發現,ChatGPT-4o在回答小兒夜間遺尿常見問題時,正確率最高(92.5%),表現優於Gemini和Copilot。雖然ChatGPT-4o在簡單醫療問題上很可靠,但AI建議還是要搭配醫師專業判斷使用。 PubMed DOI