原始文章

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確,但Gemini和Microsoft Copilot更容易理解。在醫療保健中,準確性和易讀性同樣重要,強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

對於早產兒視網膜病變(ROP)相關問題,經評估後發現ChatGPT-4表現最好,回答最準確可靠;BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜,但提供詳盡可信賴的回答。總括而言,這些模型通常提供正確資訊。 PubMed DOI

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜(KCN)相關問題的表現。研究者提出五十個問題,並由三位眼科醫生評分。結果顯示,ChatGPT-4 的表現最佳,100% 的回答得分在 3 分以上,且有 74% 的回答獲得「強烈同意」。相比之下,Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高,但可讀性較低,整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot,針對圓錐角膜患者的問題回答效果。兩位眼科醫生使用5點李克特量表評估25個常見問題的回答,並用DISCERN量表和可讀性指標來檢視其可靠性。結果顯示,ChatGPT-4.0的表現最佳,92%的回答獲得「同意」或「強烈同意」,在準確性和細節上表現優異。不同模型間有顯著差異(P<0.001),雖然ChatGPT-4.0的回答較複雜,但仍被認為可靠且準確。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs),包括ChatGPT(3.5和4.0版)、Google Gemini和Claude 3,針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示,Claude 3和ChatGPT 4的準確性明顯高於Gemini,Claude 3獲得最高的「優秀」評分(96.3%)。ChatGPT 4在全面性上也優於Gemini,而Gemini在可讀性方面表現最佳。總體來看,Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

針對斜視和弱視的問題,ChatGPT-4的回應評估顯示,97%的回答是可接受的。這項研究由小兒眼科醫師獨立評估,並使用可讀性工具進行分析。雖然大部分回應都合格,但有3%的回應被認為不完整,且沒有發現不可接受的內容。不過,這些回應的可讀性較高,需具備大學程度的教育才能理解,顯示出ChatGPT-4在準確性上表現良好,但在可讀性上仍需改進,以便讓一般民眾和醫療專業人員更容易理解。 PubMed DOI

這項研究評估了四款大型語言模型(LLM)聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性,並用五種指標測量可讀性。結果顯示,ChatGPT 3.5 正確率為 45%,ChatGPT 4.0 為 52.5%,Gemini 表現最佳,達 87.5%,Copilot 則為 60%。所有機器人的可讀性都很困難,理解需具大學學位。儘管如此,Gemini 提供的答案最為適當,且可讀性較佳。總體而言,這些聊天機器人仍可能產生不當回應,且閱讀上有挑戰。 PubMed DOI

這項研究評估了土耳其眼科協會針對早產兒視網膜病變的病患教育材料可讀性,並與大型語言模型(如GPT-4.0、GPT-4o mini和Gemini)生成的內容進行比較。結果顯示,TOA的材料可讀性超過六年級,而GPT-4.0和Gemini則更易讀。經調整後,GPT-4.0的可讀性改善,且在準確性和全面性上得分最高,Gemini則最低。研究指出,GPT-4.0在創建可及的病患教育材料上有潛力,但使用LLMs時需考慮地區醫療差異和資訊準確性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI