原始文章

這項研究評估了全球大型語言模型(LLMs)和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等,還有華佗GPT、MedGPT等中文模型。共評估39個問題,專家用3分制評分。結果顯示,ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳,且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看,無論是全球還是中文模型,都能有效解決近視問題,特別是全球模型表現優異。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在回答眼表疾病相關問題的表現,包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題,涵蓋角膜炎等主題。結果顯示,ChatGPT-4的準確性和可信度最佳,成功率為59%,但仍有28%的錯誤率。PaLM2在答案準確性上表現良好,相關係數達0.8。整體而言,這些模型在醫學教育和臨床實踐中展現了潛力,特別是ChatGPT-4的表現尤為突出。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究探討大型語言模型(LLMs)在教育患者有關矯正角膜塑形術的有效性。研究人員建立了24個相關問題的題庫,並使用GPT-4、Qwen-72B和Yi-34B生成中文回應。評估透過線上平台及眼科醫生和父母的主觀評價進行。 主要發現包括: - Qwen-72B的回應最短。 - GPT-4的可讀性較低。 - 三個LLM在安全性、相關性等方面無顯著差異。 - 父母對所有LLM評價高,GPT-4在幫助性和滿意度上最佳。 - Qwen-72B的整體分數最高。 總體而言,GPT-4和Qwen-72B提供準確的資訊,但仍需改進以提升精確度。 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、ChatGPT-4o 和文心一言—在分析兒童近視治療的有效性。研究使用100份兒童病歷,模型評估介入必要性並建議治療方案。結果顯示,ChatGPT-4o 的準確率達90%,GQS為4.4,表現優於其他模型,尤其在處理不完整數據時更佳。總體而言,ChatGPT-4o 展現出卓越的準確性和臨床安全性,可能成為兒童眼科的有用決策支持工具,但仍需專家監督。 PubMed DOI

這項研究探討了四個大型語言模型(LLMs)——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答,並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動,並與醫生一起評分,標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示,Baichuan 2 和 ChatGPT-4.0 表現最佳,且兩者在患者和醫生評估中無顯著差異,結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

眼肌型重症肌無力(OMG)主要影響眼部肌肉,常見症狀有眼瞼下垂和重影。由於中國醫療資源有限,患者教育顯得尤為重要。本研究評估大型語言模型(LLMs)在教育OMG患者的有效性,分為兩階段進行。結果顯示,ChatGPT o1-preview在準確性和有用性上表現最佳,並獲得患者較高滿意度。儘管LLMs在患者教育上展現潛力,但仍需解決錯誤資訊和可讀性等問題,以確保安全有效的臨床應用。 PubMed DOI

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現,發現GPT-4o在英文回答最優,Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢,但臨床應用前還需更多驗證和調整,顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI