原始文章

這項研究發現,中國的生成式AI模型 Qwen-2.5 在回答眼科問題時,不論用英文還是阿拉伯文,表現都比 DeepSeek-R1 和 ChatGPT-40 更好。所有AI都展現出不錯的多語言能力,顛覆了AI只偏好英文的看法。中國AI在醫療諮詢領域已經能和 ChatGPT-40 一較高下,甚至更勝一籌。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在生成中國患者對乾眼症問題的回應表現。研究分為兩個階段,第一階段由六位眼科醫生根據正確性、完整性、可讀性、有用性和安全性對回應進行評分。結果顯示,GPT-4在各方面表現最佳,但可讀性較低。第二階段中,46位患者向GPT-4和Baichuan 2提問,發現GPT-4的完整性較高,但Baichuan 2的回應更易理解。整體而言,這些模型在提供乾眼症相關資訊上展現了潛力,對中國患者意義重大。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-4.0在將眼科術語轉換為易懂語言的效果,並與其他大型語言模型進行比較。五位眼科醫生提供了15份臨床記錄,經由不同模型翻譯後,十位家庭醫生評估其理解度和實用性。結果顯示,ChatGPT-4.0在理解度和實用性上表現優異,顯著高於原始記錄。雖然翻譯後的語言複雜度略有增加,但ChatGPT-4.0在多數案例中被偏好。研究強調了持續改進這些技術的必要性,並建議進一步研究以驗證其在不同專業中的適用性。 PubMed DOI

這項研究評估了ChatGPT-4.0和ChatGPT-3.5在回答眼科問題準備庫中的多選題表現。隨機選取520道問題,結果顯示GPT-4.0正確率為78.46%(408道),而GPT-3.5為64.15%(333道),兩者差異具統計意義(p=0.0195)。GPT-4.0在所有子群分析中均優於GPT-3.5,顯示其在處理複雜醫學數據的能力更強。研究強調AI在醫學領域的潛力,並建議需有監考等措施以確保線上測試的完整性。呼籲進一步研究AI在臨床決策中的應用。 PubMed DOI

這項研究探討了四個大型語言模型(LLMs)——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答,並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動,並與醫生一起評分,標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示,Baichuan 2 和 ChatGPT-4.0 表現最佳,且兩者在患者和醫生評估中無顯著差異,結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現,包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告,並將其輸入四個AI系統進行比較。結果顯示,ChatGPT-01的準確率最高,達84.9%,特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%,而Qwens最低,僅64.2%。研究強調AI在眼科的輔助潛力,並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

這項研究評估了全球大型語言模型(LLMs)和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等,還有華佗GPT、MedGPT等中文模型。共評估39個問題,專家用3分制評分。結果顯示,ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳,且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看,無論是全球還是中文模型,都能有效解決近視問題,特別是全球模型表現優異。 PubMed DOI

最新研究發現,OpenAI 的 o1 模型在回答眼科難題時,正確性和可讀性都比 ChatGPT-4 更好,和 ChatGPT-4o 差不多。不過,o1 在眼部症狀相關問題的完整性還是比較弱。總結來說,o1 整體表現優於 ChatGPT-4,但和 ChatGPT-4o 差異不大。 PubMed DOI

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

這項研究發現,DeepSeek 在用中文回答前列腺癌放射治療問題時,表現明顯優於 ChatGPT,尤其在基礎知識和治療照護方面更突出;但用英文時,兩者差異不大。這顯示選擇語言優化的 AI 模型很重要,但專家審查仍不可或缺。 PubMed DOI

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 PubMed DOI