原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMa 在生成抗體藥物偶聯物(ADCs)相關眼部毒性資訊的表現。共提出22個問題,專家對模型的回答進行評分。結果顯示,ChatGPT的準確性得分為4.62,Bard為4.77,LLaMa為4.41,前兩者顯著高於LLaMa。在完整性方面,三者得分相近。整體而言,這些模型在眼科專業主題上表現良好,但ChatGPT和Bard的準確性較高。建議隨著研究進展,應重新評估這些模型的表現。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現,結果發現ChatGPT-4.0最準確,80.6%的回答被評為「好」,比ChatGPT-3.5(61.3%)和Google Bard(54.8%)都好。三者都展現高的全面性和自我修正能力,ChatGPT-4.0在「治療和預防」方面表現最佳,顯示了LLMs,尤其是ChatGPT-4.0,在提供準確且全面的近視資訊上有潛力。 PubMed DOI

研究比較了大型語言模型(LLMs)如ChatGPT 3.5-4、BARD和Bing在回答有關治療類風濕性關節炎的甲氨蝶呤(MTX)問題時的表現。結果發現GPT模型答對率100%,BARD和Bing表現較差。GPT-4準確性最高,其次是GPT-3.5。BARD和Bing有更多錯誤和未回答。研究指出GPT模型對於MTX的作用機制和副作用回答較準確,GPT-4提供最全面的資訊。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答眼部症狀問題的表現,發現ChatGPT-4.0最準確,明顯優於其他。三者都很全面,但自我意識有限。研究指出ChatGPT-4.0在回答正確和全面性上有潛力,但臨床應用前仍需進一步驗證。 PubMed DOI

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值,但專家驗證仍然至關重要,以避免不準確或資訊不完整的情況。 PubMed DOI

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤學問題時的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、可重現性、準確性、相關性和可讀性方面都比Google Bard好。雖然ChatGPT模型在免疫腫瘤學領域有潛力,但專家驗證仍然至關重要,以避免不準確或不完整的情況。 PubMed DOI

大型語言模型(LLMs)正在改變醫學診斷和治療,提供高準確度,超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應,發現LLM在診斷上表現優異,甚至勝過專家,顯示其在眼科診斷上的潛力。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究評估了大型語言模型(LLM)ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題,並由三位專家評分。結果顯示,ChatGPT的平均得分為3.29,整體表現良好,但有29.2%的回應得分低於3分。經過自我修正後,得分從2.96提升至3.58,滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力,但仍需更多研究來驗證其應用。 PubMed DOI

這篇論文探討了兩個大型語言模型(LLMs),ChatGPT4 和 PaLM2,對於年齡相關黃斑變性(AMD)患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題,並讓這兩個模型及三位眼科醫生回答。結果顯示,ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2,顯示出這些模型在患者教育上的潛力,但仍需謹慎使用,不能取代專業醫療建議。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMA—在提供免疫檢查點抑制劑(ICIs)相關眼部毒性資訊的表現。研究提出八個問題,並由四位眼科醫生使用6點李克特量表評分。結果顯示,三者在準確性和完整性上評分相似,無顯著差異。平均評分為:ChatGPT(準確性4.59,完整性4.09)、Bard(準確性4.59,完整性4.19)、LLaMA(準確性4.38,完整性4.03)。整體而言,這三個模型在提供ICI眼部毒性資訊方面表現良好,但評分者之間的可靠性較低,建議未來需進一步研究。 PubMed DOI