Benchmarking large language models' performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard.
大型語言模型在近視護理中的表現基準：ChatGPT-3.5、ChatGPT-4.0和Google Bard的比較分析。 EBioMedicine 2023-09-18

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現，結果發現ChatGPT-4.0最準確，80.6%的回答被評為「好」，比ChatGPT-3.5（61.3%）和Google Bard（54.8%）都好。三者都展現高的全面性和自我修正能力，ChatGPT-4.0在「治療和預防」方面表現最佳，顯示了LLMs，尤其是ChatGPT-4.0，在提供準確且全面的近視資訊上有潛力。 PubMed DOI

Assessing the accuracy and completeness of artificial intelligence language models in providing information on methotrexate use.
評估人工智慧語言模型在提供甲氨蝶呤使用資訊的準確性和完整性。 Rheumatol Int 2024-02-16

研究比較了大型語言模型（LLMs）如ChatGPT 3.5-4、BARD和Bing在回答有關治療類風濕性關節炎的甲氨蝶呤（MTX）問題時的表現。結果發現GPT模型答對率100％，BARD和Bing表現較差。GPT-4準確性最高，其次是GPT-3.5。BARD和Bing有更多錯誤和未回答。研究指出GPT模型對於MTX的作用機制和副作用回答較準確，GPT-4提供最全面的資訊。 PubMed DOI

Popular large language model chatbots' accuracy, comprehensiveness, and self-awareness in answering ocular symptom queries.
大眾化的大型語言模型聊天機器人在回答眼部症狀查詢時的準確性、全面性和自我意識。 iScience 2023-11-03

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答眼部症狀問題的表現，發現ChatGPT-4.0最準確，明顯優於其他。三者都很全面，但自我意識有限。研究指出ChatGPT-4.0在回答正確和全面性上有潛力，但臨床應用前仍需進一步驗證。 PubMed DOI

Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 medRxiv 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值，但專家驗證仍然至關重要，以避免不準確或資訊不完整的情況。 PubMed DOI

Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 Oncologist 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤學問題時的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、可重現性、準確性、相關性和可讀性方面都比Google Bard好。雖然ChatGPT模型在免疫腫瘤學領域有潛力，但專家驗證仍然至關重要，以避免不準確或不完整的情況。 PubMed DOI

Assessment of a Large Language Model's Responses to Questions and Cases About Glaucoma and Retina Management.
評估大型語言模型光學神經病變和視網膜管理問題的回答。 JAMA Ophthalmol 2024-02-25

大型語言模型（LLMs）正在改變醫學診斷和治療，提供高準確度，超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應，發現LLM在診斷上表現優異，甚至勝過專家，顯示其在眼科診斷上的潛力。 PubMed DOI

Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

Evaluating Chatbot responses to patient questions in the field of glaucoma.
評估聊天機器人對青光眼患者問題的回應。 Front Med (Lausanne) 2024-07-26

這項研究評估了大型語言模型（LLM）ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題，並由三位專家評分。結果顯示，ChatGPT的平均得分為3.29，整體表現良好，但有29.2%的回應得分低於3分。經過自我修正後，得分從2.96提升至3.58，滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力，但仍需更多研究來驗證其應用。 PubMed DOI

A Qualitative Evaluation of ChatGPT4 and PaLM2's Response to Patient's Questions Regarding Age-Related Macular Degeneration.
對於患者關於年齡相關性黃斑變性問題的 ChatGPT4 和 PaLM2 回應的質性評估。 Diagnostics (Basel) 2024-07-27

這篇論文探討了兩個大型語言模型（LLMs），ChatGPT4 和 PaLM2，對於年齡相關黃斑變性（AMD）患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題，並讓這兩個模型及三位眼科醫生回答。結果顯示，ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2，顯示出這些模型在患者教育上的潛力，但仍需謹慎使用，不能取代專業醫療建議。 PubMed DOI

Evaluating Large Language Models on their Accuracy and Completeness: Immune Checkpoint Inhibitors and their Ocular Toxicities.
評估大型語言模型的準確性和完整性：免疫檢查點抑制劑及其眼部毒性。 Retina 2024-09-23

這項研究評估了三個大型語言模型（LLMs）—ChatGPT 4.0、Bard 和 LLaMA—在提供免疫檢查點抑制劑（ICIs）相關眼部毒性資訊的表現。研究提出八個問題，並由四位眼科醫生使用6點李克特量表評分。結果顯示，三者在準確性和完整性上評分相似，無顯著差異。平均評分為：ChatGPT（準確性4.59，完整性4.09）、Bard（準確性4.59，完整性4.19）、LLaMA（準確性4.38，完整性4.03）。整體而言，這三個模型在提供ICI眼部毒性資訊方面表現良好，但評分者之間的可靠性較低，建議未來需進一步研究。 PubMed DOI

原始文章

站上相關主題文章列表