Experimental assessment of the performance of artificial intelligence in solving multiple-choice board exams in cardiology.
人工智慧在解決心臟病學多選題考試中的表現實驗評估。
Swiss Med Wkly 2024-10-28
這項研究評估了不同人工智慧聊天機器人在心臟科專科考試中的表現,並與人類研究員進行比較。研究使用了88道選擇題,結果顯示所有36名研究員都通過考試,且中位數準確率高達98%。相比之下,聊天機器人的表現參差不齊,只有Jasper quality達到最低通過率73%。大多數聊天機器人的Top-1準確率僅47%,Top-2為67%。只有Jasper quality和ChatGPT plus 4.0通過考試。結果顯示,現階段的聊天機器人在醫學考試中表現不佳,但未來可能會有改進的潛力。
相關文章PubMedDOI
"It happened to be the perfect thing": experiences of generative AI chatbots for mental health.
「"恰好是完美的事物":生成式 AI 聊天機器人在心理健康中的經驗。」
Npj Ment Health Res 2024-10-28
Unpacking unstructured data: A pilot study on extracting insights from neuropathological reports of Parkinson's Disease patients using large language models.
解構非結構化數據:一項關於使用大型語言模型從帕金森病患者的神經病理報告中提取見解的初步研究。
Biol Methods Protoc 2024-10-28
Appropriateness and readability of Google Bard and ChatGPT-3.5 generated responses for surgical treatment of glaucoma.
Google Bard 和 ChatGPT-3.5 生成的青光眼手術治療回應的適當性和可讀性。
Rom J Ophthalmol 2024-10-28
Potential application of ChatGPT in <i>Helicobacter pylori</i> disease relevant queries.
ChatGPT 在 <i>Helicobacter pylori</i> 疾病相關查詢中的潛在應用。
Front Med (Lausanne) 2024-10-28
Large Language Models in Biomedical and Health Informatics: A Review with Bibliometric Analysis.
生物醫學與健康資訊學中的大型語言模型:文獻計量分析的回顧。
J Healthc Inform Res 2024-10-28