Evaluation of Rhinoplasty Information from ChatGPT, Gemini, and Claude for Readability and Accuracy.
對於 ChatGPT、Gemini 和 Claude 的鼻整形資訊進行可讀性和準確性的評估。
Aesthetic Plast Surg 2024-09-16
The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。
Sci Rep 2024-09-16
兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。
相關文章PubMedDOI
[Performance of generative pre-trained transformer-4 on the certification test for mental health management: A factorial design].
「生成預訓練變壓器-4 在心理健康管理認證測試中的表現:一項因子設計研究」
Sangyo Eiseigaku Zasshi 2024-09-16
Artificial Intelligence in Orthopaedics: Performance of ChatGPT on Text and Image Questions on a Complete AAOS Orthopaedic In-Training Examination (OITE).
人工智慧在骨科的應用:ChatGPT 在完整的 AAOS 骨科住院醫師訓練考試 (OITE) 中對文本和影像問題的表現。
J Surg Educ 2024-09-16
Performance of ChatGPT in the In-Training Examination for Anesthesiology and Pain Medicine Residents in South Korea: Observational Study.
南韓麻醉學與疼痛醫學住院醫師在訓練考試中 ChatGPT 的表現:觀察性研究。
JMIR Med Educ 2024-09-16
On the development and validation of large language model-based classifiers for identifying social determinants of health.
基於大型語言模型的分類器在識別健康社會決定因素中的開發與驗證。
Proc Natl Acad Sci U S A 2024-09-16
How Aligned are Human Chart Takeaways and LLM Predictions? A Case Study on Bar Charts with Varying Layouts.
人類圖表摘要與大型語言模型預測的對齊程度如何?以不同佈局的條形圖為案例研究。
IEEE Trans Vis Comput Graph 2024-09-16