Utilizing large language models in infectious disease transmission modelling for public health preparedness.
在公共衛生準備中利用大型語言模型進行傳染病傳播建模。
Comput Struct Biotechnol J 2024-09-17
Ranking sports science and medicine interventions impacting team performance: a protocol for a systematic review and meta-analysis of observational studies in elite football.
影響團隊表現的運動科學與醫學介入排名:一項針對精英足球觀察性研究的系統評價與統合分析的研究計畫。
BMJ Open Sport Exerc Med 2024-09-17
Incentivizing news consumption on social media platforms using large language models and realistic bot accounts.
利用大型語言模型和真實的機器人帳號激勵社交媒體平台上的新聞消費。
PNAS Nexus 2024-09-17
Performance of ChatGPT-3.5 and GPT-4 in national licensing examinations for medicine, pharmacy, dentistry, and nursing: a systematic review and meta-analysis.
ChatGPT-3.5 和 GPT-4 在醫學、藥學、牙醫學和護理學國家執照考試中的表現:系統性回顧與統合分析。
BMC Med Educ 2024-09-16
Evaluation of Rhinoplasty Information from ChatGPT, Gemini, and Claude for Readability and Accuracy.
對於 ChatGPT、Gemini 和 Claude 的鼻整形資訊進行可讀性和準確性的評估。
Aesthetic Plast Surg 2024-09-16
The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。
Sci Rep 2024-09-16
兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。
相關文章PubMedDOI
[Performance of generative pre-trained transformer-4 on the certification test for mental health management: A factorial design].
「生成預訓練變壓器-4 在心理健康管理認證測試中的表現:一項因子設計研究」
Sangyo Eiseigaku Zasshi 2024-09-16
Artificial Intelligence in Orthopaedics: Performance of ChatGPT on Text and Image Questions on a Complete AAOS Orthopaedic In-Training Examination (OITE).
人工智慧在骨科的應用:ChatGPT 在完整的 AAOS 骨科住院醫師訓練考試 (OITE) 中對文本和影像問題的表現。
J Surg Educ 2024-09-16