Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型(LLM)作為評審自動化評估醫療領域 AI 文字生成
medRxiv 2025-05-02
Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。
Proc Natl Acad Sci U S A 2025-06-13
雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。
PubMedDOI
Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致?一項實證研究
IEEE Comput Graph Appl 2025-07-09
A large-scale replication of scenario-based experiments in psychology and management using large language models.
使用大型語言模型進行心理學與管理學情境式實驗的大規模重複研究
Nat Comput Sci 2025-07-09