Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Assessing the Proficiency of LLMs with Various Tasks and Evaluators.
評估大型語言模型在各種任務和評估者中的能力。 Stud Health Technol Inform 2024-08-23

您的研究強調了全面評估大型語言模型（LLMs）的重要性，透過結合多個任務和多樣化的評估者來達成。您對四個LLM在八個不同任務上的表現進行評估，並邀請了17位來自不同領域的評估者，這樣的做法讓我們對LLM的性能有更深入的了解。這種方法不僅展示了模型的能力，還突顯了任務和評估者的多樣性如何影響結果，可能提供對LLM熟練度的更細緻見解，並幫助識別其在不同情境下的優劣。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試：針對常見證據評估工具。 J Clin Epidemiol 2024-09-14

這項研究探討大型語言模型（LLMs）在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率，結果顯示人類的準確率高達89%至75%，而LLMs的準確率則較低，PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率，但仍不及人類。研究指出，人類與AI合作能提高效率，特別是在較簡單的任務上，但對於複雜的評估則效果有限。 PubMed DOI

Off-the-shelf Large Language Models (LLM) Are Of Insufficient Quality To Provide Medical Treatment Recommendations, While Customization of LLMs Result In Quality Recommendations.
現成的大型語言模型 (LLM) 在提供醫療治療建議方面的質量不足，而定制化的 LLM 則能產生高質量的建議。 Arthroscopy 2024-10-05

現成的大型語言模型（LLMs）在準確性上常反映互聯網上的不準確資訊，對於常見的肌肉骨骼疾病，治療建議的錯誤率高達30%。這顯示出諮詢專家的必要性。定制的LLMs則能整合各醫學領域的專業知識，方法包括： 1. **提示工程**：設計特定提示以獲得更佳回應。 2. **檢索增強生成（RAG）**：從目標數據集中檢索相關資訊。 3. **微調**：調整模型以理解醫療術語。 4. **代理增強**：利用軟體協調多個LLMs，優化輸出並引入人類監督。這些定制的LLMs幫助醫生在數位環境中重新掌握權威，確保醫療專業知識的準確性。 PubMed DOI

Large language models (LLMs) and the institutionalization of misinformation.
大型語言模型 (LLMs) 與錯誤資訊的制度化。 Trends Cogn Sci 2024-10-11

對於大型語言模型（LLMs）可能擴散錯誤資訊的擔憂是合理的，因為這些模型生成的內容難以與可信來源區分，容易造成真實與虛假資訊的混淆。這可能導致錯誤資訊的強化，讓人們難以辨別事實。使用者互動和分享這些內容，可能形成反饋循環，進一步鞏固錯誤資訊。這樣的情況可能影響民主過程、信任機構，甚至造成社會分裂。因此，推廣媒體素養、批判性思維及事實查核機制非常重要。同時，提升LLMs訓練和資訊來源的透明度，能減少錯誤資訊的風險，確保科技能增進我們對現實的理解。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

How should the advancement of large language models affect the practice of science?
大型語言模型的進步應如何影響科學實踐？ Proc Natl Acad Sci U S A 2025-01-27

將大型語言模型（LLMs）整合進科學工作流程中，既有機會也有挑戰。四組科學家提供不同觀點：Schulz等人認為LLMs能提升研究生產力；Bender等人警告過度炒作，主張專注於可解釋的專用工具；Marelli等人強調透明性與負責任使用，呼籲標示LLMs貢獻；Botvinick和Gershman則認為人類應對科學探究負最終責任。這場對話旨在確保LLMs的使用能提升科學實踐，同時維持倫理與問責。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

The role of large language models in the peer-review process: opportunities and challenges for medical journal reviewers and editors.
大型語言模型在同行評審過程中的角色：醫學期刊審稿人和編輯的機會與挑戰。 J Educ Eval Health Prof 2025-03-23

同行評審對科學研究的質量至關重要，尤其在醫學領域，因為研究結果直接影響病人照護。隨著出版量增加，評審者面臨的壓力也增大，可能導致評審延遲和質量下降。大型語言模型（如ChatGPT）能簡化評審過程，提供高效支持。這篇評論探討了LLMs在同行評審中的應用，包括初步篩選、評審者匹配、反饋支持和語言審查等。然而，使用LLMs也需注意偏見和隱私問題，必須建立指導方針，確保其輔助而非取代人類專業知識，以維持評審標準。 PubMed DOI

原始文章

站上相關主題文章列表