原始文章

在資訊檢索評估中,使用大型語言模型(LLMs)來創建相關性判斷雖然有其優勢,但過度依賴可能會限制評估的有效性。LLMs的表現可能設下上限,無法識別更優秀的系統。建議將LLMs用於輔助角色,例如協助人類評審、生成訓練數據、進行質量控制及探索性分析。這樣可以發揮LLMs的優勢,同時保留人類專業知識的核心地位,確保評估的完整性。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

將大型語言模型(LLMs)整合進科學工作流程中,既有機會也有挑戰。四組科學家提供不同觀點:Schulz等人認為LLMs能提升研究生產力;Bender等人警告過度炒作,主張專注於可解釋的專用工具;Marelli等人強調透明性與負責任使用,呼籲標示LLMs貢獻;Botvinick和Gershman則認為人類應對科學探究負最終責任。這場對話旨在確保LLMs的使用能提升科學實踐,同時維持倫理與問責。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,但目前的評估方法主要依賴人類的主觀評價,這不僅耗時,還容易受到偏見影響。為了解決這個問題,我們提出了一個結合定性與定量評估的統一框架,能夠更客觀地評估LLMs的表現。我們應用此框架於Epic In-Basket功能的評估,發現AI生成的回覆雖然流暢,但在連貫性和完整性上仍有不足。這顯示出量化指標能有效減少人力投入,提升評估的可擴展性。總之,我們的框架有助於提升LLMs在醫療領域的評估可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI

同行評審對科學研究的質量至關重要,尤其在醫學領域,因為研究結果直接影響病人照護。隨著出版量增加,評審者面臨的壓力也增大,可能導致評審延遲和質量下降。大型語言模型(如ChatGPT)能簡化評審過程,提供高效支持。這篇評論探討了LLMs在同行評審中的應用,包括初步篩選、評審者匹配、反饋支持和語言審查等。然而,使用LLMs也需注意偏見和隱私問題,必須建立指導方針,確保其輔助而非取代人類專業知識,以維持評審標準。 PubMed DOI

這項研究發現,只要經過細心設計和調整,大型語言模型(LLMs)在回答保育問題時,表現可媲美人類專家。但如果直接用沒客製化的 LLMs,結果可能很差,甚至會產生誤導資訊。總結來說,LLMs 有潛力幫助專家更有效利用保育證據,但一定要針對專業領域優化才行。 PubMed DOI

**重點摘要:** 這篇論文建議,評估大型語言模型(LLMs)的方法可以參考人類判斷與決策相關的研究經驗。作者認為,目前常用的評估方式太過侷限,如果能採用更細緻、貼近現實情境的評估方式——就像我們評估人類推理能力一樣——將能讓LLM的表現評估更可靠、更有意義。 PubMed DOI

雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。 PubMed DOI