原始文章

這項研究發現,只要經過細心設計和調整,大型語言模型(LLMs)在回答保育問題時,表現可媲美人類專家。但如果直接用沒客製化的 LLMs,結果可能很差,甚至會產生誤導資訊。總結來說,LLMs 有潛力幫助專家更有效利用保育證據,但一定要針對專業領域優化才行。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

這項研究評估了搜尋引擎和大型語言模型在回答健康問題上的效果。研究比較了四個熱門搜尋引擎和七個大型語言模型,包括檢索增強變體,使用了150個來自TREC健康錯誤資訊追蹤的問題。結果顯示,搜尋引擎的正確回答率在50%到70%之間,主要因為檢索結果不相關。而大型語言模型的準確率約為80%,但會因輸入提示而異。RAG方法顯著提升了小型大型語言模型的表現,準確率提高了多達30%。 PubMed DOI

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI

這項研究開發了 LARS-GPT 流程,利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示,LARS-GPT 能在召回率超過 0.9 的情況下,減少超過 40% 的篩選工作量,證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

這篇研究回顧了LLM在自動化科學文獻回顧的應用,分析了172篇論文。多數專案用ChatGPT或GPT系列,特別在文獻搜尋和資料擷取上表現比BERT好。不過,實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制,但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

大型語言模型在健康溝通上,常常無法達到專業醫療標準,尤其當提問不夠明確時。雖然有方法能稍微提升回答品質,但還是無法完全符合需求。因此,LLMs不適合單獨用來給健康建議,未來還需要加強模型設計和使用者教育,才能讓健康溝通更安全有效。 PubMed DOI

像 ChatGPT-4 這類通用型 LLM,回答臨床問題時常缺乏實用或有根據的建議。反觀專門設計的 OpenEvidence 和 ChatRWD,表現明顯更好。OpenEvidence 在有文獻時特別強,ChatRWD 則能在沒研究時給出可行建議。兩者結合,有望大幅提升臨床決策的循證支持。 PubMed DOI