原始文章

這項研究探討了利用AI模型,特別是GPT-3、GPT-3.5和GPT-4,自動化污水流行病學文獻篩選,以提升綜合分析的效率。結果顯示,GPT-4在識別原始數據論文方面表現優異,精確度達0.96,召回率為1.00,超越目前的人工篩選標準。不過,這些模型在準確識別相關取樣地點上仍有挑戰,顯示人類監督的重要性。研究強調模型設計的謹慎性,建議AI輔助篩選能提升WBE研究效率,但仍需人類介入以確保準確性。 PubMed DOI


站上相關主題文章列表

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

這項研究探討使用一個大型語言模型(GPT-4)來自動化系統性文獻回顧和網絡荟萃分析中的數據提取、程式碼生成和結果解釋。該模型在提取數據和生成腳本方面表現出高準確性,有潛力節省時間並減少錯誤。雖然需要定期進行技術檢查,但未來大型語言模型的改進可能進一步增強自動化效果。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

研究使用ChatGPT自動化生物醫學文獻審閱,以加速新興傳染病時的藥物發現。測試結果顯示,與專家相比,ChatGPT在準確性和效能上表現優異,尤其在識別SARS-CoV-2和尼帕病毒的藥物靶點方面。這研究顯示ChatGPT在全球衛生緊急情況下,對加速藥物發現和靶點識別有相當潛力。 PubMed DOI

一項研究評估了在基於PRISMA框架的系統文獻回顧中使用GPT-4 API作為審稿人。研究發現,在摘要篩選方面,GPT-4與人類審稿人之間存在高度一致性,暗示GPT-4有可能在文獻回顧的這個方面取代人類審稿人。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這篇論文探討大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在數據提取和呈現的有效性,並與人類策展人比較。研究聚焦於小麥和大麥的遺傳特徵,使用36篇期刊文章的資料供GrainGenes數據庫使用。主要發現包括:GPT-4在分類手稿準確率達97%,有效提取80%特徵,並顯示人類與AI合作的潛力。儘管LLMs有其限制,但在生物數據提取上仍能提供顯著幫助,使用者需謹慎對待不準確性。 PubMed DOI

隨著微塑料對健康影響的關注增加,對高品質數據的需求也隨之上升。目前的質量保證和控制(QA/QC)框架因手動評估耗時且不一致而面臨挑戰。本研究探討利用人工智慧(AI),特別是大型語言模型(LLMs),如ChatGPT和Gemini,來提升微塑料研究中的QA/QC過程。研究結果顯示,AI能有效提取信息並評估研究可靠性,顯示出在環境科學中標準化微塑料風險評估的潛力。 PubMed DOI

這項研究顯示,GPT-4 Turbo在特異性上表現優於GPT-3.5 Turbo(0.98對0.51),而敏感性相似(0.85對0.83)。不過,GPT-3.5 Turbo的速度明顯較快,處理100篇研究只需0.9分鐘,GPT-4 Turbo則需1.6分鐘。這結果顯示,雖然GPT-4 Turbo在引用篩選的準確性上更佳,但GPT-3.5 Turbo在速度上更具優勢,顯示大型語言模型在文獻選擇上有潛力。 PubMed DOI