原始文章

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI


站上相關主題文章列表

研究比較ChatGPT3與人類評估醫學研究摘要質量的能力,結果顯示兩者整體符合度有些微差異,但在特定領域表現不同。ChatGPT有助於自動化醫學文獻評估,或許提升準確性。未來的AI技術如GPT4可能提供更可靠的評估,進而改善患者治療結果。 PubMed DOI

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

研究發現使用ChatGPT在放射學文獻篩選上有潛力,能快速且省時,但準確度仍需提升。未來需進一步研究改善其表現,確保在各醫學領域皆可靈活運用。 PubMed DOI

大型語言模型如ChatGPT在醫學研究中被廣泛運用,尤其在系統性回顧上。它們可協助加速回顧流程,包括問題定義、文獻檢索、篩選和資訊提取,省時且效率提升。然而,使用時需確保報告透明、區分真假資訊,並防範學術不端。本文探討了大型語言模型在系統性回顧中的潛力,討論了優勢、限制和未來研究方向,以指導相關作者。 PubMed DOI

利用大型語言模型(LLMs)自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本,利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同,靈敏度/特異性範圍從81.93%/75.19%到97.58%/19.12%。修改設置如提示結構和Likert量表範圍,對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性,但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這篇論文探討系統性回顧中摘要篩選的挑戰,並利用大型語言模型(LLMs)的零-shot能力來解決。研究提出一個新穎的問答框架,將篩選標準視為問題,讓LLM回答,並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證,結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型,顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI