原始文章

這項研究旨在提升隨機對照試驗(RCT)出版物的報告品質,透過開發文本分類模型來檢視對CONSORT檢查表的遵循情況。研究使用了標註37個CONSORT項目的語料庫,訓練了多種模型,包括微調的PubMedBERT和BioGPT。主要發現顯示,微調的PubMedBERT模型在句子層級的微F1分數達0.71,文章層級為0.90。數據增強的影響有限,且針對方法的模型表現較佳。整體而言,這些模型能有效支持期刊編輯,改善RCT出版物的遵循情況。 PubMed DOI


站上相關主題文章列表

隨機對照試驗(RCTs)對循證醫學非常重要,但有些試驗使用虛構數據,影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表,ChatGPT能有效處理RCT論文的PDF,並準確回答檢查項目,與人類評估者的一致性達84%。此外,ChatGPT在數據提取方面也表現出色,對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用,實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

這項研究評估大型語言模型(LLMs)在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書,並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示,LLM在內容相關性和術語方面表現良好,但在臨床思維和透明度上則較差。為提升表現,研究人員採用檢索增強生成(RAG)方法,顯著改善了內容質量,提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性,並可能改變藥物開發過程。 PubMed DOI

這項研究針對分類中文醫學摘要的挑戰,對改善醫學資料庫的搜尋和文獻回顧非常重要。由於缺乏合適的數據集,我們生成了三個訓練數據集和一個測試數據集,以提升分類準確性。數據集 #1 來自 PubMed 的 15,000 條翻譯摘要,數據集 #2 和 #3 則是從 40,000 條中文醫學摘要中生成的。透過 SBERT 嵌入進行語義分析,我們的模型在分類效果上顯著提升,SBERT-DocSCAN 在數據集 #3 上達到最高準確率 91.30%。這項研究不僅生成了有價值的數據集,還證明了模型的有效性。 PubMed DOI

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量,使用手動評估和大型語言模型(LLM)進行分析。共納入54份文件,結果顯示AGREE II的遵循率普遍偏低,最高為41.56%(表達清晰度),最低僅17.28%(發展嚴謹性)。LLM評估的文件得分顯著高於手動評估,顯示LLM在質量評估中具潛力,但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 PubMed DOI

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現,以協助系統性回顧。研究團隊創建了四個專門模型,針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示,GPT-4在數據提取的符合率達88.6%,且在2.5%的情況下準確性超過人類評審。在偏見評估方面,GPT-4的內部一致性公平至中等,外部一致性則優於人類評審者。整體而言,GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

這項研究用小型transformer和GPT-4o模型來分類醫學文獻,判斷是不是RCT和是否跟腫瘤學有關,兩種方法的準確率都很高,尤其是RCT分類F1分數超過0.9。之後再用簡單規則式,準確找出腫瘤學RCT的腫瘤類型,讓後續專業處理更有效率。 PubMed DOI

這項研究發現,GPT-4在協助篩選食道切除術併發症危險因子的文獻時,和人工審查者的判斷一致率高,尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降,但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI

這項研究發現,微調過的BERT模型在分類病人安全事件報告時,比傳統CNN模型更能準確辨識罕見事件和嚴重程度,且在新資料上也有不錯表現。即使資料量少或分布不均,BERT只用預設參數就能有很好的效果,顯示其在醫療文本分類上相當有潛力。 PubMed DOI