Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study.
使用大型語言模型進行臨床評論的自動篩選：資料分析研究。 J Med Internet Res 2024-01-29

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時，對臨床研究論文標題和摘要的辨識表現。結果顯示，這些模型在篩選超過24,000個標題和摘要時表現準確且敏感，並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間，並提升臨床研究品質，而非取代研究人員。 PubMed DOI

Artificial Intelligence to Automate Network Meta-Analyses: Four Case Studies to Evaluate the Potential Application of Large Language Models.
利用人工智慧自動化網絡Meta分析：四個案例研究評估大型語言模型的潛在應用。 Pharmacoecon Open 2024-02-25

這項研究探討使用一個大型語言模型（GPT-4）來自動化系統性文獻回顧和網絡荟萃分析中的數據提取、程式碼生成和結果解釋。該模型在提取數據和生成腳本方面表現出高準確性，有潛力節省時間並減少錯誤。雖然需要定期進行技術檢查，但未來大型語言模型的改進可能進一步增強自動化效果。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Using large language models for safety-related table summarization in clinical study reports.
使用大型語言模型進行臨床研究報告中與安全相關的表格摘要。 JAMIA Open 2024-05-31

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件，尤其是為CSRs創建安全表摘要。評估顯示性能差異，特別是在事實準確性和寫作風格方面。團隊多使用GPT模型，改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力，強調需優化人類輸入和持續研究。 PubMed DOI

How good are large language models at product risk assessment?
大型語言模型在產品風險評估方面表現如何？ Risk Anal 2024-06-09

研究探討人工智慧應用，尤其是像ChatGPT這樣的大型語言模型，在產品風險評估中的應用。ChatGPT在項目如頭腦風暴失敗模式和風險緩解方面表現優勢，但也有錯誤和提供一般性指導。儘管有限制，人工智慧仍可在產品風險評估的構思中發揮作用，專家可專注審查人工智慧生成的內容。 PubMed DOI

Fine-tuning large language models for chemical text mining.
化學文本探勘的大型語言模型微調。 Chem Sci 2024-07-12

這項研究探討了使用調校過的大型語言模型（LLMs）進行複雜化學文本挖掘任務，並在各種任務中取得了令人印象深刻的表現，僅需少量標註數據。調校過的ChatGPT模型表現優異，超越其他LLMs，展示了它們在化學知識提取的自動化數據獲取方面的潛力。 PubMed DOI

Comparing a Large Language Model with Previous Deep Learning Models on Named Entity Recognition of Adverse Drug Events.
比較大型語言模型與先前深度學習模型在不良藥物事件命名實體識別上的表現。 Stud Health Technol Inform 2024-08-23

這項研究比較了微調深度學習模型（基於PubMed摘要）與大型語言模型（ChatGPT-3.5）在不良藥物事件命名實體識別（NER）的表現。結果顯示，Hussain等人的微調模型達到97.6%的F1分數，遠高於ChatGPT-3.5的86.0%。雖然少量學習在數據有限時仍具實用性，但無法超越深度學習模型的表現。未來將探討使用GPT-4的少量提示及微調GPT-3.5的可能性。 PubMed DOI

Harnessing large language models' zero-shot and few-shot learning capabilities for regulatory research.
利用大型語言模型的零-shot和少-shot學習能力進行監管研究。 Brief Bioinform 2024-08-23

大型語言模型（LLMs），像是OpenAI的ChatGPT，雖然能生成類似人類的文本，但在網路使用時會有數據隱私的風險，因為用戶資料會傳送到外部伺服器。為了解決這個問題，我們探討在安全的本地網路中使用開源的小型LLMs，特別是在需要保護數據的監管機構中。我們發現某些模型在少量或零樣本學習中表現不錯，甚至達到傳統神經網路的效果，顯示出在安全環境中使用開源LLMs的潛力。 PubMed DOI

Toward an Explainable Large Language Model for the Automatic Identification of the Drug-Induced Liver Injury Literature.
朝向可解釋的大型語言模型以自動識別藥物誘發肝損傷文獻。 Chem Res Toxicol 2024-08-27

藥物引起的肝損傷（DILI）是藥物安全性的重要議題，也是急性肝衰竭的主要原因。傳統的文獻搜尋方法因藥物相互作用的複雜性而效率不高，且手動整理容易出錯。近期，利用大型語言模型（LLMs）如LLaMA-2，研究人員開發了專門用於DILI分析的模型，並在CAMDA 2022的數據集上達到97.19%的準確率，顯示出LLMs在文獻識別上的潛力，可能簡化監管審查流程。 PubMed DOI

Testing the reliability of an AI-based large language model to extract ecological information from the scientific literature.
測試基於人工智慧的大型語言模型從科學文獻中提取生態信息的可靠性。 NPJ Biodivers 2024-09-06

這項研究評估大型語言模型（LLMs）在從科學文獻中提取生態數據的表現，並與人類審稿人進行比較。結果顯示，LLMs提取相關數據的速度超過50倍，對於離散和類別數據的準確率超過90%。不過，它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率，但仍需額外的質量保證措施來確保數據的完整性。 PubMed DOI

原始文章

站上相關主題文章列表