ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
評估生成式人工智慧在檢索手動策劃的遺傳和基因組數據方面的表現。 Database (Oxford) 2025-02-18

這篇論文探討大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在數據提取和呈現的有效性，並與人類策展人比較。研究聚焦於小麥和大麥的遺傳特徵，使用36篇期刊文章的資料供GrainGenes數據庫使用。主要發現包括：GPT-4在分類手稿準確率達97%，有效提取80%特徵，並顯示人類與AI合作的潛力。儘管LLMs有其限制，但在生物數據提取上仍能提供顯著幫助，使用者需謹慎對待不準確性。 PubMed DOI

The effectiveness of large language models with RAG for auto-annotating trait and phenotype descriptions.
大型語言模型結合 RAG 自動標註特徵和表現描述的有效性。 Biol Methods Protoc 2025-03-05

這段文字探討了在對生物文本，特別是表型描述進行註釋時的挑戰，尤其是使用本體詞彙的情況。傳統文本挖掘工具在理解上下文方面表現不佳，而像OpenAI的GPT這類大型語言模型則更適合需要語義理解的任務。作者提出利用GPT對*Arabidopsis thaliana*和森林樹木的表型觀察進行本體詞彙註釋，目標是達到與人工註釋相當的效果。這些流程包括將表型解析為簡潔概念，並使用嵌入向量相似度和檢索增強生成（RAG）方法來識別合適的本體詞彙，最終實現高準確度的自動註釋。 PubMed DOI

AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.
環境研究中系統評價的AI輔助證據篩選方法：將ChatGPT與領域知識整合。 Environ Evid 2025-04-14

環境科學中的系統性回顧面臨挑戰，因為不同學科的方法和術語不一致，影響證據篩選的透明度和可重複性。為了解決這個問題，我們開發了一個AI輔助的證據篩選框架，並以溪流糞便大腸桿菌濃度與土地使用的關係為案例。透過微調ChatGPT-3.5 Turbo模型，我們在篩選120篇文章時，發現AI與專家之間有顯著一致性，顯示出AI在篩選中的潛力。這個框架能提高篩選效率，減少成本，並為AI在環境研究中的應用提供新方向。 PubMed DOI

Evaluation of error detection and treatment recommendations in nucleic acid test reports using ChatGPT models.
使用 ChatGPT 模型評估核酸檢測報告中的錯誤偵測與治療建議 Clin Chem Lab Med 2025-04-18

這項研究比較三款GPT模型在醫學檢驗報告錯誤偵測和治療建議的表現。結果顯示，GPT模型平均能準確抓出約九成錯誤，但對格式錯誤較不敏感。GPT的判斷和資深檢驗師幾乎一樣準，速度還更快。GPT-o1 mini偵錯最穩定，GPT-o1給治療建議最強，顯示AI有助提升檢驗室效率和臨床決策。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
生成式人工智慧在檢索手動整理的遺傳與基因體資料時的表現評估 Database (Oxford) 2025-04-22

這項研究發現，GPT-4在整理小麥和大麥相關科學論文的遺傳資料時，準確率高達97%，擷取性狀和標記-性狀關聯的表現也比GPT-3.5好，錯誤率更低。GPT-4有時甚至能達到人類專家的96%水準。雖然還有改進空間，但未來在協助整理科學資料上很有潛力。 PubMed DOI

Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis.
在環境系統性證據綜合中測試 GPT 用於標題與摘要篩選的實用性 Environ Evid 2025-04-24

這篇論文發現，GPT-4在系統性文獻回顧時，能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下，GPT-4在特定門檻下可達100%召回率，人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究，才能確認其穩定性。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
生成式人工智慧在檢索手動整理的遺傳與基因體資料中的表現評估 Database (Oxford) 2025-05-22

這項研究發現，GPT-4在從小麥和大麥論文中擷取遺傳性狀資料的表現相當優異，論文分類準確率高達97%，性狀擷取率有80%，標記-性狀關聯擷取率則為61%，錯誤率也比GPT-3.5低。雖然還有進步空間，但GPT-4已展現輔助生物資料庫整理的潛力。不過，使用時仍需留意資料可能不夠完整或正確。 PubMed DOI

Evaluating generative AI for qualitative data extraction in community-based fisheries management literature.
在社區型漁業管理文獻中評估生成式AI於質性資料萃取的應用 Environ Evid 2025-06-01

這項研究比較GPT-4 Turbo和Elicit兩款AI工具，從33篇社區型漁業管理論文中擷取質性資料的表現。結果發現，AI在抓取情境性資料時表現不一，但有時能和人工審查者一樣好。整體來說，AI可協助文獻回顧，但還是需要人工把關，顯示AI有潛力但目前仍有限制。 PubMed DOI

原始文章

站上相關主題文章列表