Artificial Intelligence-Generated Scientific Literature: A Critical Appraisal.
人工智慧生成的科學文獻：一個批判性評估。 J Allergy Clin Immunol Pract 2024-02-23

評論指出人工智慧在醫學領域扮演重要角色，但提到使用GPT-4聊天機器人生成的內容雖清晰，卻缺乏深度、分析和關鍵信息，且可能含有不準確之處。AI還依賴免費資源和捏造的參考文獻，顯示有必要對其生成的醫學文獻進行嚴格評估和驗證，尤其在資源有限的情況下。 PubMed DOI

An evaluation of AI generated literature reviews in musculoskeletal radiology.
人工智慧生成的文獻評論在肌肉骨骼放射學中的評估。 Surgeon 2024-01-13

人工智慧在醫學和研究領域中受到關注，像ChatGPT這樣的工具能提供自然的輸出，但有時會出錯。研究比較了theliterature.com和ChatGPT（GPT-4），結果顯示GPT-4通常能提供較好的摘要，但仍需人類驗證。兩者都無法完全識別所有相關文獻。 PubMed DOI

The Use of Artificial Intelligence in Writing Scientific Review Articles.
人工智慧在撰寫科學評論文章中的應用。 Curr Osteoporos Rep 2024-03-07

研究探討了ChatGPT AI在寫肌肉骨骼研究綜述的應用。比較了人工、AI和AI輔助三種方法，發現AI能省時間但需確認事實。僅用AI可能有參考文獻不準確問題，AI輔助則有抄襲風險。ChatGPT 4.0 在辨識最新文章方面有限制。結論指出AI在人類監督下可協助科學寫作，節省時間但需謹慎確認準確性。 PubMed DOI

Human versus artificial intelligence-generated arthroplasty literature: A single-blinded analysis of perceived communication, quality, and authorship source.
人工智慧生成的關節置換文獻與人類生成的文獻比較：對溝通、品質和作者來源知覺的單盲分析。 Int J Med Robot 2024-02-14

這項研究比較了由一個大型語言模型（LLM）生成的摘要與人類撰寫的摘要在醫學研究領域的情境下。研究發現，根據骨科醫師的評估，LLM生成的摘要在可區分性和質量方面均不如人類撰寫的摘要。這項研究建議在醫學領域使用LLM進行科學寫作時要謹慎。 PubMed DOI

Human-Written vs AI-Generated Texts in Orthopedic Academic Literature: Comparative Qualitative Analysis.
人類撰寫與人工智慧生成的骨科學術文獻：比較性質分析。 JMIR Form Res 2024-03-04

這項研究比較了在骨科和運動醫學領域中人類撰寫和人工智慧生成的科學文獻。研究人員發現，無論是專家還是AI檢測軟體都無法區分人類撰寫的文本和大型語言模型（LLMs）生成的文本。這項研究指出，需要進一步研究以了解在學術寫作中使用人工智慧的影響，並確保科學的完整性。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

The Use of Generative AI for Scientific Literature Searches for Systematic Reviews: ChatGPT and Microsoft Bing AI Performance Evaluation.
利用生成式人工智慧進行系統性文獻檢索的應用：ChatGPT 和 Microsoft Bing AI 效能評估。 JMIR Med Inform 2024-05-21

ChatGPT在醫療保健領域有潛力，但研究顯示在Peyronie病文獻搜索方面表現較差。未來應謹慎依賴人工智慧進行實時證據生成，並提升其可靠性和一致性，以造福醫學研究。 PubMed DOI

Using artificial intelligence to generate medical literature for urology patients: a comparison of three different large language models.
使用人工智慧生成泌尿科病患的醫學文獻：三種不同大型語言模型的比較。 World J Urol 2024-07-29

本研究評估了三個大型語言模型（LLMs）生成的泌尿科病人資訊小冊子（PILs）品質，包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術（TURP）進行評估。結果顯示，PaLM 2的PILs品質最佳，平均得分3.58，且最易閱讀。雖然LLMs能減輕醫療人員負擔，但內容仍需臨床醫師審查，且閱讀水平偏高，顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

[Human vs. ChatGPT. Is it possible obtain comparable results in the analysis of a scientific systematic review?].
[人類與 ChatGPT。是否有可能在科學系統性回顧的分析中獲得可比的結果？] Recenti Prog Med 2024-09-13

這項研究探討了ChatGPT在科學文章審查中的有效性，並與傳統人類研究者的結果進行比較。研究人員對17篇有關醫療專業人員使用數位工具的文章進行系統性回顧，並透過特定提示引導ChatGPT分析。經過四次迭代後，ChatGPT的結果與原始回顧相當，但人類作者提供了更深入的分析和詮釋。雖然兩者在宏觀主題上相似，但人類驗證仍然重要，以確保研究的徹底性和深度。總體而言，ChatGPT在增強科學文獻產出方面展現潛力，但需依賴人類指導以達最佳效果。 PubMed DOI

原始文章

站上相關主題文章列表