原始文章

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在提升病人與臨床試驗(CTs)匹配的應用,並以資訊檢索為框架。研究開發了一個多階段檢索管道,結合BM25、Transformer排名器及LLM方法,數據來自TREC臨床試驗2021-23。結果顯示,微調的LLM在查詢形成、過濾及重新排名上表現優於傳統方法,提升了識別合格試驗的有效性。雖然LLMs具競爭力,但計算成本較高,效率降低。未來研究應聚焦於優化成本與檢索有效性之間的平衡。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在提供前列腺癌放射治療病人教育的有效性,並納入臨床醫生和病人的反饋。研究中針對六個常見問題,評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示,雖然所有模型的回答被認為相關且正確,但可讀性較差。病人對ChatGPT-4的評價較高,認為其回答易懂且有信心。整體而言,LLMs在病人教育上有潛力,但準確性和可讀性仍需改進,未來需進一步研究以提升其效益。 PubMed DOI

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現,GPT-4和放射腫瘤科醫生的回答質量最高,但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本,但常常提供過於簡化的答案。整體來看,GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源,雖然使用GPT-3.5時需謹慎,因為它可能產生不足的回答。 PubMed DOI

這項研究探討使用 Mistral 8x22B 大型語言模型 (LLM) 改善臨床試驗的知情同意書 (ICFs) 撰寫,針對複雜性和法律術語問題進行分析。研究中,四個臨床試驗方案的 ICF 由 LLM 生成,並由八位專家評估。結果顯示,LLM 生成的 ICF 在準確性和完整性上與人類版本相似,但在可讀性和可理解性上表現更佳,且在可行性上獲得滿分。整體而言,LLM 顯示出提升 ICF 可及性和清晰度的潛力,可能成為改善參與者理解的有效解決方案。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

臨床試驗對醫學進步和病人獲得新療法非常重要,但像 ClinicalTrials.gov 的複雜語言讓人難以理解。本研究探討大型語言模型(LLMs),特別是 GPT-4,如何改善病人對癌症臨床試驗的教育。研究人員利用知情同意書,透過兩種 AI 方法創建易懂的摘要,並設計多選題評估病人理解。結果顯示,AI 生成的摘要更易讀,且超過 80% 的參與者表示理解更好。儘管 LLMs 有助於增強病人參與,但仍需解決準確性和倫理問題,未來應專注於改善 AI 流程和遵循法規。 PubMed DOI

生成式人工智慧(GAI)技術,特別是大型語言模型(LLMs),在醫學領域的應用越來越普遍,尤其是在病人與臨床試驗配對方面。研究顯示,LLMs能有效匹配病人的健康紀錄與臨床試驗資格標準,並取得良好結果。雖然自動化配對有助於提升病人參與率和減輕醫療工作負擔,但也面臨挑戰,如可能帶來虛假希望、導航困難及需人類監督等問題。進一步研究對驗證LLM在腫瘤學中的安全性和有效性至關重要。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這篇研究發現,用GPT-4o等大型語言模型產生的子宮頸癌選擇題,品質和臨床醫師出的差不多,難易度也相近,臨床醫師不太能分辨題目來源。不過,醫師出的題目在高層次思考上還是比較強,專家也比較能分辨AI題目。總結來說,AI能有效輔助出題,但複雜題目還是需要專業醫師把關。 PubMed DOI