Paediatric rare diseases: Can large language models assist off-label prescribing?

兒科罕見疾病：大型語言模型能協助非適應症用藥處方嗎？

<think> 嗯，好的，我现在要分析这个PubMed的研究，题目是“Paediatric rare diseases: Can large language models assist off-label prescribing?”首先，我需要理解研究的目的和假设。看摘要，他们评估大型语言模型在检索和综合生物医学信息方面的有效性和可靠性，用于支持儿科罕见病的非标记用药。他们还比较了这些模型与人类编写的参考文献在科学依据、不良事件和药物相互作用方面的表现。研究目的很明确，就是看LLMs能不能帮助医生在儿科罕见病中开具非标记药物。假设应该是LLMs能够有效地检索和综合信息，可能在某些方面表现优于或至少不逊色于人类。接下来，研究方法方面，他们用了四个LLMs，处理20个病例，每个模型回答了科学依据、不良事件和药物相互作用的问题。评价指标包括敏感度、精确度、准确度、F1分数、响应质量和参考质量。看起来方法挺全面的，但可能有局限。比如，是否每个模型都使用相同的查询方式？是否有足够的样本量？20个病例可能不算很多，可能影响结果的普适性。然后，结果部分显示LLMs在参考质量上有时超过人类，但整体结果存在变异性，特别是在不同模型之间。GPT-4o表现最好，而Scopus AI可能不如。接下来，数據解釋方面，研究结果支持LLMs在某些方面的有效性，但也指出存在变异性，这可能挑战了假设，即并非所有LLMs都表现出色。存在解釋上的偏差吗？可能在于模型的训练数据和算法差异，导致表现不同。另外，研究可能没有考虑到查询的复杂性和上下文的影响。局限性方面，样本量小、模型数量有限、可能存在偏见的数据集、人类参考的质量可能不一。未來研究可能需要更大樣本、更多模型，以及更全面的評估指標。临床应用方面，LLMs可以加速信息检索，但仍需人类监督，确保数据准确性。其他观点，可能LLMs在特定任务上表现优异，但在复杂临床决策中仍需医生判断。或者，不同的LLMs优化方向不同，导致在某些任务上更擅长。此外，研究可能忽略了用户的查询技巧对结果的影响，不同的查询方式可能影响LLM的表现。总结一下，这个研究展示了LLMs在支持非标记用药中的潜力，但也强调了人类监督的重要性。未来研究需要更深入地探讨这些模型的优化方向和临床应用的可靠性。 </think> ### 1. 研究目的與假設這項研究旨在評估大型語言模型（LLMs）在檢索和綜合生物醫學資訊方面的有效性和可靠性，特別是在支持兒科罕見病的非標記藥物處方方面。研究假設LLMs能夠有效地檢索和綜合相關資訊，並在科學依據、不良事件和藥物相互作用方面的表現不亞於甚至優於人類編寫的參考資料。 **引用摘要：** 「evaluate the effectiveness and reliability of large language models (LLMs) in retrieving and synthesizing biomedical information to support off-label drug prescribing in paediatric rare diseases, and to compare their performance with human-authored references in terms of scientific rationale, adverse events and drug interactions.」 ### 2. 方法與設計研究採用了四種LLMs（GPT-4o、Sophos-2、Claude-3、Scopus AI）來評估其在檢索和綜合生物醫學資訊方面的能力。研究團隊回顧了20個兒科罕見病的非標記藥物處方案例，並針對科學依據、不良事件和藥物相互作用等方面提出詢問。評估指標包括敏感度、精確度、準確度、F1分數、響應質量和參考質量，並整合所有指標計算出一個全局績效分數。 **引用摘要：** 「The study reviewed 20 cases of off-label prescriptions in rare paediatric diseases using 4 LLMs (i.e., GPT-4o, Sophos-2, Claude-3, Scopus AI). The queries addressed focused on scientific rationale, adverse events and drug interactions. The performance measures encompassed sensitivity, precision, accuracy, F1-score, response quality and reference quality. A Global Performance Score integrated all measures.」 **優點與潛在缺陷：** - **優點：** - 採用多種LLMs進行比較，能夠全面評估其表現。 - 評估指標多樣化，涵蓋了敏感度、精確度等多個方面，能夠更全面地評估LLMs的能力。 - **潛在缺陷：** - 樣本量（20個案例）可能較小，可能影響結果的普適性。 - 研究未明確说明人類編寫的參考資料的具體來源和質量，可能影響比較的公平性。 ### 3. 數據解釋與結果研究結果顯示，四種LLMs在全局績效分數上存在顯著差異（P=0.001），其中GPT-4o的表現優於Scopus AI。LLMs在參考質量方面的中位數往往超過人類表現，但變異性限制了對其優勢的結論。LLMs能夠檢索和綜合生物醫學資訊，但其表現會根據詢問類型和搜索模式有所不同。 **引用摘要：** 「After evaluating 2758 references and 480 responses, a significant discrepancy was found among 4 LLMs concerning Global Performance Score (P = .001). Posthoc analysis showed that Scopus AI vs. GPT-4o comparison was significant, with GPT-4o showing higher values. Median LLM reference quality often surpassed human performance, yet variability limits conclusions regarding superiority. LLMs are capable of retrieving and synthesizing biomedical information, but performance varies depending on query type and search mode.」 **結果如何支撐或挑戰假設：** - **支撐假設：** - LLMs在檢索和綜合生物醫學資訊方面展現出一定的能力，特別是在參考質量方面的中位數超過人類表現。 - GPT-4o的優異表現證明了LLMs在特定任務上可能優於人類。 - **挑戰假設：** - LLMs的表現存在變異性，某些模型（如Scopus AI）可能不如其他模型，顯示LLMs的能力並非在所有情境下都一致。 - 人類監督仍然是確保數據準確性和可靠性的關鍵，LLMs並不能完全取代人類專家。 ### 4. 局限性與偏見 **局限性：** - 樣本量較小（20個案例），可能影響結果的普適性。 - 研究僅評估了四種LLMs，未能涵蓋所有可能的LLMs。 - 人類編寫的參考資料的質量未明确说明，可能影響比較的公平性。 **未考慮到的偏見或變數：** - LLMs的訓練數據可能存在偏見，影響其在特定任務上的表現。 - 人類專家的判斷可能存在主觀偏差，影響評估結果。 ### 5. 臨床及未來研究意涵 **臨床意涵：** - LLMs可以加速檢索相關資訊，幫助醫生快速評估非標記藥物的適當性，但仍需人類監督以確保數據的準確性和可靠性。 **未來研究建議：** - 增加樣本量和評估的LLMs種類，以提高結果的普適性。 - 探討LLMs在不同詢問類型和搜索模式下的表現差異。 - 開發更全面的評估指標，以更好地評估LLMs的能力和局限性。 ### 6. 其他觀點 **其他可能的解釋或觀點：** - LLMs的表現差異可能與其訓練數據和演算法有關。例如，GPT-4o可能在生物醫學領域的訓練數據更為豐富，導致其表現優於其他模型。 - LLMs在特定任務上的優勢可能源於其強大的數據檢索和綜合能力，但在複雜的臨床決策中，仍需醫生的專業判斷以確保決策的安全性和有效性。 **推理過程：** - LLMs的優勢在於其能夠快速檢索和綜合大量資訊，但在面對複雜的臨床情境時，仍需人類專家的判斷和驗證。 - 不同LLMs的表現差異可能源於其設計目標和訓練數據的不同，因此在未來研究中，需更深入地探討LLMs的設計和訓練對其表現的影響。 ### 總結這項研究展示了LLMs在支持兒科罕見病非標記藥物處方中的潛力，但也強調了人類監督的重要性。未來研究需進一步探討LLMs的設計、訓練和評估，以提高其在臨床應用中的可靠性和有效性。