原始文章

研究發現,結合RAG技術的生成式AI在回答FDA指引問題時,GPT-4 Turbo表現最佳,約34%答案完全正確且有幫助,36%正確,17%部分正確,13%有錯誤。系統約九成能引用正確來源。雖然能加快查找速度,但因仍有錯誤風險,建議優化提示詞和系統設定,才能更安心依賴AI提供法規建議。 PubMed DOI


站上相關主題文章列表

生成式人工智慧系統如ChatGPT在臨床環境中對治療物質使用障礙(SUDs)有潛力。本研究探討其在回答相關問題的有效性,透過線上康復論壇收集提問,並使用ChatGPT和Meta的LLaMA-2生成回應。雖然臨床醫師評價這些回應為高品質,但研究中發現了一些危險的錯誤資訊,如忽略自殺意念和提供不正確的求助熱線。這些結果顯示在醫療環境中使用此類人工智慧的風險,強調需進一步保障措施和臨床驗證。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現,重點在準確性和上下文敏感性。結果顯示,這些模型通常能提供準確的健康資訊,但回應存在變異,有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分,研究強調需謹慎驗證資訊,以降低錯誤風險,並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

最近在人工智慧(AI)領域,特別是大型語言模型(LLMs)如GPT-3.5和GPT-4,顯示出在醫療應用上的潛力。本研究探討將這些模型整合進良好實踐(GxP)驗證系統的可行性,重點在效能和可重複性。研究比較外部和內部託管的模型在命名實體識別(NER)和關係提取的表現,發現Zephyr-7b-beta模型在少樣本學習中表現優於GPT-3.5。儘管GPT-4的表現不錯,但在可重複性上仍有挑戰,建議利用GPT模型生成註釋提案作為微調訓練數據的基礎。 PubMed DOI

最近的研究顯示,透過大型語言模型(LLMs)在急性肝衰竭(ALF)問題上的表現,特別是使用增強檢索生成(RAG)技術的ChatGPT 4,顯示出顯著的優勢。研究中評估了五個模型,結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳,得分分別為4.70、4.89和4.78。相比之下,其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力,但也指出其需持續進化以符合實際需求。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題,GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示,99%的參與者認為回應易懂,84%認為信息詳細,93%表示滿意,96%認為醫學準確。不過,只有63%認為信息完整,顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具,結合即時藥理數據庫,以提升臨床決策的準確性。 PubMed DOI

這項研究探討了基於GPT-4的檢索增強生成(RAG)模型在術前評估中的有效性。研究測試了十個大型語言模型,生成超過3,200個回應,並與近450個人類答案進行比較。結果顯示,使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%,明顯高於人類的86.6%,且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI

這篇研究發現,像 ChatGPT 這類大型語言模型在產生疾病、藥物和基因相關知識時,準確率很高,但在症狀相關詞彙上表現較差,主要因為症狀描述較口語化。此外,模型產生的 ID 常有錯誤或重複。整體來說,LLMs 若小心使用,對生醫領域還是有幫助,未來可透過 RAG 等方法提升可靠性。 PubMed DOI