原始文章

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現,GPT-4和放射腫瘤科醫生的回答質量最高,但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本,但常常提供過於簡化的答案。整體來看,GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源,雖然使用GPT-3.5時需謹慎,因為它可能產生不足的回答。 PubMed DOI


站上相關主題文章列表

機器學習和自然語言處理技術進步,如ChatGPT,能提供自然語言回應和知識查詢。研究發現ChatGPT在放射線治療問題上表現良好,但仍有一致性挑戰。LLMs未來將對社會和臨床實踐產生更大影響,尤其在放射腫瘤學領域。 PubMed DOI

LLMs在放射腫瘤學患者溝通方面有潛力,但需要進一步研究。一項評估顯示LLM在正確性、完整性和簡潔性方面表現良好,並幾乎沒有危害風險。儘管LLM的回應水準高,仍需進行再訓練,但對放射腫瘤學等醫學領域的患者查詢有價值。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究評估大型語言模型(LLMs)在提供前列腺癌放射治療病人教育的有效性,並納入臨床醫生和病人的反饋。研究中針對六個常見問題,評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示,雖然所有模型的回答被認為相關且正確,但可讀性較差。病人對ChatGPT-4的評價較高,認為其回答易懂且有信心。整體而言,LLMs在病人教育上有潛力,但準確性和可讀性仍需改進,未來需進一步研究以提升其效益。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題,測試了五個LLM,包括OpenAI o1-preview和GPT-4o等。結果顯示,所有模型的表現達到專家水準,o1-preview在某些情況下甚至超越醫學物理學家。不過,當正確答案被移除時,模型表現明顯下降,顯示需改進。透過解釋優先和逐步提示的方式,LLaMA 3.1等模型的推理能力有所增強,顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這項研究發現,GPT-4在回答放射治療常見問題時,比GPT-3.5表現更好,但兩者的回答對一般人來說還是太難懂,也有可能出現錯誤資訊。建議在正式用於病人前,還需要加強內容的易讀性和正確性。 PubMed DOI