原始文章

這項研究評估大型語言模型(LLMs)在教育接受莫氏微創手術(MMS)患者的有效性。專家小組分析了兩個LLM生成的回應及Google搜尋結果。結果顯示,大多數LLM的回應適當,75%被評為大致準確,但只有33%足以用於臨床。回應的可理解性相當於10年級,可能影響患者理解。總體來看,雖然LLMs是有用的資訊來源,但皮膚科醫生應注意這些工具在臨床應用上的限制。 PubMed DOI


站上相關主題文章列表

研究比較了患者對風濕病問題的大型語言模型(LLM)聊天機器人和醫師回答的評價。結果顯示,患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同,患者更難分辨AI生成的答案。總結來說,患者對AI回答的看法與醫師相似,但風濕病專家則認為AI回答表現較差。 PubMed DOI

研究發現,ChatGPT 3.5在回答年長者問題時表現最好,尤其是對於技術性問題。儘管對於黃斑部病變(AMD)提供了準確資訊,但仍有進步空間,特別是在處理更專業的問題上。 PubMed DOI

大型語言模型如BARD、BingAI和ChatGPT-4正被運用在醫療領域,提供醫學資訊和指導。研究顯示,ChatGPT在黑色素瘤臨床指南方面表現較佳,但所有模型仍有限制。未來研究應該著重整合專業數據和專家知識,以提升模型性能,更好地支援患者護理。 PubMed DOI

研究發現大型語言模型(LLMs)如ChatGPT-3.5、GPT-4、DermGPT和DocsGPT在製作皮膚科患者教育資料(PEMs)方面表現良好,能提供易讀易懂的資訊,且大多數情況下準確無誤。其中,GPT-4在常見和罕見疾病的解釋上表現優秀,而ChatGPT-3.5和DocsGPT在罕見疾病的說明方面更為出色。總結來說,LLMs對於提升健康知識和提供易懂的PEMs具有潛力。 PubMed DOI

研究發現大型語言模型(LLMs)像Anthropic的Claude 2在手術前回應病人問題時表現優異,比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示,這兩個模型對於一些常見問題的回答大多準確,如子宮頸癌篩檢和 BRCA 相關問題。然而,面對更複雜的案例時,它們的表現較差,常缺乏對地區指導方針的了解。儘管如此,這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出,LLMs 雖無法取代專業醫療建議,但可作為輔助工具,提供資訊和支持。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究評估了一個公開的人工智慧大型語言模型(LLM)在回答模擬病人關於美學乳房整形手術問題的表現。專家根據準確性、全面性等標準評分,總體得分為7.3分,乳房增大7.0分、乳房懸吊術7.6分、乳房縮小手術7.4分,對乳房植入物的知識得分為6.7分。儘管有些限制,研究顯示AI LLM可成為病人教育的有用工具,並可能隨著機器學習進步而改善。 PubMed DOI