原始文章

這篇文章探討了人工智慧語言模型,特別是ChatGPT和ChatSonic在醫療領域的應用,針對病人高血壓問題進行比較。研究使用全球質量評估標準和修訂版DISCERN量表,於2023年10月進行,持續一個月,向兩個AI模型提出十個高血壓相關問題,並由兩位內科醫師評估其回應。結果顯示回應質量和可靠性有差異,評估者之間共識程度低,強調在醫療環境中持續監控和驗證AI資訊的重要性。 PubMed DOI


站上相關主題文章列表

醫師評估了ChatGPT生成的醫學問題答案的準確性和完整性,發現準確性表現不錯,但完整性稍有不足。模型在各種難度問題中的表現有所差異,但整體表現仍然不錯。重新評估後,得分較低的問題有改善。雖然ChatGPT提供的資訊大多正確,但仍需進一步研究和模型開發,以確保在醫學領域的驗證。 PubMed DOI

ChatGPT-4是新的AI聊天機器人,可以回答複雜問題,或許可應用在醫療保健領域。研究者使用EQIP工具評估了ChatGPT-4提供的5種HPB條件醫學資訊的可靠性,結果顯示與指南建議一致。ChatGPT-4的答案內部一致性與靜態網路資訊相當,顯示大型語言模型像ChatGPT可能成為未來查詢醫學資訊的標準。 PubMed DOI

這項研究評估了ChatGPT使用DISCERN工具評估關於勃起功能障礙的衝擊波治療的線上內容的質量和易讀性的能力。結果顯示ChatGPT的評估與已建立的工具和人類評估者之間存在差異,顯示其目前能力的局限性。需要進一步研究探索人工智慧在客觀評估線上醫學內容中的角色。 PubMed DOI

研究探討ChatGPT在提供心血管疾病健康建議的能力,發現回應品質不一,甚至有危險的不正確情況。使用人工智慧提供健康建議可能加劇健康不平等,增加醫療系統壓力。 PubMed DOI

高血壓若控制不當,可能導致嚴重健康問題。許多人難以保持正常血壓。網路醫療資訊需區分真假。生成式人工智慧(GeAI)在健康資訊上廣泛應用,但需注意錯誤資訊。研究發現ChatGPT在高血壓資訊中92.5%準確,可信度達93%。GeAI潛力大,但仍需進一步研究確保醫療可靠性。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在教育患者心臟影像方面的表現。結果顯示,在三次聊天中,ChatGPT-4在正確性和一致性方面優於ChatGPT-3.5。兩者都有超過一半問題回答正確,但仍需改進才能在教育患者心臟影像上更有效。 PubMed DOI

研究使用Google Forms問卷調查30位醫師對房顫的看法,並將問題輸入ChatGPT系統。結果顯示大部分回答被評為「優秀」或「非常好」,顯示AI在臨床回應上有潛力。研究指出ChatGPT是有效的房顫資訊來源,但也提到更新不頻繁和道德考量等問題。總結來說,強調AI在醫療領域扮演的重要角色。 PubMed DOI

這項研究評估了ChatGPT在回應泌尿科病人訊息的有效性,結果顯示其回應中有47%適合用於病人溝通。分析指出,對於簡單問題,56%的回應被認為可接受;但對於較複雜的問題,只有34%被認可。評估標準包括準確性、完整性、有幫助性、可理解性及潛在傷害。總體來看,雖然ChatGPT能協助管理病人訊息,減輕醫療團隊負擔,但表現會因問題複雜度而異。隨著技術進步,預期其回應品質會進一步提升。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

這項研究評估了四款人工智慧聊天機器人對心肺復甦術(CPR)的回應質量,包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題,獲得400個回應,並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示,所有機器人的回應可讀性均超過六年級,其中Bard最佳,ChatGPT-3.5最難閱讀。研究指出,提升病人教育材料的質量和可讀性,可能有助於提高理解能力及病人存活率。 PubMed DOI