原始文章

這項研究評估了八個免費的大型語言模型(LLM)在回答慢性新生兒肺病(CNLD)和居家氧氣治療(HOT)問題上的表現。共整理了二十個問題,並由三位新生兒科醫生評估這些模型的回應準確性。結果顯示,Bing Chat和Claude 3.5 Sonnet表現最佳,更新的模型如ChatGPT-4o mini和Gemini 2.0 Flash Experimental也表現不錯。雖然這些模型在提供資訊上有潛力,但仍需專家監督以避免錯誤資訊。 PubMed DOI


站上相關主題文章列表

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

對於早產兒視網膜病變(ROP)相關問題,經評估後發現ChatGPT-4表現最好,回答最準確可靠;BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜,但提供詳盡可信賴的回答。總括而言,這些模型通常提供正確資訊。 PubMed DOI

這項研究評估了ChatGPT在提供先天性異常資訊的有效性,針對四種病症進行分析。研究人員提出28個常見問題,並將ChatGPT的回答與三家小兒醫學中心的信息進行比較。結果顯示,ChatGPT在準確性、全面性和簡潔性上表現優於線上資料,但其回答的閱讀時間較長且較為複雜。總體來看,ChatGPT在提供詳細資訊方面表現出色,建議進一步探討其對父母的實際應用。 PubMed DOI

這項研究評估了ChatGPT在小兒重症監護病房(PICU)中,對父母問題的回應品質。研究針對三位不同病況的病人,檢視八個常見問題的回答。六位醫師根據準確性、完整性、同理心和可理解性進行評估。結果顯示,ChatGPT的回應普遍高品質,準確性和同理心得分均為5.0,且97%的問題得到完整回答。研究顯示,ChatGPT能有效融入病人特異性資訊,顯示其在醫療溝通中的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究評估了幾種大型語言模型(LLM)聊天機器人的表現,包括ChatGPT、Writesonic、Google Bard和Bing Chat,針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示,ChatGPT在準確性和全面性上表現最佳,得分3.35(滿分4分),而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險,顯示信息安全可靠。研究強調LLM在眼科的潛力,但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示,Claude 3.5 Sonnet 答案最準確,特別適合專業醫師提問;Gemini 1.5 Pro 則在家長提問時最容易理解。不過,所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型,確保醫療資訊正確可靠。 PubMed DOI