原始文章

這項研究評估了兩個AI聊天機器人,ChatGPT和ChatSonic,針對腹腔鏡修補腹股溝疝氣的問題所提供的回答質量。研究者提出十個問題,並由兩位外科醫生使用全球質量評分(GQS)和修改版的DISCERN評分來評估。結果顯示,ChatGPT的回答質量較高,獲得了良好的評分,而ChatSonic的表現稍遜。雖然兩者都有潛力,但在可靠性和質量上的不一致性,顯示在臨床使用前仍需進一步驗證。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個AI平台(Gemini和ChatGPT)對手部和手腕手術常見問題的回答質量。共提出12個問題,分析48個回答,使用三種評分工具進行評估。結果顯示,回答的平均分數為55.7(良好)、57.2%(足夠)和4.4。手腕相關問題的回答質量顯著高於手部問題,且Gemini在評分上優於ChatGPT。雖然AI的回答通常被評為良好,但質量因平台和問題類型而異,了解這些差異對病人尋求資訊至關重要。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

這項研究評估了ChatGPT在泌尿婦科手術知情同意方面的回答準確性與可讀性。五位專家醫師針對四種手術進行評估,結果顯示質量中等,DISCERN中位數評分為3,後恥骨中尿道吊帶得分最高。準確性方面,44%的回答被認為「正確且充分」,但也有不少回答含有誤導性或不正確的信息,特別是關於手術好處和替代方案。可讀性達到研究生水平,顯示在醫療環境中需對其輸出進行專業審查。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究探討了ChatGPT在回答頸椎手術常見問題的準確性與可靠性。研究中對ChatGPT-3.5提出20個問題,並進行三次提問,總共獲得60個回應。三位脊椎外科醫生根據準確性和實用性評分,結果顯示平均分數為3.17,66.7%的回應被評為「中等」質量。不過,測試的可靠性較低,顯示不同提問的回應質量不一致。總體來看,ChatGPT提供的答案雖然中等,但仍需進一步研究以提升其可靠性與準確性。 PubMed DOI

這項研究評估了 ChatGPT 4.0 在提供腹主動脈瘤(AAA)資訊的準確性,針對患者和醫生的問題進行了測試。結果顯示,對患者問題的平均準確度為 4.4,與血管外科學會(SVS)的指導方針一致性也不錯,平均評分為 4.2。不過,對於 AAA 破裂風險的問題,表現僅為中等,平均評分 3.4。整體來看,ChatGPT 4.0 在 AAA 資訊上表現良好,對患者教育和醫生知識提升有潛在幫助。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究評估了ChatGPT提供的腹主動脈瘤(AAA)資訊質量,並與澳洲健康指導(HDA)進行比較。研究發現,ChatGPT的回應臨床上適當,但可讀性較高,達到大學水平,而HDA則在10到12年級。雖然ChatGPT的回應通常更易理解,但可行性得分較低,且行動建議不夠明確。總體來看,ChatGPT可作為病人教育的工具,但需改進以提升其幫助病人做出知情決策的能力。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究比較ChatGPT-4o和Gemini 2.0 Flash在回答半月板撕裂常見問題的準確性。兩者回答句數和可驗證比例差不多。只用UpToDate驗證,約58%內容正確;加上期刊文章則提升到84%。兩款AI準確度沒顯著差異,但多元驗證來源能提升正確性。總結來說,AI可輔助骨科衛教,但還是無法取代醫師專業判斷。 PubMed DOI