Capacity for large language model chatbots to aid in orthopedic management, research, and patient queries.
大型語言模型聊天機器人在骨科管理、研究和病人查詢中的應用能力。 J Orthop Res 2024-01-21

大型語言模型如ChatGPT在骨科領域扮演重要角色，能提供簡單易懂的醫療資訊給患者、醫生和研究人員。雖然ChatGPT在回答骨科問題上表現最好，但仍需留意回答可能不完整或過時的情況。未來應進一步研究LLM聊天機器人在骨科領域的應用挑戰和潛力。 PubMed DOI

Performance of ChatGPT Compared to Clinical Practice Guidelines in Making Informed Decisions for Lumbosacral Radicular Pain: A Cross-sectional Study.
ChatGPT 在做出腰骶神經根痛的知情決策上的表現：與臨床實踐指南比較的橫斷面研究。 J Orthop Sports Phys Ther 2024-03-01

這項研究比較了一個人工智慧聊天機器人對腰骶神經根痛的臨床指引所給出的答案。結果顯示，這個聊天機器人的答案與指引相比不一致且不準確。研究發現這個聊天機器人在提供準確建議方面表現不佳。 PubMed DOI

Analyzing Large Language Models' Responses to Common Lumbar Spine Fusion Surgery Questions: A Comparison Between ChatGPT and Bard.
分析大型語言模型對常見腰椎融合手術問題的回答：ChatGPT 和 Bard 的比較。 Neurospine 2024-07-02

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現，結果顯示兩者回答品質高，但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高，Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

Comparative Analysis of Artificial Intelligence Platforms: ChatGPT-3.5 and GoogleBard in Identifying Red Flags of Low Back Pain.
人工智慧平台的比較分析：ChatGPT-3.5 與 GoogleBard 在識別下背痛紅旗的表現。 Cureus 2024-08-01

下背痛（LBP）是一個常見的健康問題，可能隱藏著嚴重疾病的風險，這些疾病通常伴隨著「紅旗」症狀。本研究評估了ChatGPT-3.5和Google Bard在回答與紅旗相關的下背痛問題的準確性。共開發70個問題，結果顯示兩者在單一症狀和多重症狀的回答上都表現良好，且沒有顯著差異。AI系統能有效傳達病情的嚴重程度，顯示出其在健康資訊傳遞中的潛力，隨著技術進步，這一潛力將更為明顯。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2024-09-19

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，但風險因素的回答最不準確。整體可讀性被評為「相當困難」，平均得分為50.94。此外，70%-100%的回答都包含健康建議的免責聲明。研究建議，雖然LLM聊天機器人對病人教育有幫助，但準確性和可靠性可能因主題而異，影響病人理解。 PubMed DOI

Impact of artificial intelligence in managing musculoskeletal pathologies in physiatry: a qualitative observational study evaluating the potential use of ChatGPT versus Copilot for patient information and clinical advice on low back pain.
人工智慧在物理醫學中管理肌肉骨骼病理的影響：一項質性觀察研究評估 ChatGPT 與 Copilot 在低背痛患者資訊與臨床建議中的潛在使用。 J Yeungnam Med Sci 2024-11-29

這項研究評估了大型語言模型（LLMs），如ChatGPT和Copilot，對於低背痛（LBP）醫療建議的有效性。研究在蒙特利爾大學進行，針對27個常見問題進行回答，並由物理醫學科醫師評估其有效性、安全性和實用性。結果顯示，ChatGPT在有效性得分3.33，安全性3.19，實用性3.60；而Copilot則分別為3.18、3.13和3.57。臨床背景對結果影響不大，顯示LLMs在低背痛自我管理中具有可靠性，未來在病人照護中有潛力。 PubMed DOI

Assessing the readability, quality and reliability of responses produced by ChatGPT, Gemini, and Perplexity regarding most frequently asked keywords about low back pain.
評估 ChatGPT、Gemini 和 Perplexity 對於有關下背痛的最常見關鍵字所產生的回應的可讀性、質量和可靠性。 PeerJ 2025-01-27

這項研究分析了三款AI聊天機器人（ChatGPT、Perplexity和Gemini）在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字，評估這些機器人提供的資訊是否易懂且可靠。結果顯示，所有機器人的可讀性均高於六年級水平，表示資訊難以理解。Perplexity在質量評估中表現最佳，但整體而言，這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量，以更好地幫助患者。 PubMed DOI

Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

Readability, reliability and quality of responses generated by ChatGPT, gemini, and perplexity for the most frequently asked questions about pain.
ChatGPT、Gemini 和 Perplexity 對於最常見的疼痛相關問題所生成的回答的可讀性、可靠性和質量。 Medicine (Baltimore) 2025-03-18

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛，許多人會在就醫前尋找健康資訊。研究發現，這三款聊天機器人的可讀性均超過六年級水平，其中Gemini最佳。質量方面，Gemini得分較高，而Perplexity在可靠性評估中表現較好。總體來說，這些聊天機器人的回應難以閱讀，且可靠性和質量較低，無法取代專業醫療諮詢，建議改善可讀性並加強專家監督。 PubMed DOI

原始文章

站上相關主題文章列表