原始文章

這項研究評估了AI模型在回應英語和阿拉伯語的傳染病問題上的表現,強調多語言環境中獲得準確資訊的公平性。研究比較了ChatGPT-3.5、ChatGPT-4、Bing和Bard在15個與HIV/AIDS、結核病等疾病相關問題上的表現。結果顯示,AI在英語的表現明顯優於阿拉伯語,Bard得分最高。雖然阿拉伯語表現較低,但未達統計顯著性。研究指出,AI在英語的完整性和準確性優於阿拉伯語,建議開發者應改善阿拉伯語使用者的健康資訊獲取。 PubMed DOI


站上相關主題文章列表

肝硬化在阿拉伯國家日益嚴重。ChatGPT被測試在阿拉伯語和英語回答肝硬化問題。專家評分顯示,在阿拉伯語回答通常準確但有時不夠詳盡,有時錯誤。阿拉伯語回答準確性比英語低。ChatGPT或許對阿拉伯語使用者有幫助,但不能取代專業醫療。需進一步研究提升準確性,造福全球患者。 PubMed DOI

研究比較四個大型語言模型對牙科問題的回答,發現ChatGPT-4表現最好,但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力,但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考,並進一步研究如何安全地應用語言模型在牙科實務上,同時呼籲監管措施以監督技術使用。 PubMed DOI

全球醫療需求增加,尤其在亞非拉地區,資源不均。人工智慧如OpenAI的ChatGPT可改善醫療,但需注意專業、隱私和語言偏見。實驗顯示ChatGPT在中國醫學考試表現優異,對中英文問題回答準確。研究強調解決語言偏見,重視醫療研究,尤其在資源有限情況下。 PubMed DOI

研究用ChatGPT簡化放射學報告並翻譯成西班牙語、印地語和俄語,比較表現。西班牙語翻譯最準確完整,印地語表現最差。所有翻譯解釋醫學術語不如英語。俄語完整性較差,西班牙語和俄語與英語差異不大。排印錯誤影響翻譯。ChatGPT展現準確翻譯潛力,需更多訓練。此技術可改善醫療取得與降低成本。 PubMed DOI

研究比較了ChatGPT在英文和日文對麻醉學問題的回應品質,英文回答在準確性、全面性、安全性、理解力、同理心和道德等方面優於日文。結果顯示不同語言的人工智慧表現有差異,強調改善少數語言的醫療人工智慧回應的重要性。 PubMed DOI

這項研究探討了AI聊天機器人提供的醫療資訊,特別是針對子宮內膜癌輔助治療的建議。研究分析了來自印尼、奈及利亞、台灣和美國的四個地區,以及Bard、Bing和ChatGPT-3.5三個平台的回應。結果顯示,不同地區的回應質量差異顯著,Bing在奈及利亞的表現最佳。Bard在各地的整體得分也高於其他平台。這些結果顯示AI生成的醫療資訊質量受地區和平台影響,需進一步研究以確保資訊的可靠性。 PubMed DOI

慢性乙型肝炎(CHB)在全球造成重大挑戰,尤其在中國等高盛行率地區。本研究探討AI助手ChatGPT-3.5在CHB管理中的潛力,特別是其提供個性化醫療諮詢的能力。研究發現,ChatGPT-4.0在資訊量和一致性上表現優於3.5,準確率達93.3%。然而,兩者在情感管理上表現不佳,需改進。研究建議針對情感管理進行專門訓練,並進一步探討免責聲明對病人經驗的影響。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4 和 Gemini,在回答病毒學多選題的表現,涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性,結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini,英語正確率分別為 80% 和 62.5%,阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳,結果顯示人工智慧在醫療教育中的潛力,並強調了提升多語言有效性的必要性。 PubMed DOI