原始文章

這項研究開發了一個聊天機器人,目的是協助從全人口基因篩檢中獲得正面結果,並運用大型語言模型。隨著基因檢測需求上升,這項研究希望透過科技創新來解決專家短缺的問題。 聊天機器人透過三步驟的提示工程創建,並在兩個假設情境中進行評估,專家們根據五點量表對八個標準進行打分。結果顯示,總分為3.88,語調和可用性最佳(各4.25分),但程式準確性最低(3.25分)。未來研究將專注於改進提示和設計混合型聊天機器人,以提升基因服務的品質。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在回答遺傳疾病問題上表現不錯,但對於人類遺傳模式理解仍有限制和不準確之處。這顯示人工智慧如ChatGPT在基因組學上有潛力,但必須受到監督以確保醫學資訊的正確傳遞。 PubMed DOI

大型語言模型如ChatGPT和Bard被運用在醫學領域,幫忙放射學報告翻譯和研究論文起草。研究發現,這些模型在臨床決策中使用美國放射學院適當性標準時表現相似,但ChatGPT在提供提示方面稍微比Bard好。提示工程技術可提高模型準確性,但在提供提示方面則沒有太大改善。LLMs在臨床決策有潛力,尤其是有良好提示的情況下。進一步研究不同臨床環境下的影響仍然很重要。 PubMed DOI

研究比較了GPT-4和GPT-3.5在提供基因資訊上的表現,尤其針對BRCA1、HFE和MLH1基因。結果顯示GPT-4準確度較高,但仍有錯誤。回應相關性有差異,整體上是正面的。在疾病方面表現則無明顯差異。研究指出GPT-4在基因教育上有潛力,但也提到資訊過時等挑戰。在醫療資訊傳遞中需平衡技術創新與道德責任。 PubMed DOI

一項研究評估了聊天機器人ChatGPT在卵巢癌管理方面的表現,並與國家綜合癌症網絡(NCCN)的指引進行比較。研究生成了10個問題,涵蓋風險因素、手術及醫療管理等。結果顯示,NCCN的準確且完整回答為48%,未提示的GPT為64%,經過提示的GPT為66%。GPT-4在風險因素和手術管理上表現優於NCCN,但在醫療管理上較弱。雖然不準確回答比例低,但使用聊天機器人時仍需謹慎。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了ChatGPT在回答結腸直腸癌篩檢問題的有效性,旨在提升病患的認知與遵循篩檢計畫的意願。研究中,專家和非專家對ChatGPT的回答進行評分,結果顯示專家對準確性的評分為4.8(滿分6分),而完整性則較低,為2.1(滿分3分)。病患對回答的評價則普遍正面,認為其完整性、可理解性和可信度高達97-100%。整體而言,ChatGPT在提供CRC篩檢資訊上表現良好,顯示出提升病患認知的潛力。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在識別遺傳疾病時的表現,對比了開源模型(如Llama-2-chat和Vicuna)與封閉源模型(如ChatGPT-4)。結果顯示,開源模型的準確率在54%-68%之間,而ChatGPT-4則高達89%-90%。研究還指出,臨床醫生和一般民眾的提問對模型表現有顯著影響,且使用列表型提示能提升準確性。整體而言,這項研究揭示了LLMs在醫療領域的潛力與挑戰。 PubMed DOI

這項研究探討了提示工程對大型語言模型(LLM),特別是GPT-4,在醫療提供者回應病人詢問時的影響。研究持續8個月,參與者有27位醫療提供者,主要評估LLM生成訊息的使用情況及提供者的情感變化。 結果顯示,7605條訊息中僅17.5%被使用,負面情感顯著減少,但整體使用量卻下降。隨著護士的加入,使用量提升至35.8%。雖然提示工程改善了內容質量,但整合LLM進工作流程仍面臨挑戰,未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

這項研究評估了ChatGPT 3.5在提供乳癌資訊的有效性。研究人員提出20個常見問題,並根據準確性、臨床一致性和可讀性進行評估。結果顯示,平均準確性得分為1.88,臨床一致性得分為2.79,回答平均字數為310字,但可讀性較差,Flesch Kincaid指數為37.9。研究發現,24%的回答是錯誤的,41%的回答缺乏真實參考文獻,建議病患在依賴ChatGPT獲取醫療資訊時要特別謹慎。 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI