LLM 相關三個月內文章 / 第 90 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 相關文章 PubMed DOI

這項研究評估了牙槽骨移植相關的病人教育材料(PEMs),發現其可讀性超過美國醫學會建議的六年級水平,平均為8.0。理解度接近可接受標準,但可行性得分偏低。使用ChatGPT重新編寫後,可讀性顯著改善,降至6.1。結果顯示,雖然目前的PEMs未達建議標準,但人工智慧工具如ChatGPT能提升可及性。未來研究應著重改善這些材料的可行性。 相關文章 PubMed DOI

這項研究評估了ChatGPT-4在生成骨科疾病治療建議的有效性,並與美國骨科醫學會的指導方針及醫師計畫進行比較。主要發現包括: 1. ChatGPT-4的建議與AAOS指導方針一致性達90%。 2. 與主治醫師的建議一致性為78%。 3. 在骨折及關節炎案例中表現優異,但腕管綜合症表現不佳。 4. 不一致主要出現在腕管綜合症及其他特定損傷。 5. 雖然ChatGPT-4能提供準確建議,但在考量患者特定因素時仍需醫師的批判性評估。 總之,ChatGPT-4在骨科治療中具輔助潛力,但需專業監督。 相關文章 PubMed DOI

這項研究比較了兩種大型語言模型(LLMs),Gemini 和 GPTs,在乳腺癌患者的 PET/CT 報告中提取數據和生成結構化報告的表現。研究涵蓋131名患者,發現 GPTs 在數據挖掘上準確率更高,特別是原發病灶(89.6% vs. 53.8%)和轉移病灶(96.3% vs. 89.6%)。此外,GPTs 在疾病進展決策和語義相似度上也優於 Gemini。整體來看,GPTs 在臨床應用中顯示出更高的潛力。研究使用多種統計方法驗證結果,數據可向通訊作者索取。 相關文章 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 相關文章 PubMed DOI

AI和機器學習在肩膀和肘部手術等領域的應用迅速增加,顯示出提升診斷準確性和降低成本的潛力。不過,使用AI進行研究和寫作也帶來了內容準確性、版權和抄襲等問題的擔憂。研究指出,即使是資深外科醫生也難以辨識AI生成的內容,而AI檢測工具的效果較好。因此,在學術工作中整合AI時,必須謹慎,以維護學術的完整性和可靠性。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,在數位影像與醫學通訊(DICOM)伺服器中,根據美國醫學物理學會TG-263標準重新標記結構名稱的應用。研究針對前列腺、頭頸部和胸腔三個疾病部位,選取150名患者進行調整,50名患者用於評估。結果顯示高準確率,前列腺97.2%、頭頸部98.3%和胸腔97.1%。研究顯示GPT-4能有效標準化放射腫瘤學中的結構名稱,顯示其在該領域的潛力。 相關文章 PubMed DOI

這項研究探討了人們對生成式人工智慧的看法,特別是在社會和個人挑戰建議方面。共招募3,308名美國參與者,結果顯示: 1. **能力認知**:當知道建議來自AI時,人們常會貶低AI的能力,但不會貶低建議內容。 2. **挑戰建議**:在社會和個人挑戰中,這種貶低現象一致出現。 3. **偏好AI建議**:若過去對AI建議有正面經驗,個人更傾向於尋求AI的建議。 這反映出人們對AI的理解和信任,尤其在良好互動後。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 相關文章 PubMed DOI

這項研究評估大型語言模型(LLMs)在從科學文獻中提取生態數據的表現,並與人類審稿人進行比較。結果顯示,LLMs提取相關數據的速度超過50倍,對於離散和類別數據的準確率超過90%。不過,它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率,但仍需額外的質量保證措施來確保數據的完整性。 相關文章 PubMed DOI