LLM 相關三個月內文章 / 第 23 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

最近的研究顯示,像 ChatGPT 這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE)。本研究評估了不同版本的 ChatGPT(GPT-3.5、GPT-4 和 GPT-4 Omni)在醫學學科及臨床技能方面的表現。結果顯示,GPT-4 Omni 的準確率最高,達到90.4%,明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力,但也強調需要結構化課程來指導其整合及持續評估。 相關文章 PubMed DOI

在影像美學計算(IAC)領域,傳統方法多依賴ImageNet的預訓練模型,常忽略影像美學的整體概念,導致評估效果不佳。為了解決這個問題,我們提出了一個新框架,透過多模態和多屬性對比學習,提供更佳的替代方案。 這個框架包含兩大要素:首先,建立一個結合人類反饋的多屬性影像描述資料庫,利用大型語言模型生成美學描述;其次,將影像視覺特徵與文本特徵結合,實施多屬性對比學習,深化對美學的理解。 我們的實驗顯示,這個新框架在IAC任務中表現優異,相關資源將在 https://github.com/yipoh/AesNet 提供。 相關文章 PubMed DOI

這項研究探討招生委員會如何從重視認知測量轉向更全面的審查,並重視非認知技能。研究評估了使用人工智慧,特別是OpenAI的ChatGPT,來評分申請者論文的有效性,並與人類評分進行比較。結果顯示,人類評分者間的一致性較低,而機器評分則較高,且兩者與認知測量的相關性都不強。機器評分的精確度和一致性明顯優於人類評分,這顯示若能妥善實施,機器評分可能提升招生質量。 相關文章 PubMed DOI

這項研究評估了ChatGPT在回答「住院醫師訓練發展考試」問題的表現,並與眼科住院醫師進行比較。ChatGPT回答75個問題中正確37個,成功率53.62%。不同主題表現差異大,晶狀體與白內障準確率最高(77.77%),小兒眼科與斜視最低(0.00%)。789名住院醫師整體準確率50.37%,隨年級提升而增加。ChatGPT在住院醫師中排名第292位,且隨問題難度增加準確率下降。其回答可讀性較低,顯示內容難以理解。總體來看,ChatGPT表現不如三年級住院醫師,但未來可能隨數據增多而改善。 相關文章 PubMed DOI

這項研究評估了ChatGPT-3.5與美國耳鼻喉科醫學會(AAO-HNS)提供的喉科病人資訊的可讀性與質量。使用了Flesch-Kincaid年級水平、Flesch可讀性指數、DISCERN及PEMAT-P等工具進行分析。結果顯示,ChatGPT生成的資料可讀性較低,閱讀年級高出AAO-HNS兩級,但在資訊質量上兩者差異不大。總體來看,AAO-HNS的資料更易理解,而資訊質量則相當。 相關文章 PubMed DOI

這項研究評估了兩款人工智慧應用程式,ChatGPT-4 和 Copilot,對缺牙治療的回答準確性與品質。研究者從 Quora 收集了十五個問題,並請兩位專家醫師評估這些回答。結果顯示,ChatGPT-4 的準確性得分為 3.93,稍高於 Copilot 的 3.83;在品質方面,ChatGPT-4 的 GQS 得分為 3.9,也優於 Copilot 的 3.83。研究結論指出,這兩款 AI 聊天機器人對缺牙治療的回答具高度準確性,顯示其在牙科護理中的潛力。 相關文章 PubMed DOI

這項研究評估了GPT-4O在識別異常血細胞形態的表現,結果顯示其準確率為70%,遠低於血液科醫生的95.42%。在外周血塗片中,GPT-4O的準確率為77.14%,但在骨髓塗片中僅為62.86%。雖然它能識別某些內含物,但對於碎裂紅血球的分類及細胞內顆粒的識別仍有困難。總體來看,GPT-4O目前尚不及人類專家,未來需改進算法並擴大數據集,以提升診斷準確性。 相關文章 PubMed DOI

這項研究探討數位智慧如何改變翻譯教育,並運用文獻計量學和內容分析。研究分析翻譯訓練方法的演變,特別是AI、ChatGPT、大型語言模型和5G技術的應用。主要發現指出,數位工具能提升學生的參與度和技能發展,但也面臨數據質量、技術依賴和倫理標準等挑戰。研究強調需發展先進的訓練平台和策略,以促進師生互動並維護學術誠信,並指出持續創新的重要性,以培養未來翻譯人員的能力。 相關文章 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在冠狀動脈再血管化決策建議的有效性,與多學科心臟團隊的建議進行比較。研究分析了86個案例,結果顯示ChatGPT-4的準確率達82%,而ChatGPT-3.5為67%。特別是在左主幹病變、三血管病變和糖尿病患者中,ChatGPT-4的準確率超過90%。研究建議,像ChatGPT-4這樣的語言模型可作為臨床決策支持的有價值工具,尤其對特定病人群體。 相關文章 PubMed DOI

這項研究評估了ChatGPT(GPT-4o)新加入的視覺輸入功能,主要用來識別藥物並提供病人教育。結果顯示,GPT-4o能成功辨識20種藥物,甚至在模糊情況下也能準確提供活性成分和劑量,書面回應的評分平均為3.55分(滿分4分)。不過,視覺輸出部分的錯誤率高,得分僅1.5分,可能對病人造成風險。總體來看,GPT-4o在藥物識別上表現優異,但視覺輸出仍需改進。 相關文章 PubMed DOI