Comparative analysis of automatic gender detection from names: evaluating the stability and performance of ChatGPT <i>versus</i> Namsor, and Gender-API.
自動性別檢測名稱的比較分析：評估 ChatGPT 與 Namsor 和 Gender-API 的穩定性和性能。 PeerJ Comput Sci 2024-12-09

這篇論文評估了 ChatGPT 3.5 Turbo 和 ChatGPT 4 在根據姓名進行性別分類的效果，並與兩個流行的性別檢測工具 Namsor 和 Gender-API 進行比較。研究使用了 5,779 條記錄的數據集，結果顯示 ChatGPT 的準確率超過 96%，比 GDTs 高出約 3%。此外，ChatGPT 在未分類方面表現也很優秀，成為性別推斷的強大替代方案。雖然 ChatGPT 在多個指標上超越了傳統工具，但 Namsor 和 Gender-API 仍具研究價值，顯示生成語言模型在性別檢測中的潛力。 PubMed DOI

Fine-Tuning Large Language Models for Specialized Use Cases.
針對專門使用案例微調大型語言模型。 Mayo Clin Proc Digit Health 2025-04-10

大型語言模型（LLMs）是先進的人工智慧系統，透過預測單詞序列來生成文本，改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM，以適應特定任務或領域。這篇評論探討了微調的各種方法，概述了一般步驟，並提供醫學子專科的例子，最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

Detection and classification of ChatGPT-generated content using deep transformer models.
使用深度 Transformer 模型偵測與分類 ChatGPT 生成內容 Front Artif Intell 2025-04-21

這項研究建立了一個結合人類和 ChatGPT 生成文本的資料集，訓練多種機器學習模型來偵測 AI 內容。以 Transformer 架構、特別是自訂 RoBERTa 模型，能有效分辨 AI 與人類文本（F1 分數 0.992，準確率 0.991），為 AI 文字偵測提供強力基準。未來建議擴展到其他 AI 來源並持續優化偵測技術。 PubMed DOI

Complementing but Not Replacing: Comparing the Impacts of GPT-4 and Native-Speaker Interaction on Chinese L2 Writing Outcomes.
互補而非取代：比較GPT-4與母語者互動對中文第二語言寫作成果的影響 Behav Sci (Basel) 2025-04-26

這項研究發現，中文母語者在寫英文前，和真人夥伴討論比用GPT-4或沒討論，寫作表現更好。兩種互動都能增加主題熟悉度、信心，減少困難感。建議GPT-4可當輔助工具，但不能取代真人夥伴。 PubMed DOI

Exploring ChatGPT's potential for augmenting post-editing in machine translation across multiple domains: challenges and opportunities.
探索 ChatGPT 在多領域機器翻譯後編輯增強上的潛力：挑戰與機會 Front Artif Intell 2025-05-16

這項研究發現，ChatGPT-4o在阿拉伯語翻譯後編輯上效率高、流暢度也不輸專業人類，但遇到複雜語法、成語或專業術語時表現較弱。整體來說，ChatGPT-4o能提升翻譯生產力，是輔助人類翻譯者的好幫手。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

Bridging language gaps: The role of NLP and speech recognition in oral english instruction.
跨越語言鴻溝：NLP 與語音辨識在英語口說教學中的角色 MethodsX 2025-06-06

本研究開發了一套結合語音辨識、NLP文本分析和唇部動作偵測的即時英語口說學習系統，能針對發音和流暢度給予個人化回饋。系統準確率高達97.5%，明顯優於現有模型，並具備即時回饋和強大處理口音變異的能力，大幅提升英語口說學習的效果與個人化體驗。 PubMed DOI

Assessing Large Language Models for Medical Question Answering in Portuguese: Open-Source Versus Closed-Source Approaches.
葡萄牙語醫學問答中大型語言模型的評估：開源與封閉源方法之比較 Cureus 2025-06-16

這項研究比較 GPT-4o 和 LLaMA 3.1 405B 在葡萄牙語醫學考題的表現，發現 GPT-4o 的正確率普遍高出 7–11%，尤其在 chain-of-thought 提示下表現最佳。兩者在小兒科表現較好，外科和精神科較差。GPT-4o 的答案分布較穩定，LLaMA 3.1 則有偏誤。整體來說，封閉原始碼模型目前表現較佳，但開放原始碼模型未來有機會追上。 PubMed DOI

Designing AI-powered translation education tools: a framework for parallel sentence generation using SauLTC and LLMs.
AI 驅動翻譯教育工具的設計：結合 SauLTC 與 LLMs 進行平行句生成的框架 PeerJ Comput Sci 2025-06-26

翻譯教學很花時間，但AI工具能自動化重複工作。現在缺乏阿拉伯語相關資料集，這項研究用GPT把SauLTC轉成平行語料庫，方便教學。用餘弦相似度和人工評估檢查品質，發現LaBSE加GPT的組合相似度最高，達85.2%，顯示AI很有潛力協助翻譯教學資源建置。 PubMed DOI

Evaluating Large Language Models in Ptosis-Related inquiries: A Cross-Lingual Study.
重語言模型於Ptosis相關問題的評估：一項跨語言研究 Transl Vis Sci Technol 2025-07-16

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現，發現GPT-4o在英文回答最優，Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢，但臨床應用前還需更多驗證和調整，顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI

原始文章

站上相關主題文章列表