MarParPred:一款基于机器学习的出色网络应用程序,用于预测海洋鱼类中多寄生虫疾病的风险

摘要

　　在养殖经济价值较高的海洋鱼类（如大黄鲈鱼Larimichthys crocea）的过程中，隐核虫病、贝德尼虫病和锥虫病等疾病的爆发较为常见，其预防和控制成本较高。这凸显了进行准确和及时风险预测的迫切需求。为应对这些挑战，本研究将三种寄生虫病的历史监测数据与Copernicus海洋和气象再分析产品相结合。研究提取了可能与疾病发生相关的11个环境因素（如水温、盐度和溶解氧）。开发了五种机器学习模型来预测疾病风险。根据机器学习累积性能得分（MLcps），ANN和XGBoost模型在三种寄生虫病预测任务中的表现总体更优（MLcps：0.90 - 0.94）。随后使用网箱养殖场数据的验证证实，ANN和XGBoost模型保持了较高的准确性（准确率：0.867 - 0.933）。分组比较显示，高盐度、高温、低溶解氧和高养殖密度与寄生虫病的发生有关。基于上述结果，本研究使用R Shiny开发了MarParPred早期预警平台（https://chauncy.shinyapps.io/MarParPred/），该平台集成了自动化环境数据检索、风险可视化、风险预测以及基于AI的问答模块，以提供与寄生虫相关的知识支持。它为水产养殖作业提供了从数据采集到风险评估和管理决策的全面支持，为寄生虫病的精准控制和水产养殖的可持续发展提供了实用的技术框架。

引言

　　水产养殖是全球水生动物生产的主要来源，约89%的水产品直接供人类消费（联合国粮食及农业组织，2024年），也是世界上增长最快的食品产业之一（Garlock等人，2020年）。然而，虽然高密度、集约化的水产养殖提高了生产效率，但水交换往往受到限制。在这种条件下，过度喂食和废物积累可能导致富营养化以及溶解氧（DO）下降（Edwards，2015年）。这不仅削弱了宿主的免疫和屏障功能（Jia等人，2016年），还为寄生虫和其他病原体的繁殖和传播创造了更有利的生态环境（Patz等人，2000年）。高密度养殖增加了宿主之间的接触频率，从而加速了病原体的传播并导致疾病爆发（Murray，2009年）。在这种背景下，环境恶化和病原体压力的综合效应对养殖生产的稳定性和可持续性构成了潜在风险（Okon等人，2024年）。

　　在海洋水产养殖中，由于寄生虫病的早期症状不明显、传播迅速且治疗选择有限，这些问题仍然十分突出（Buchmann，2022年）。特别是Cryptocaryon irritans、Benedenia属和Trypanosoma属是导致中国东南沿海网箱养殖严重问题的三大寄生虫病原体。C. irritans和Benedenia属是体外寄生虫（Dan等人，2006年；Sharp等人，2004年），而Trypanosoma属是寄生于鱼血液中的血鞭毛虫（Zhou、Xu等人，2024年）。尽管这三种寄生虫的致病机制不同，但它们具有共同特征，包括对环境的强依赖性、爆发动态快以及预防和控制的难度大（Yin等人，2023年；Li等人，2021年）。然而，水产养殖中的寄生虫病监测仍主要依赖于人工观察和显微镜检查（Dong等人，2023年）。这些方法劳动强度大且耗时，可能无法完全满足现代养殖对早期预警和快速响应的需求（Lin等人，2026年）。特别是当发现寄生虫或临床症状时，疾病爆发往往已经发生（Zhou、Xie等人，2024年），常常导致高死亡率和巨大的经济损失。

　　近年来，随着多源监测数据和再分析产品的不断积累，疾病预测进入了新的“数据驱动”阶段。例如，国家渔业技术推广中心（NFTEC）维护的智能渔业技术综合信息服务平台（IFT-CISP）记录了主要养殖区域的寄生虫病发病率和流行病学趋势（中国渔业学会国家渔业技术推广中心，2025年）。这些数据集为未来的疾病风险预测奠定了坚实的基础。同时，Copernicus海洋和气象再分析产品提供了关键环境变量（如海温、盐度和硝酸盐）的长期、空间广泛的时间序列数据，有助于跨空间和时间的寄生虫病风险预测（Brando等人，2024年）。在这种背景下，机器学习因其处理高维度、多源和非线性数据的能力而成为开发疾病早期预警系统的强大工具（Hu等人，2025年）。

　　在水产养殖疾病预测中，研究人员基于水质参数、临床症状和历史记录探索了一系列机器学习模型。例如，使用RF（随机森林）和卡方自动交互检测器（CHAID）算法开发了一种预测对虾白斑综合征的模型，该模型在测试阶段的准确率为98.28%（Edeh等人，2022年）。另一项研究使用SVM（支持向量机）和基于水理化学变量的随机蕨类植物模型建立了鱼类养殖场疾病爆发分类模型，两种分类器的准确率均为100%（?akir等人，2023年）。

　　但当前的研究仍存在一些局限性。首先，现有研究主要集中在基于图像或表型特征的疾病识别上，这些方法主要用于可见症状出现后的诊断。然而，在疾病发展的早期阶段，视觉特征往往还不明显，因此这些方法不足以用于早期预警（Li等人，2022年）。其次，即使基于环境因素的预测模型也大多针对单一病原体或特定情景，其在不同水产养殖物种和复杂环境条件下的泛化能力仍然有限。第三，从应用角度来看，大多数研究仍处于算法比较或离线验证阶段。缺乏将预测结果与可视化展示、风险解释和实际管理支持相结合的交互式工具，这在一定程度上限制了这些方法在水产养殖一线管理中的应用（Yang等人，2025年）。

　　为了解决这些局限性，本研究聚焦于两个相互关联的目标。首先是考察常规监测记录和环境再分析数据是否能够支持海洋水产养殖中多种寄生虫病的早期预警。其次是在此基础上进一步开发一个可用于实际水产养殖实践的风险可视化和决策支持平台。为实现这些目标，我们将Copernicus海洋再分析数据与水产养殖监测记录相结合，并开发了隐核虫病、贝德尼虫病和锥虫病的预测模型。这样做是为了评估在不依赖昂贵传感器或高频采样的情况下进行短期风险预警的可行性。基于模型验证，我们进一步开发了一个基于Shiny的可视化平台MarParPred，用于模型部署、风险展示和交互式支持。该平台为海洋水产养殖中寄生虫病的早期预警和管理提供了方法论框架和实际基础。

数据来源

　　本研究使用的水产养殖数据来自IFT-CISP，它汇总了全国各站的监测信息，时间跨度为2017年至2025年。共收集了660条记录，包括192例隐核虫病、60例贝德尼虫病、76例锥虫病和332例健康记录。监测站点主要分布在中国东南沿海的水产养殖带，涵盖浙江、福建等地区的沿海水域。

数据概览

　　为了描述数据集的时空特征，我们绘制了从IFT-CISP获得的记录的采样位置（图5）。监测站点分布在中国东南沿海的主要水产养殖省份，包括浙江、福建、广东和广西。其中，浙江和福建的沿海地区占总样本量的62.4%，这些地区代表了中国海洋养殖监测工作较为集中的区域。

讨论

　　本研究实现了并比较了五种常用的机器学习模型，包括LR、SVM、RF、ANN和XGBoost。结果表明，XGBoost和RF的整体性能更为稳定，而SVM和LR在复杂环境关系下的表现较弱。从算法角度来看，XGBoost和RF是具有强大非线性建模能力和内在特征选择能力的集成学习方法，有助于减少过拟合（Sánchez等人，2025年）。

结论

　　本研究表明，基于常规监测记录和环境数据的机器学习方法可以有效支持海洋水产养殖中寄生虫病的早期预警。与以往的研究相比，本工作在三个方面做出了贡献：首先，它为三种寄生虫病建立了预测框架，更好地反映了可能同时发生或出现的多种寄生虫病的实际养殖场景。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号