本发明提供一种基于非易失内存的深度神经网络checkpoint优化系统以及方法,通过客户端模块以及服务端模块在深度神经网络训练开始前将对应的网络结构注册在非易失内存中,并创建数据索引和基于远程直接内存访问(RDMA)的数据通信协议;并且在神经网络训练过程中,本发明提供了零拷贝、异步、端到端的神经网络数据持久化,使得用户可以在不影响训练速度的前提下做细粒度的checkpointing以保证容错性和数据持久性。
上海科技大学
殷树 | 吴天元 | 李元皓

近15亿!第十届上交会圆满闭幕,“技术转移专区”意向合作金额创新高!
2024年6月12日





