TensorFlow训练报错：ResourceExhaustedError: OOM when allocating tensor device:GPU:0 by allocator GPU_0_b

使用TensorFlow训练某些较大模型时会发生内存溢出，如果已经安装了TensorFlow-GPU版本，训练时会优先调用GPU版本的TensorFlow，而一般电脑上显存比较小，很容易发生溢出，就会出现如下报错：ResourceExhaustedError: OOM when allocating tensor with shape[1024,728,1,1] and type float o

bigcindy

13315人浏览 · 2020-07-11 18:19:34

bigcindy · 2020-07-11 18:19:34 发布

使用TensorFlow训练某些较大模型时会发生内存溢出，如果已经安装了TensorFlow-GPU版本，训练时会优先调用GPU版本的TensorFlow，而一般电脑上显存比较小，很容易发生溢出，就会出现如下报错：

ResourceExhaustedError: OOM when allocating tensor with shape[1024,728,1,1] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [[node model/block13_sepconv2/separable_conv2d (defined at <ipython-input-41-425b3e9b7078>:11) ]] Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info. [Op:__inference_train_function_41706] Function call stack: train_function

ResourceExhaustedError:  OOM when allocating tensor with shape[1024,728,1,1] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
	 [[node model/block13_sepconv2/separable_conv2d (defined at <ipython-input-41-425b3e9b7078>:11) ]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.
 [Op:__inference_train_function_41706]

Function call stack:
train_function

解决方案：

1. 尝试使用CPU进行训练，将model.fit()代码做如下修改：

with tf.device("/cpu:0"):
    history = model.fit(替换成自己的代码)

输出：

Epoch 1/50
21/86 [======>.......................] - ETA: 16:08 - loss: 0.4574 - accuracy: 0.8438

这样就可以使用CPU进行训练了。

2. 如果是在jupyter notebook中运行代码，则尝试先运行下面的代码：

tf.keras.backend.clear_session()

如果在notebook中运行了很多代码，则会占用一定的内存，上面的代码顾名思义就是清楚掉之前运行的一些session，以释放空间。

3. 如果还是不行，则只能修改代码，将批次数batch_size改小一些，每次给模型喂入小批量的数据。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

开源成为金融领域创新发展的新动力引擎

开放原子开发者工作坊

开源成为推动城市数字化转型的核心动力

城市，不仅是人们工作与生活的基本载体，更是承载着亿万人民的希望与梦想。近年来，我国智慧城市建设如火如荼，开源技术的深度融合为其发展注入了新的活力。在民生、环保、公共安全、城市服务等多个领域，开源技术的应用不仅为民众带来了切实的便捷，而且促进了政府决策的科学化，显著提升了城市综合治理能力。

开放原子开发者工作坊

OpenLoong项目通过技术监督委员会（TOC）评审

开放原子开发者工作坊

所有评论(0)

查看更多评论

bigcindy

@Jwenxue

已为社区贡献7条内容