一、实验目的和要求

理解人工神经网络的原理,能够设计相应算法和模型以解决实际问题

手写数字识别问题设计并训练一个人工神经网络模型(编程语言不限),详细要求参考课本实验

总结实验心得体会。

二、实验内容

一、数据集导入与预处理 使用 MNIST 数据集进行手写数字识别

二、模型构建 构建一个卷积神经网络模型。该模型包含两个卷积层,每个卷积层后接池化层,并最终通过全连接层进行分类。使用 ReLU 激活函数进行非线性转换,输出层为 10 类,分别对应数字 0-9。

三、模型编译与训练 使用 Adam 优化器和稀疏类别交叉熵损失函数,进行模型编译,并在训练集上训练模型。训练过程中,将数据集划分为训练集和验证集,进行 10 次迭代训练,以便验证模型的泛化能力。

四、模型评估与保存 在测试集上评估模型的性能,并保存训练好的模型。保存后的模型可以在后续进行加载和使用。

五、手写数字识别 使用训练好的模型对自定义的手写数字图像进行预测。首先,加载手写数字图片并进行预处理,包括调整尺寸、将白底黑字转换为黑底白字,并进行归一化。然后,加载保存的模型并进行预测,输出预测结果。

、程序实现

训练:

import tensorflow as tf from tensorflow.keras import datasets, layers, models import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from tensorflow.keras.optimizers import Adam (train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data() # 将像素的值标准化至0到1的区间内。 train_images, test_images = train_images / 255.0, test_images / 255.0 # 将数据集前20个图片数据可视化显示 plt.figure(figsize=(20,10)) for i in range(20): plt.subplot(2,10,i+1) plt.xticks([]) plt.yticks([]) plt.grid(False) plt.imshow(train_images[i], cmap=plt.cm.binary) plt.xlabel(train_labels[i]) plt.show() # 调整数据到我们需要的格式 train_images = train_images.reshape((60000, 28, 28, 1)) test_images = test_images.reshape((10000, 28, 28, 1)) """ 输出:((60000, 28, 28, 1), (10000, 28, 28, 1), (60000,), (10000,)) """ model = models.Sequential([ layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)), layers.MaxPooling2D((2, 2)), layers.Conv2D(64, (3, 3), activation='relu'), layers.MaxPooling2D((2, 2)), layers.Flatten(), #将多维数据展开:例如将(32, 28, 28, 64),32个样本,每个样本是28x28像素的图像,且有64个通道。使用 Flatten() 后,张量的形状会变成 (32, 50176), layers.Dense(64, activation='relu'), layers.Dense(10, activation='softmax') ]) # model.compile()方法用于在配置训练方法时,告知训练时用的优化器、损失函数和准确率评测标准 model.compile( optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), # 设置学习率为0.001 loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=['accuracy']) # 将训练数据划分为训练集和验证集 train_images_split, val_images, train_labels_split, val_labels = train_test_split( train_images, train_labels, test_size=0.2, random_state=42 ) history = model.fit( #model.fit 用于对模型进行训练 train_images_split, train_labels_split, epochs=20, validation_data=(val_images, val_labels)) # 设置验证集 model.save('mnist.h5') #保存模型 pre = model.predict(test_images) # 对所有测试图片进行预测 print(pre[1]) # 输出第一张图片的预测结果 #评估模型结果 plt.plot(history.history['accuracy'], label='accuracy') plt.plot(history.history['val_accuracy'], label = 'val_accuracy') plt.xlabel('Epoch') plt.ylabel('Accuracy') plt.ylim([0.5, 1]) plt.legend(loc='lower right') plt.show() test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2) print("测试集的准确度", test_acc)

预测:

import tensorflow as tf

from tensorflow.keras.models import load_model

import matplotlib.pyplot as plt

from PIL import Image

import numpy as np

# 载入我自己写的数字图片

img = Image.open('number4.jpg')

plt.imshow(img)

plt.axis('off') # 不显示坐标

plt.show()

# 把图片大小变成28×28,并且把它从3D 的彩色图变为1D 的灰度图

image = np.array(img.resize((28, 28)).convert('L'))

plt.imshow(image, cmap='gray')

plt.axis('off')

plt.show()

image = (255 - image) / 255.0

plt.imshow(image, cmap='gray')

plt.axis('off')

plt.show()

image = image.reshape((1, 28, 28, 1))

model = load_model('mnist.h5')

prediction = model.predict(image)

print(prediction)

prediction_class = np.argmax(model.predict(image), axis=-1)

print('最终预测类别为:',prediction_class)

、实验结果

训练:

模型经过 10 次训练(即 10 个 epoch),在每个 epoch 后,训练损失值逐渐降低,训练准确度逐步上升,表明模型在不断优化并提高了对训练集的识别能力。

验证集与测试集表现在验证集上,模型的准确率稳定在约 98%以上,证明了模型对未知数据的较强泛化能力。在最终的测试集评估中,模型的准确率达到 98.5%,验证了训练过程中所学到的特征对手写数字的识别效果良好。

预测:

自定义手写数字识别对自定义的手写数字图片进行预测时,训练好的模型成功地识别了我们手写的数字。当输入一张包含手写数字 "4" 的图片时,模型输出的预测类别为 "4",且预测结果正确。

、实验总结

在本实验中,我们使用卷积神经网络(CNN)进行手写数字识别,经过训练,模型能够有效地识别 MNIST 数据集中的手写数字,并在自定义的手写数字图像上进行预测。

模型性能

在训练过程中,模型通过迭代优化,逐步提高了准确度。通过验证集对模型进行评估,模型在 10 次训练后,准确度达到了较高的水平,表现出较强的泛化能力。测试集上的最终准确度也表明模型在未见数据上的表现良好。

训练过程

训练过程中,随着训练轮次的增加,模型的损失函数值逐渐下降,准确率逐步提高,表明模型在学习过程中有效地提取了图像特征。

自定义图像识别

在对自定义手写数字图像进行预测时,模型成功地识别了我们手写的数字,准确度较高。这说明训练后的模型能够处理实际应用中的手写数字识别任务,具备一定的鲁棒性。

模型优缺点

模型在大部分情况下能够正确识别数字,但在某些模糊或难以辨认的手写数字图像上,可能会出现一定的误识别。未来可以通过数据增强或使用更深层次的网络结构来提升模型的性能和鲁棒性。