OCR处理代码
import pytesseract
import CV2
# 读取图片img = CV2.imread('photo.jpg')
# 预处理图片gray = CV2.cvtColor(img, CV2.COLOR_BGR2GRAY) # 转为灰度图像blur = CV2.GaussianBlur(gray, (5,5), 0) # 高斯模糊平滑图像thresh = CV2.adaptiveThreshold(blur, 255, CV2.ADAPTIVE_THRESH_GAUSSIAN_C, CV2.THRESH_BINARY_INV, 11, 2) # 自适应阈值二值化图像
# OCR 处理去除噪点kernel = np.ones((3,3), np.uint8) erosion = CV2.erode(thresh, kernel, iterations=1) # 腐蚀操作去除噪点 dilation = CV2.dilate(erosion, kernel, iterations=1) # 膨胀操作保留字符特征
# 进行 OCR 识别text = pytesseract.image_to_string(dilation,)
# 输出结果print(text)```
此例中使用了 OpenCV 图像处理库进行图片预处理操作,包括灰度化、高斯模糊平滑、自适应阈值二值化等处理。然后使用 Tesseract OCR 库进行 OCR 处理,其中 `lang` 参数指定 OCR 识别时使用的语言,这里指定为中文。最后输出结果即可。使用 OCR 技术时可能需要进行多次实验调整,以获得最佳的处理结果。