Golang图像处理:学习如何进行图片的边缘增强和文本提取

Golang图像处理:学习如何进行图片的边缘增强和文本提取

在当今互联网时代,图像处理作为一种重要的应用技术越来越受到人们的关注。Golang作为一个高效的编程语言,也在图像处理领域中表现出色。本文将重点介绍如何使用Golang进行图片的边缘增强和文本提取,让读者更好地了解Golang在图像处理方面的应用。

1. 图像边缘增强

图像边缘增强是图像处理中的一种非常重要的技术,在很多领域都有广泛的应用。边缘增强可以使图像中的边缘更加清晰,从而方便进行下一步的处理。下面我们将介绍如何使用Golang进行图像边缘增强。

1.1 图像卷积

图像卷积是图像处理中的一种常用技术,可以用于图像边缘增强、图像去噪等操作。图像卷积可以将一个图像矩阵与一个卷积核进行卷积操作,从而将卷积核中的信息“卷”到图像矩阵中。下面是一个简单的卷积核:

kernel := image.Kernel{

{0, -1, 0},

{-1, 5, -1},

{0, -1, 0},

}

上面的卷积核可以对图像进行边缘增强操作。在Golang中,可以通过 image 包中的 Convolve 函数对图像进行卷积操作,示例代码如下所示:

import (

"image"

"image/draw"

"image/jpeg"

"os"

)

func main() {

// 读取图片

imgFile, err := os.Open("test.jpg")

if err != nil {

panic(err)

}

defer imgFile.Close()

img, err := jpeg.Decode(imgFile)

if err != nil {

panic(err)

}

// 创建一个卷积核

kernel := image.Kernel{

{0, -1, 0},

{-1, 5, -1},

{0, -1, 0},

}

// 对图像进行卷积

imgBound := img.Bounds()

output := image.NewRGBA(imgBound)

draw.Draw(output, imgBound, img, image.Pt(0, 0), draw.Src)

draw.Draw(output, imgBound, img, imgBound.Min, draw.Src)

Convolve(output, kernel)

// 保存输出图片

outputFile, err := os.Create("output.jpg")

if err != nil {

panic(err)

}

defer outputFile.Close()

err = jpeg.Encode(outputFile, output, nil)

if err != nil {

panic(err)

}

}

1.2 Sobel算子

Sobel算子是一种常用的图像边缘检测算法,可以用于图像边缘增强。Sobel算子可以将一幅图像中的水平和垂直边缘检测出来,并将其合成为一幅图像。下面是Sobel算子的代码示例:

gx := image.Kernel{

{-1, 0, 1},

{-2, 0, 2},

{-1, 0, 1},

}

gy := image.Kernel{

{-1, -2, -1},

{0, 0, 0},

{1, 2, 1},

}

output1 := image.NewRGBA(imgBound)

draw.Draw(output1, imgBound, img, imgBound.Min, draw.Src)

Convolve(output1, gx)

output2 := image.NewRGBA(imgBound)

draw.Draw(output2, imgBound, img, imgBound.Min, draw.Src)

Convolve(output2, gy)

output := image.NewRGBA(imgBound)

for y := 0; y < imgBound.Max.Y; y++ {

for x := 0; x < imgBound.Max.X; x++ {

g1 := output1.GrayAt(x, y).Y

g2 := output2.GrayAt(x, y).Y

val := sqrt(float64(g1)*float64(g1) + float64(g2)*float64(g2))

output.Set(x, y, color.Gray{uint8(val)})

}

}

以上示例代码可以对图片进行Sobel算子处理,得到一张增强边缘的图片。

2. 文本提取

在很多场景中,需要从一张图片中提取出文本信息,例如OCR技术。本节将介绍如何使用Golang对图片中的文本信息进行提取。

2.1 二值化处理

为了方便对图片中的文本进行提取,需要先将图片进行二值化处理。二值化处理可以将一张彩色图片转化为灰度图片,并将灰度值大于某个阈值的像素点设为白色,小于阈值的像素点设为黑色。下面是一段对图片进行二值化处理的代码:

func Binarize(img *image.RGBA) {

imgBound := img.Bounds()

var sum uint32

for y := 0; y < imgBound.Max.Y; y++ {

for x := 0; x < imgBound.Max.X; x++ {

r, g, b, _ := img.At(x, y).RGBA()

gray := 0.299*float64(r) + 0.587*float64(g) + 0.114*float64(b)

sum += uint32(gray)

}

}

mean := sum / uint32(imgBound.Max.X*imgBound.Max.Y)

for y := 0; y < imgBound.Max.Y; y++ {

for x := 0; x < imgBound.Max.X; x++ {

r, g, b, _ := img.At(x, y).RGBA()

gray := 0.299*float64(r) + 0.587*float64(g) + 0.114*float64(b)

if gray > float64(mean) {

img.Set(x, y, color.White)

} else {

img.Set(x, y, color.Black)

}

}

}

}

以上代码可以将一张彩色图片转化为二值化图片,使得后续的文字提取更加便捷。

2.2 文本框定位

文本框定位是指将图片中的文本框定位出来,以便进行后续的文字识别等操作。在Golang中,可以使用 GoCV 库中的 MSER 算法对图片中的文本进行框定位。下面是一个对图片进行文本框定位的示例代码:

import (

"gocv.io/x/gocv"

"image"

)

func main() {

// 读取图片

imgFile, err := os.Open("test.jpg")

if err != nil {

panic(err)

}

defer imgFile.Close()

img, err := jpeg.Decode(imgFile)

if err != nil {

panic(err)

}

// 转换为灰度图

grayImg := gocv.NewMatFromBytes(img.Bounds().Max.X, img.Bounds().Max.Y, gocv.MatTypeCV8UC1, img.Pix)

// 使用MSER算法定位文本框

mser := gocv.NewMSER()

defer mser.Close()

regions := mser.DetectRegions(grayImg)

boxes := mser.ConvertToRectangles(regions)

// 在图片上画出文本框

output := image.NewRGBA(img.Bounds())

draw.Draw(output, img.Bounds(), img, img.Bounds().Min, draw.Src)

for _, box := range boxes {

rect := image.Rect(box.X, box.Y, box.X+box.Width, box.Y+box.Height)

draw.Draw(output, rect, &image.Uniform{color.White}, image.ZP, draw.Src)

}

// 保存输出图片

outputFile, err := os.Create("output.jpg")

if err != nil {

panic(err)

}

defer outputFile.Close()

err = jpeg.Encode(outputFile, output, nil)

if err != nil {

panic(err)

}

}

以上代码可以将一张图片中的文本框进行定位,方便后续的文字提取操作。

2.3 文本提取

文本提取是指从图片中提取出文本信息。在对图片进行二值化处理和文本框定位之后,可以使用 Tesseract OCR 引擎对文本进行提取。Tesseract OCR 引擎是一个优秀的开源OCR引擎,可以用于多种语言的OCR识别。下面是一个使用 Tesseract OCR 引擎进行文本提取的示例代码:

import (

"fmt"

"github.com/otiai10/gosseract"

"image"

"image/draw"

"os"

)

func main() {

// 读取图片

imgFile, err := os.Open("test.jpg")

if err != nil {

panic(err)

}

defer imgFile.Close()

img, err := jpeg.Decode(imgFile)

if err != nil {

panic(err)

}

// 转换为灰度图

grayImg := gocv.NewMatFromBytes(img.Bounds().Max.X, img.Bounds().Max.Y, gocv.MatTypeCV8UC1, img.Pix)

// 使用MSER算法定位文本框

mser := gocv.NewMSER()

defer mser.Close()

regions := mser.DetectRegions(grayImg)

boxes := mser.ConvertToRectangles(regions)

// 在图片上画出文本框

output := image.NewRGBA(img.Bounds())

draw.Draw(output, img.Bounds(), img, img.Bounds().Min, draw.Src)

for _, box := range boxes {

rect := image.Rect(box.X, box.Y, box.X+box.Width, box.Y+box.Height)

draw.Draw(output, rect, &image.Uniform{color.White}, image.ZP, draw.Src)

// 对文本框进行OCR识别

tess := gosseract.NewClient()

defer tess.Close()

tess.SetImageFromBytes(img.Pix)

tess.SetRectangle(box.X, box.Y, box.Width, box.Height)

text, _ := tess.Text()

fmt.Println(text)

}

// 保存输出图片

outputFile, err := os.Create("output.jpg")

if err != nil {

panic(err)

}

defer outputFile.Close()

err = jpeg.Encode(outputFile, output, nil)

if err != nil {

panic(err)

}

}

以上示例代码可以对一张图片进行文本提取,输出图片中的所有文本信息。

总结

本文介绍了如何使用Golang进行图像边缘增强和文本提取,涉及到了图像卷积、Sobel算子、二值化处理、文本框定位和OCR识别等技术。这些技术在图像处理领域中非常常见,有助于读者深入了解Golang在图像处理方面的应用。

后端开发标签