Чтение текстового файла без UTF-8 в Go

Мне нужно прочитать текстовый файл, закодированный в GBK. Стандартная библиотека в языке программирования Go предполагает, что весь текст кодируется в UTF-8.

Как читать файлы в других кодировках?

Ответы

Ответ 1

Ранее (как упоминалось в более старом ответе) "легкий" способ сделать это включал использование сторонних пакетов, которые нуждались в cgo и завернули библиотеку iconv. Это нежелательно по многим причинам. К счастью, в течение довольно долгого времени теперь существует превосходный способ Go для этого, используя только пакеты, предоставленные Go Authors (не в основном наборе пакетов, а в Go Sub- Хранилища).

Пакет golang.org/x/text/encoding определяет интерфейс для общих кодировок символов, которые могут конвертироваться в/из UTF-8. Подпакет golang.org/x/text/encoding/simplifiedchinese обеспечивает GB18030, GBK и HZ-GB2312.

Вот пример чтения и записи файла с кодировкой GBK. Обратите внимание, что io.Reader и io.Writer делают кодировку "на лету", поскольку данные считываются/записываются.

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

// Encoding to use. Since this implements the encoding.Encoding
// interface from golang.org/x/text/encoding you can trivially
// change this out for any of the other implemented encoders,
// e.g. `traditionalchinese.Big5`, `charmap.Windows1252`,
// `korean.EUCKR`, etc.
var enc = simplifiedchinese.GBK

func main() {
    const filename = "example_GBK_file"
    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    // Read UTF-8 from a GBK encoded file.
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }
    r := transform.NewReader(f, enc.NewDecoder())

    // Read converted UTF-8 from `r` as needed.
    // As an example we'll read line-by-line showing what was read:
    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Bytes())
    }
    if err = sc.Err(); err != nil {
        log.Fatal(err)
    }

    if err = f.Close(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    // Write UTF-8 to a GBK encoded file.
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }
    w := transform.NewWriter(f, enc.NewEncoder())

    // Write UTF-8 to `w` as desired.
    // As an example we'll write some text from the Wikipedia
    // GBK page that includes Chinese.
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }

    if err = f.Close(); err != nil {
        log.Fatal(err)
    }
}