File_get_contents() Разбивает символы UTF-8

Я загружаю HTML с внешнего сервера. HTML-разметка имеет кодировку UTF-8 и содержит символы, такие как ľ, š, č, ť, ž и т.д. Когда я загружаю HTML с файлом_get_contents() следующим образом:

Он испортил символы UTF-8 и загружает Å, ¾, ¤ и подобную ерунду вместо правильных символов UTF-8.

Я попытался сохранить HTML файл в файл и вывести его с кодировкой UTF-8. Оба не работают, поэтому означает, что file_get_contents() уже возвращает неработающий HTML.

Ответы

Ответ 1

Хорошо. Я обнаружил, что file_get_contents() не вызывает этой проблемы. Там другая причина, о которой я говорю в другом вопросе. Глупый я.

Смотрите этот вопрос: Почему DOM меняет кодировку?

Ответ 2

У меня была аналогичная проблема с польским языком

Я пробовал:

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'UTF-8', mb_detect_encoding($fileEndEnd, 'UTF-8', true));

Я пробовал:

$fileEndEnd = utf8_encode ( $fileEndEnd );

Я пробовал:

$fileEndEnd = iconv( "UTF-8", "UTF-8", $fileEndEnd );

И затем -

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'HTML-ENTITIES', "UTF-8");

Это последнее отлично работало!!!!!!

Ответ 3

Решение, предложенное в комментариях к ручному вводу PHP для file_get_contents

function file_get_contents_utf8($fn) {
     $content = file_get_contents($fn);
      return mb_convert_encoding($content, 'UTF-8',
          mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
}

Вы также можете попробовать свое счастье с помощью http://php.net/manual/en/function.mb-internal-encoding.php

Ответ 4

Я думаю, что у вас просто есть двойное преобразование типа символа: D

Это может быть так, потому что вы открыли html-документ в html-документе. Итак, у вас есть что-то похожее на это в конце

<!DOCTYPE html> 
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title></title>
</head>
<body>
<!DOCTYPE html> 
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>Test</title>.......

Поэтому использование mb_detect_encoding может привести к другим проблемам.

Ответ 5

Попробуйте это тоже

 $url = 'http://www.domain.com/';
    $html = file_get_contents($url);

    //Change encoding to UTF-8 from ISO-8859-1
    $html = iconv('UTF-8', 'ISO-8859-1//TRANSLIT', $html);

Ответ 6

На турецком языке mb_convert_encoding или любое другое преобразование набора символов не работает.

А также urlencode не работал из-за пространства char, преобразованного в + char. Он должен составлять %20 для кодирования процентов.

Это сработало!

   $url = rawurlencode($url);
   $url = str_replace("%3A", ":", $url);
   $url = str_replace("%2F", "/", $url);

   $data = file_get_contents($url);

Ответ 7

Я работаю с 35000 строками данных.

$f=fopen("veri1.txt","r");
$i=0;
while(!feof($f)){
    $i++;
    $line=mb_convert_encoding(fgets($f), 'HTML-ENTITIES', "UTF-8");
    echo $line;
}

Этот код преобразует мои странные символы в нормальное.

Ответ 8

Пример:

$string = file_get_contents(".../File.txt");
$string = mb_convert_encoding($string, 'UTF-8', "ISO-8859-1");
echo $string;

Ответ 9

У меня была похожая проблема, которая решила ее html_entity_decode.

Мой код:

$content = file_get_contents("http://example.com/fr");
$x = new SimpleXMLElement($content);
foreach($x->channel->item as $entry) {
    $subEntry = html_entity_decode($entry->description);
}

Здесь я получаю XML файл (на французском языке), поэтому я использую эту переменную объекта $ x. И только тогда я декодирую его в эту переменную $subEntry.

Я попробовал mb_convert_encoding, но это не сработало для меня.