olamedia / nokogiri

HTML parser for PHP - Парсер HTML

Home Page:http://olamedia.github.com/nokogiri/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Установка кодировки

visavi opened this issue · comments

Подскажите как можно установить кодировку документа самостоятельно
если в html не указана кодировка, то nokogiri неверно отображает слова
к примеру при парсинге страницы https://games.mail.ru/pc/news/ срабатывает метод loadHtml хотя должен сработать loadHtmlNoCharset так как там в коде нет установленной кодировки

из-за этого весь текст отображается в неверной кодировке

если извернуться и сделать что-то типа такого

$html = file_get_contents('https://games.mail.ru/pc/news/');
$html .= '<meta http-equiv=Content-Type content="text/html;charset=UTF-8">';

то страница парсится в верной кодировке

PS. в принципе разобрался, можно сделать вот так

$html = file_get_contents('https://games.mail.ru/pc/news/');
$saw = nokogiri::fromHtmlNoCharset($html);

но не знаю насколько это правильн

да, nokogiri::fromHtmlNoCharset это верный вариант в случае если просто нет указания кодировки.
loadHtmlNoCharset делает то же самое с уже созданным объектом $nokogiri->loadHtmlNoCharset

Помогло:)спасибо