Установка кодировки
visavi opened this issue · comments
Подскажите как можно установить кодировку документа самостоятельно
если в html не указана кодировка, то nokogiri неверно отображает слова
к примеру при парсинге страницы https://games.mail.ru/pc/news/ срабатывает метод loadHtml хотя должен сработать loadHtmlNoCharset так как там в коде нет установленной кодировки
из-за этого весь текст отображается в неверной кодировке
если извернуться и сделать что-то типа такого
$html = file_get_contents('https://games.mail.ru/pc/news/');
$html .= '<meta http-equiv=Content-Type content="text/html;charset=UTF-8">';
то страница парсится в верной кодировке
PS. в принципе разобрался, можно сделать вот так
$html = file_get_contents('https://games.mail.ru/pc/news/');
$saw = nokogiri::fromHtmlNoCharset($html);
но не знаю насколько это правильн
да, nokogiri::fromHtmlNoCharset
это верный вариант в случае если просто нет указания кодировки.
loadHtmlNoCharset
делает то же самое с уже созданным объектом $nokogiri->loadHtmlNoCharset
Помогло:)спасибо