Кодирование-декодирование в UTF-8 [Форумы Balancer.Ru]

старые » Наука и техника » Компьютерный » Программирование » Кодирование-декодирование в UTF-8: Кодирование-декодирование в UTF-8

Теги:программирование, компьютеры, техника

Новый опрос Новый фотосет Новая тема Написать сообщение в тему

HolyBoy #23.02.2009 19:00

HolyBoy

аксакал

★

Здравствуйте.

Столкнулся с не совсем понятным для меня пока что явлением: используя перловые функции для кодирования в юникод, получаю кракозябры при кодировании русскоязычного текста, полученного с юникодной консоли.

Покурив ссылки, в частности вот эту utf8 - perldoc.perl.org, пробую:

code perl

#!/usr/bin/perl -w
use utf8;
print ("Как Вас зовут? ");
$name= <STDIN>;
chomp ($name);
utf8::encode($name);
print "$name\n";

code text

$ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? 123
123
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? wer
wer
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? 12er
12er
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? er12
er12
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? цув
ÑÑÐ²
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? 12цув
12ÑÑÐ²
~/programming/perl $ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? цув12
ÑÑÐ²12

При этом локаль у меня юникодная:

code text

$ locale
LANG=ru_RU.UTF-8
LC_CTYPE="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_PAPER="ru_RU.UTF-8"
LC_NAME="ru_RU.UTF-8"
LC_ADDRESS="ru_RU.UTF-8"
LC_TELEPHONE="ru_RU.UTF-8"
LC_MEASUREMENT="ru_RU.UTF-8"
LC_IDENTIFICATION="ru_RU.UTF-8"
LC_ALL=ru_RU.UTF-8

Кое-какие дополнительные тесты показали, что данная функция каждый байт из $name считает нужным перевести в UTF-8. Почему так? Потому что правой пятке программистов захотелось такое или какие-то соображения таки были?

Balancer #23.02.2009 19:31

Balancer

администратор

★★★★★

Последний раз на Перле с UTF-8 работал лет пять назад. Тогда проблем не было. Локаль в UTF-8 была, работал как с родной локалью, так и с чтением/записью в CP1251/KOI8-R.

HolyBoy #23.02.2009 20:02 @Balancer#23.02.2009 19:31

HolyBoy

аксакал

★

Balancer> Последний раз на Перле с UTF-8 работал лет пять назад. Тогда проблем не было. Локаль в UTF-8 была, работал как с родной локалью, так и с чтением/записью в CP1251/KOI8-R.

Это я решил разобраться с одной системной утилитой. У неё как раз запись некоторых значений в базу идёт после преобразований исходных с помощью utf8Encode. Но когда оное выполняется для юникодного текста, то получается такая вот бяка:

code text

исходное
привет
результат
Ð¿ÑÐ¸Ð²ÐµÑ

Само собой, проблема решается с помощью убирания этой вот функции utf8Encode, но хотелось бы разобраться, почему она вообще появляется и поправить, если возможно, этот скрипт без столь радикальных действий, как выключение функции из работы.

Mishka #23.02.2009 20:27

Mishka

модератор

★★★

Ты запиши в файлик и прочитай программкой, которая UTF-8 понимает. У меня было такое в С++, когда всякие принты использовались. Или брось сюда двоичное значение побайтово.

HolyBoy #23.02.2009 20:53

HolyBoy

аксакал

★

Всё, я похоже решил проблему частично.
Оказывается, автор утилиты скинул в отдельный файл определение функции utf8Encode вот в таком виде:

code perl

sub utf8Encode {
my $arg = shift;
return to_utf8(
-string => $arg,
-charset => 'ISO-8859-1',
);
}
sub utf8Decode {
my $arg = shift;
return from_utf8(
-string => $arg,
-charset => 'ISO-8859-1',
);
}

Соответственно, я нашёл Unicode::MapUTF8 - A generic encoding to/from UTF8 convertor , потестировал

code perl

#!/usr/bin/perl -w
#use utf8;
use Unicode::MapUTF8 qw(to_utf8 from_utf8);
print ("Как Вас зовут? ");
$name= <STDIN>;
chomp ($name);
#utf8::encode($name);
my $output = to_utf8({ -string => $name, -charset => 'utf8' });
print "$output\n";

и оказалось, что основная проблема решается легко. Тулза теперь делает то, что надо, без уродования исходных данных.

Но… как-то оно не изЯЧно. Во-первых, Changes из ссылки рассказывает, что последний раз эти функции менялись в 2001, а ссылка из самого первого сообщения вроде намекает на то, что сейчас более свежие и актуальные средства появились. Во-вторых, если кто-то вдруг вздумает засунуть в качестве аргумента не UTF-8, то может получиться нехорошо. Если я уверен в том, что локально на машине эта программа получит UTF-8 стопроцентно, то в данных с других машин, в частности, виндовых, я не уверен. Если нет способа надёжно распознать кодировку, то придётся, наверное, потестировать и смириться с тем, что есть.

Harsky #24.02.2009 18:42

Harsky

опытный

☆

а зачем ты вообще пытаешься куда-то конвертировать ввод?

code perl

#!/usr/bin/perl -w
use strict;
use utf8;
print ("Как Вас зовут? ");
my $name= <STDIN>;
print $name

harsky-mac:bin harsky$ locale
LANG="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_CTYPE="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_ALL="ru_RU.UTF-8"

harsky-mac:bin harsky$ ./test.pl
Wide character in print at ./test.pl line 5.
Как Вас зовут? вася
вася

Balancer #24.02.2009 21:24 @Harsky#24.02.2009 18:42

Balancer

администратор

★★★★★

Harsky> Wide character in print at ./test.pl line 5.

Ну ленивый народ пошёл

Пришлось пойти погуглить.

Сетевые решения :: UTF Perl Practice, или как использовать UTF-8 в перле

// www.nestor.minsk.by

code perl

#!/usr/bin/perl -w
use strict;
use utf8;
use open qw(:std :utf8);
print ("Как Вас зовут? ");
my $name= <STDIN>;
print $name

$ perl test.pl
Как Вас зовут? Рома
Рома

HolyBoy #24.02.2009 21:33 @Harsky#24.02.2009 18:42

HolyBoy

аксакал

★

Harsky> а зачем ты вообще пытаешься куда-то конвертировать ввод?

Смотри, это не я пытаюсь, это автор пытается что-то куда-то конвертировать. А я вижу неверную работу утилиты и разбираю, почему ж она не работает как надо.

Harsky #24.02.2009 22:48 @Balancer#24.02.2009 21:24

Harsky

опытный

☆

Harsky>> Wide character in print at ./test.pl line 5.
Balancer> Ну ленивый народ пошёл

Пришлось пойти погуглить.
да ладно, у меня целых 2 отмазки есть

может лучше так (конкретно для этого примера)?

code perl

#!/usr/bin/perl -w
use strict;
use utf8;
binmode(STDOUT,':utf8');
binmode(STDIN,':utf8');
print ("Как Вас зовут? ");
my $name= <STDIN>;
print $name

Harsky #24.02.2009 23:08 @HolyBoy#23.02.2009 20:53

Harsky

опытный

☆

HolyBoy> Если нет способа надёжно распознать кодировку, то придётся, наверное, потестировать и смириться с тем, что есть.

а прога консольная? или это у тебя для отладки кусочек работает с консолью?

HolyBoy #24.02.2009 23:34 @Harsky#24.02.2009 23:08

HolyBoy

аксакал

★

Harsky> а прога консольная? или это у тебя для отладки кусочек работает с консолью?

Консольная. Да, для отладки. Чтобы разобраться.

Harsky #25.02.2009 00:27

Harsky

опытный

☆

тогда при работе в unix можно в переменных окружения проверить локаль. а в винде... проверить не на чем, но кажется там есть консольная команда chcp, которая тебе скажет/поменяет по крайней мере кодовую страницу ввода/вывода

Портал информации для веб-разработчиков

Портал информации для веб-разработчиков

// www.shkodenko.kiev.ua

HolyBoy #25.02.2009 21:01 @Harsky#25.02.2009 00:27

HolyBoy

аксакал

★

Harsky> тогда при работе в unix можно в переменных окружения проверить локаль. а в винде... проверить не на чем, но кажется там есть консольная команда chcp, которая тебе скажет/поменяет по крайней мере кодовую страницу ввода/вывода

Дык, я ж писал, что в лине локаль юникодная. А точнее всё написано тут Кодирование-декодирование в UTF-8 [HolyBoy#23.02.09 20:53]
Моё беспокойство вызвано тем, что эта утиль может неправильно распознать поток символов от другой программы, которая получает данные от винды. Но это так, теоретизирование. Вдруг, если… и тд.

Реально же, сабжевая утилита будет запускаться только на линуховой машине, так что я спокойно пропатчил её.

в начало страницы | новое

старые » Наука и техника » Компьютерный » Программирование » Кодирование-декодирование в UTF-8