Вопрос: кодировка на выходе от ldap_explode_dn (PHP)

Сообщение

#1 Сообщение 21.08.2012, 15:06

Может кто знает, помогите.
Cуть такова, есть функция ldap_explode_dn (PHP), разделяет DN на части-компоненты, которые возвращает как массив строк.
Проблема: на вход идёт обычная UTF-8 строка, которая содержит этот самый DN, а вот на выходе массив строк непонятного формата.

Пример
Вход:

Код: Выделить всё

string(81) "CN=Ололошка,OU=Русс\,кое,OU=te\\st%,OU=Users,OU=eluni,DC=ad,DC=vsu"

На выходе:

Код: Выделить всё

array(8) {
  ["count"]=>
  int(7)
  [0]=>
  string(48) "\D0\9E\D0\BB\D0\BE\D0\BB\D0\BE\D1\88\D0\BA\D0\B0"
  [1]=>
  string(45) "\D0\A0\D1\83\D1\81\D1\81\2C\D0\BA\D0\BE\D0\B5"
  [2]=>
  string(8) "te\5Cst%"
  [3]=>
  string(5) "Users"
  [4]=>
  string(5) "eluni"
  [5]=>
  string(2) "ad"
  [6]=>
  string(3) "vsu"
}

В общем кто знает подскажите что это за зверь:

Код: Выделить всё

string(48) "\D0\9E\D0\BB\D0\BE\D0\BB\D0\BE\D1\88\D0\BA\D0\B0"

и каким каноничным способом это сконвертировать в обычную строку.

#2 Сообщение 21.08.2012, 15:59

y3k.xeon
Похоже на UFT-8 или 16.

C php.net

#3 Сообщение 21.08.2012, 16:30

MOZGIII
Я понимаю что там коды UTFа, только я хотел узнать конкретно что за формат экранирования такой: \<hexcode>\<hexcode>\<hexcode>.
И кстати прежде чем писать отгуглил по этому поводу от и до, и маны на php.net по функциям перечитал, а вот в комменты глянуть как то забыл, спс за напоминание.
Ну да ладно, видимо за неимением лучшего придётся писать неканонично (или самому парсить DN, или самому конвертить эту строку).

p.s.
забыл написать что эти строки неплохо конвертятся в обычные с помощью pack("H*", stripslashes($string)), но такая конструкция требует чтобы $string состояла только и только из этих кодов, а там если латинские символы, то они идут обычной записью, поэтому такой способ мне не подошёл

update:
вобщем вопрос конвертирования решён, выбрал такой вариант: preg_replace("/\\\([0-9A-Fa-f]{2})/e", "''.chr(hexdec('\\1')).''", $string)

#4 Сообщение 21.08.2012, 17:33

Формат экранирования простой: \<hex-код байта>, парсим по два - получаем 2 байта, это один юникодный символ. Ду дольше просто преобразование short -> unicode, в зависимости от кодировки (иногда нужно байты местами поменять - ntohs-подобная операция).

#5 Сообщение 22.08.2012, 01:04

MOZGIII
Да это понятно было, просто думал может быть есть некое каноничное имя для данного экранирования и стандартная функция для разбора.
Но как я уже написал, спс за ссылку на комменты на php.net, взял лучшее оттуда за неимением стандартных функций.