preg match y UTF-8 en PHP

Estoy tratando de buscar una cadena codificada en UTF8 usando preg_match.

preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE);
echo $a_matches[0][1];

Esto debería imprimir 1, ya que " H " está en el índice 1 en la cadena "¡Hola!". Pero imprime 2. Así que parece que no está tratando al sujeto como una cadena codificada en UTF8, a pesar de que estoy pasando el modificador "u" en la expresión regular.

Tengo la siguiente configuración en mi php.ini, y otras funciones UTF8 están funcionando:

mbstring.func_overload = 7
mbstring.language = Neutral
mbstring.internal_encoding = UTF-8
mbstring.http_input = pass
mbstring.http_output = pass
mbstring.encoding_translation = Off

¿Alguna idea?

Author: JW., 2009-11-12

7 answers

Parece que esto es una "característica", vea

El conmutador'u' solo tiene sentido para pcre, el propio PHP no es consciente de ello.

Desde el punto de vista de PHP, las cadenas son secuencias de bytes y devolver el desplazamiento de bytes parece lógico (no digo "correcto").

Author: user187291,
2016-01-24 19:07:15

Aunque el modificador u hace que tanto el patrón como el sujeto se interpreten como UTF-8, las compensaciones capturadas todavía se cuentan en bytes.

Puede usar mb_strlen para obtener la longitud en caracteres UTF-8 en lugar de bytes:

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1]));
Author: Gumbo,
2014-11-04 23:02:47

Intenta añadir esto (*UTF8) antes de la expresión regular:

preg_match('(*UTF8)/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE);

Magia, gracias a un comentario en

Author: Natxet,
2012-02-27 23:17:53

Disculpe el necroposting, pero puede ser que alguien lo encuentre útil: el código a continuación puede funcionar tanto como reemplazo para las funciones preg_match y preg_match_all y devuelve coincidencias correctas con correct offset para cadenas codificadas en UTF8.


     * Returns array of matches in same format as preg_match or preg_match_all
     * @param bool   $matchAll If true, execute preg_match_all, otherwise preg_match
     * @param string $pattern  The pattern to search for, as a string.
     * @param string $subject  The input string.
     * @param int    $offset   The place from which to start the search (in bytes).
     * @return array
    function pregMatchCapture($matchAll, $pattern, $subject, $offset = 0)
        $matchInfo = array();
        $method    = 'preg_match';
        $flag      = PREG_OFFSET_CAPTURE;
        if ($matchAll) {
            $method .= '_all';
        $n = $method($pattern, $subject, $matchInfo, $flag, $offset);
        $result = array();
        if ($n !== 0 && !empty($matchInfo)) {
            if (!$matchAll) {
                $matchInfo = array($matchInfo);
            foreach ($matchInfo as $matches) {
                $positions = array();
                foreach ($matches as $match) {
                    $matchedText   = $match[0];
                    $matchedLength = $match[1];
                    $positions[]   = array(
                        mb_strlen(mb_strcut($subject, 0, $matchedLength))
                $result[] = $positions;
            if (!$matchAll) {
                $result = $result[0];
        return $result;

    $s1 = 'Попробуем русскую строку для теста';
    $s2 = 'Try english string for test';

    var_dump(pregMatchCapture(true, '/обу/', $s1));
    var_dump(pregMatchCapture(false, '/обу/', $s1));

    var_dump(pregMatchCapture(true, '/lish/', $s2));
    var_dump(pregMatchCapture(false, '/lish/', $s2));

Salida de mi ejemplo:

    array(1) {
      array(1) {
        array(2) {
          string(6) "обу"
    array(1) {
      array(2) {
        string(6) "обу"
    array(1) {
      array(1) {
        array(2) {
          string(4) "lish"
    array(1) {
      array(2) {
        string(4) "lish"
Author: Guy Fawkes,
2016-02-29 00:33:15

Si todo lo que quieres hacer es encontrar la posición segura multi-byte de H intenta mb_strpos ()

$str = "\xC2\xA1Hola!";
$pos = mb_strpos($str, 'H');
echo $str."\n";
echo $pos."\n";
echo mb_substr($str,$pos,1)."\n";


Author: velcrow,
2011-08-16 21:19:00

Escribí una clase pequeña para convertir compensaciones devueltas por preg_match a compensaciones utf adecuadas:

final class NonUtfToUtfOffset
    /** @var int[] */
    private $utfMap = [];

    public function __construct(string $content)
        $contentLength = mb_strlen($content);

        for ($offset = 0; $offset < $contentLength; $offset ++) {
            $char = mb_substr($content, $offset, 1);
            $nonUtfLength = strlen($char);

            for ($charOffset = 0; $charOffset < $nonUtfLength; $charOffset ++) {
                $this->utfMap[] = $offset;

    public function convertOffset(int $nonUtfOffset): int
        return $this->utfMap[$nonUtfOffset];

Puedes usarlo así:

$content = 'aą bać d';
$offsetConverter = new NonUtfToUtfOffset($content);

preg_match_all('#(bać)#ui', $content, $m, PREG_OFFSET_CAPTURE);

foreach ($m[1] as [$word, $offset]) {
    echo "bad: " . mb_substr($content, $offset, mb_strlen($word))."\n";
    echo "good: " . mb_substr($content, $offsetConverter->convertOffset($offset), mb_strlen($word))."\n";


Author: bronek89,
2017-06-22 14:21:52

Es posible que desee mirar T-Regx biblioteca.

pattern('H', 'u')->match('\xC2\xA1Hola!')->first(function (Match $match) 
    echo $match->offset();

Este $match->offset() es UTF-8 safe offset.

Author: Danon,
2018-09-24 07:55:46