Cómo urlencode datos para el comando curl?

Estoy tratando de escribir un script bash para probar que toma un parámetro y lo envía a través de curl al sitio web. Necesito codificar la url del valor para asegurarme de que los caracteres especiales se procesen correctamente. ¿Cuál es la mejor manera de hacer esto?

Aquí está mi guión básico hasta ahora:

host=${1:?'bad host'}
curl -v -d "param=${value}" http://${host}/somepath $@
Author: Mateusz Piotrowski, 2008-11-17

30 answers

Use curl --data-urlencode; de man curl:

Esto publica datos, similar a las otras opciones --data con la excepción de que esto realiza la codificación de URL. Para ser compatible con CGI, la parte <data> debe comenzar con un nombre seguido de un separador y una especificación de contenido.

Ejemplo de uso:

curl \
    --data-urlencode "paramName=value" \
    --data-urlencode "secondParam=value" \

Vea la página de manual para más información.

Esto requiere curl 7.18.0 o posterior (publicado en enero de 2008). Usa curl -V para comprobar qué versión tienes.

Author: Jacob R,
2017-08-14 18:41:56

Aquí está la respuesta pura BASH.

rawurlencode() {
  local string="${1}"
  local strlen=${#string}
  local encoded=""
  local pos c o

  for (( pos=0 ; pos<strlen ; pos++ )); do
     case "$c" in
        [-_.~a-zA-Z0-9] ) o="${c}" ;;
        * )               printf -v o '%%%02x' "'$c"
  echo "${encoded}"    # You can either set a return variable (FASTER) 
  REPLY="${encoded}"   #+or echo the result (EASIER)... or both... :p

Puedes usarlo de dos maneras:

easier:  echo http://url/q?=$( rawurlencode "$args" )
faster:  rawurlencode "$args"; echo http://url/q?${REPLY}


Aquí está la función rawurldecode() correspondiente, que - con toda modestia - es impresionante.

# Returns a string in which the sequences with percent (%) signs followed by
# two hex digits have been replaced with literal characters.
rawurldecode() {

  # This is perhaps a risky gambit, but since all escape characters must be
  # encoded, we can replace %NN with \xNN and pass the lot to printf -b, which
  # will decode hex for us

  printf -v REPLY '%b' "${1//%/\\x}" # You can either set a return variable (FASTER)

  echo "${REPLY}"  #+or echo the result (EASIER)... or both... :p

Con el conjunto coincidente, ahora podemos realizar algunas pruebas simples:

$ diff rawurlencode.inc.sh \
        <( rawurldecode "$( rawurlencode "$( cat rawurlencode.inc.sh )" )" ) \
        && echo Matched

Output: Matched

Y si realmente realmente sientes que necesitas una herramienta externa (bueno, irá mucho más rápido, y podría hacer archivos binarios y tal... Encontré esto en mi router OpenWrt...

replace_value=$(echo $replace_value | sed -f /usr/lib/ddns/url_escape.sed)

Donde url_escape.sed era un archivo que contenía estas reglas:

# sed url escaping
s: :%20:g
Author: Orwellophile,
2016-03-05 05:58:14

Use el módulo URI::Escape de Perl y la función uri_escape en la segunda línea de su script bash:


value="$(perl -MURI::Escape -e 'print uri_escape($ARGV[0]);' "$2")"

Editar: Se corrigen los problemas de citar, como sugiere Chris Johnsen en los comentarios. ¡Gracias!

Author: dubek,
2010-01-12 09:39:32

En aras de la integridad, muchas soluciones que utilizan sed o awk solo traducen un conjunto especial de caracteres y, por lo tanto, son bastante grandes por tamaño de código y tampoco traducen otros caracteres especiales que deben ser codificados.

Una forma segura de codificar urlencode sería simplemente codificar cada byte, incluso aquellos que se hubieran permitido.

echo -ne 'some random\nbytes' | xxd -plain | tr -d '\n' | sed 's/\(..\)/%\1/g'

Xxd se encarga aquí de que la entrada se maneje como bytes y no como caracteres.


Xxd viene con el vim - paquete común en Debian y yo estaba en un sistema donde no estaba instalado y no quería instalarlo. El altornativo es usar hexdump del paquete bsdmainutils en Debian. De acuerdo con el siguiente gráfico, bsdmainutils y vim-common deberían tener una probabilidad casi igual de ser instalados:


Pero sin embargo aquí una versión que utiliza hexdump en lugar de xxd y permite evitar la llamada tr:

echo -ne 'some random\nbytes' | hexdump -v -e '/1 "%02x"' | sed 's/\(..\)/%\1/g'
Author: josch,
2014-02-12 20:33:12

Lo encuentro más legible en python:

encoded_value=$(python -c "import urllib; print urllib.quote('''$value''')")

El triple ' asegura que las comillas simples en el valor no dañarán. urllib está en la biblioteca estándar. Funciona para exampple para este loco (mundo real) url:

"http://www.rai.it/dl/audio/" "1264165523944Ho servito il re d'Inghilterra - Puntata 7
Author: sandro,
2010-02-10 10:26:10

Una de las variantes, puede ser feo, pero simple:

urlencode() {
    local data
    if [[ $# != 1 ]]; then
        echo "Usage: $0 string-to-urlencode"
        return 1
    data="$(curl -s -o /dev/null -w %{url_effective} --get --data-urlencode "$1" "")"
    if [[ $? != 3 ]]; then
        echo "Unexpected error" 1>&2
        return 2
    echo "${data##/?}"
    return 0

Aquí está la versión de una sola línea, por ejemplo (como sugiere Bruno):

date | curl -Gso /dev/null -w %{url_effective} --data-urlencode @- "" | cut -c 3-
Author: Sergey,
2018-05-01 23:56:54

He encontrado el siguiente fragmento útil para pegarlo en una cadena de llamadas de programa, donde URI:: Escape podría no estar instalado:

perl -p -e 's/([^A-Za-z0-9])/sprintf("%%%02X", ord($1))/seg'


Author: blueyed,
2013-05-31 16:27:49

Si desea ejecutar GET request y usar pure curl, simplemente agregue --get a la solución de @Jacob.

Aquí hay un ejemplo:

curl -v --get --data-urlencode "access_token=$(cat .fb_access_token)" https://graph.facebook.com/me/feed
Author: Piotr Czapla,
2011-02-25 12:37:16

Otra opción es usar jq:

jq -s -R -r @uri

-s (--slurp) lee las líneas de entrada en una matriz y -s -R (--slurp --raw-input) lee la entrada en una sola cadena. -r (--raw-output) muestra el contenido de las cadenas en lugar de los literales de cadenas JSON.

O este porcentaje codifica todos los bytes:

xxd -p|tr -d \\n|sed 's/../%&/g'
Author: user4669748,
2015-12-22 02:38:16

Enlace directo a la versión awk: http://www.shelldorado.com/scripts/cmds/urlencode
Lo usé durante años y funciona como un encanto

# Title      :  urlencode - encode URL data
# Author     :  Heiner Steven ([email protected])
# Date       :  2000-03-15
# Requires   :  awk
# Categories :  File Conversion, WWW, CGI
# SCCS-Id.   :  @(#) urlencode  1.4 06/10/29
# Description
#   Encode data according to
#       RFC 1738: "Uniform Resource Locators (URL)" and
#       RFC 1866: "Hypertext Markup Language - 2.0" (HTML)
#   This encoding is used i.e. for the MIME type
#   "application/x-www-form-urlencoded"
# Notes
#    o  The default behaviour is not to encode the line endings. This
#   may not be what was intended, because the result will be
#   multiple lines of output (which cannot be used in an URL or a
#   HTTP "POST" request). If the desired output should be one
#   line, use the "-l" option.
#    o  The "-l" option assumes, that the end-of-line is denoted by
#   the character LF (ASCII 10). This is not true for Windows or
#   Mac systems, where the end of a line is denoted by the two
#   characters CR LF (ASCII 13 10).
#   We use this for symmetry; data processed in the following way:
#       cat | urlencode -l | urldecode -l
#   should (and will) result in the original data
#    o  Large lines (or binary files) will break many AWK
#       implementations. If you get the message
#       awk: record `...' too long
#        record number xxx
#   consider using GNU AWK (gawk).
#    o  urlencode will always terminate it's output with an EOL
#       character
# Thanks to Stefan Brozinski for pointing out a bug related to non-standard
# locales.
# See also
#   urldecode

PN=`basename "$0"`          # Program name

: ${AWK=awk}

Usage () {
    echo >&2 "$PN - encode URL data, $VER
usage: $PN [-l] [file ...]
    -l:  encode line endings (result will be one line of output)

The default is to encode each input line on its own."
    exit 1

Msg () {
    for MsgLine
    do echo "$PN: $MsgLine" >&2

Fatal () { Msg "$@"; exit 1; }

set -- `getopt hl "$@" 2>/dev/null` || Usage
[ $# -lt 1 ] && Usage           # "getopt" detected an error

while [ $# -gt 0 ]
    case "$1" in
        -l) EncodeEOL=yes;;
    --) shift; break;;
    -h) Usage;;
    -*) Usage;;
    *)  break;;         # First file name

LANG=C  export LANG
$AWK '
    BEGIN {
    # We assume an awk implementation that is just plain dumb.
    # We will convert an character to its ASCII value with the
    # table ord[], and produce two-digit hexadecimal output
    # without the printf("%02X") feature.

    EOL = "%0A"     # "end of line" string (encoded)
    split ("1 2 3 4 5 6 7 8 9 A B C D E F", hextab, " ")
    hextab [0] = 0
    for ( i=1; i<=255; ++i ) ord [ sprintf ("%c", i) "" ] = i + 0
    if ("'"$EncodeEOL"'" == "yes") EncodeEOL = 1; else EncodeEOL = 0
    encoded = ""
    for ( i=1; i<=length ($0); ++i ) {
        c = substr ($0, i, 1)
        if ( c ~ /[a-zA-Z0-9.-]/ ) {
        encoded = encoded c     # safe character
        } else if ( c == " " ) {
        encoded = encoded "+"   # special handling
        } else {
        # unsafe character, encode it as a two-digit hex-number
        lo = ord [c] % 16
        hi = int (ord [c] / 16);
        encoded = encoded "%" hextab [hi] hextab [lo]
    if ( EncodeEOL ) {
        printf ("%s", encoded EOL)
    } else {
        print encoded
    END {
        #if ( EncodeEOL ) print ""
' "$@"
Author: MatthieuP,
2014-11-09 00:17:39

Este puede ser el mejor:

after=$(echo -e "$before" | od -An -tx1 | tr ' ' % | xargs printf "%s")
Author: chenzhiwei,
2017-07-12 03:08:17
url=$(echo "$1" | sed -e 's/%/%25/g' -e 's/ /%20/g' -e 's/!/%21/g' -e 's/"/%22/g' -e 's/#/%23/g' -e 's/\$/%24/g' -e 's/\&/%26/g' -e 's/'\''/%27/g' -e 's/(/%28/g' -e 's/)/%29/g' -e 's/\*/%2a/g' -e 's/+/%2b/g' -e 's/,/%2c/g' -e 's/-/%2d/g' -e 's/\./%2e/g' -e 's/\//%2f/g' -e 's/:/%3a/g' -e 's/;/%3b/g' -e 's//%3e/g' -e 's/?/%3f/g' -e 's/@/%40/g' -e 's/\[/%5b/g' -e 's/\\/%5c/g' -e 's/\]/%5d/g' -e 's/\^/%5e/g' -e 's/_/%5f/g' -e 's/`/%60/g' -e 's/{/%7b/g' -e 's/|/%7c/g' -e 's/}/%7d/g' -e 's/~/%7e/g')

Esto codificará la cadena dentro de $1 y la mostrará en url url. aunque no tienes que ponerlo en un var si quieres. BTW no incluyó el sed para tab pensó que lo convertiría en espacios

Author: manoflinux,
2011-01-11 13:27:13

Para aquellos de ustedes que buscan una solución que no necesita perl, aquí hay una que solo necesita hexdump y awk:

url_encode() {
 [ $# -lt 1 ] && { return; }


 # make sure hexdump exists, if not, just give back the url
 [ ! -x "/usr/bin/hexdump" ] && { return; }

   echo $encodedurl | hexdump -v -e '1/1 "%02x\t"' -e '1/1 "%_c\n"' |
   LANG=C awk '
     $1 == "20"                    { printf("%s",   "+"); next } # space becomes plus
     $1 ~  /0[adAD]/               {                      next } # strip newlines
     $2 ~  /^[a-zA-Z0-9.*()\/-]$/  { printf("%s",   $2);  next } # pass through what we can
                                   { printf("%%%s", $1)        } # take hex value of everything else

Unidos desde un par de lugares a través de la red y un poco de ensayo y error local. ¡Funciona muy bien!

Author: Louis Marascio,
2012-03-27 19:28:54

Usando php desde un script de shell:

encoded=$(php -r "echo rawurlencode('$value');")
# encoded = "http%3A%2F%2Fwww.google.com"
echo $(php -r "echo rawurldecode('$encoded');")
# returns: "http://www.google.com"
  1. http://www.php.net/manual/en/function.rawurlencode.php
  2. http://www.php.net/manual/en/function.rawurldecode.php
Author: Darren Weber,
2012-01-31 23:10:59

Uni2ascii es muy útil:

$ echo -ne '你好世界' | uni2ascii -aJ
Author: kev,
2012-11-26 08:48:57

Si no quieres depender de Perl también puedes usar sed. Es un poco desordenado, ya que cada personaje tiene que ser escapado individualmente. Crea un archivo con el siguiente contenido y llámalo urlencode.sed

s/ /%20/g
s/ /%09/g
s/      /%09/g

Para usarlo haga lo siguiente.

STR1=$(echo "https://www.example.com/change&$ ^this to?%checkthe@-functionality" | cut -d\? -f1)
STR2=$(echo "https://www.example.com/change&$ ^this to?%checkthe@-functionality" | cut -d\? -f2)
OUT2=$(echo "$STR2" | sed -f urlencode.sed)
echo "$STR1?$OUT2"

Esto dividirá la cadena en una parte que necesita codificación, y la parte que está bien, codificará la parte que lo necesita, y luego volverá a unir.

Puede poner eso en un script sh por conveniencia, tal vez tenga un parámetro para codificar, ponerlo en su camino y entonces usted puede llamar:

urlencode https://www.exxample.com?isThisFun=HellNo


Author: Jay,
2014-08-26 08:07:15

La pregunta es acerca de hacer esto en bash y no hay necesidad de python o perl, ya que de hecho hay un solo comando que hace exactamente lo que quieres: "urlencode".

value=$(urlencode "${2}")

Esto también es mucho mejor, ya que la respuesta anterior de perl, por ejemplo, no codifica todos los caracteres correctamente. Pruébelo con el guión largo que obtiene de Word y obtendrá la codificación incorrecta.

Tenga en cuenta que necesita "gridsite-clients" instalado para proporcionar este comando.

Author: Dylan,
2014-11-14 11:55:29

Puede emular javascript encodeURIComponent en perl. Aquí está el comando:

perl -pe 's/([^a-zA-Z0-9_.!~*()'\''-])/sprintf("%%%02X", ord($1))/ge'

Podría establecer esto como un alias de bash en .bash_profile:

alias encodeURIComponent='perl -pe '\''s/([^a-zA-Z0-9_.!~*()'\''\'\'''\''-])/sprintf("%%%02X",ord($1))/ge'\'

Ahora puedes canalizar hacia encodeURIComponent:

$ echo -n 'hèllo wôrld!' | encodeURIComponent
Author: Klaus,
2015-01-20 21:08:51

Opción simple de PHP:

echo 'part-that-needs-encoding' | php -R 'echo urlencode($argn);'
Author: Ryan,
2015-02-26 09:07:20

Otro enfoque de php:

echo "encode me" | php -r "echo urlencode(file_get_contents('php://stdin'));"
Author: jan halfar,
2013-12-18 09:13:49

Aquí está la versión del nodo:

uriencode() {
  node -p "encodeURIComponent('${1//\'/\\\'}')"
Author: davidchambers,
2014-11-06 07:49:18

Ruby, para completar

value="$(ruby -r cgi -e 'puts CGI.escape(ARGV[0])' "$2")"
Author: k107,
2012-06-19 23:45:26

Aquí hay una solución Bash que no invoca ningún programa externo:

uriencode() {
  s="${s//' '/%20}"
  printf %s "$s"
Author: davidchambers,
2018-05-23 21:01:03

Aquí hay una función POSIX para hacer eso:

encodeURIComponent() {
  awk 'BEGIN {while (y++ < 125) z[sprintf("%c", y)] = y
  while (y = substr(ARGV[1], ++j, 1))
  q = y ~ /[[:alnum:]_.!~*\47()-]/ ? q y : q sprintf("%%%02X", z[y])
  print q}' "$1"


value=$(encodeURIComponent "$2")


Author: Steven Penny,
2016-12-31 05:14:25

Aquí hay una conversión de una línea usando Lua, similar a la respuesta de blueyed excepto con todos los caracteres RFC 3986 sin reserva sin codificar (como esta respuesta):

url=$(echo 'print((arg[1]:gsub("([^%w%-%.%_%~])",function(c)return("%%%02X"):format(c:byte())end)))' | lua - "$1")

Además, es posible que necesite asegurarse de que las nuevas líneas en su cadena se conviertan de LF a CRLF, en cuyo caso puede insertar un gsub("\r?\n", "\r\n") en la cadena antes de la codificación porcentual.

Aquí hay una variante que, en el estilo no estándar de application / x-www-form-urlencoded, hace esa normalización de nueva línea, así como codificar espacios como '+' en lugar de' %20 ' (que probablemente podría agregarse al fragmento de Perl usando una técnica similar).

url=$(echo 'print((arg[1]:gsub("\r?\n", "\r\n"):gsub("([^%w%-%.%_%~ ]))",function(c)return("%%%02X"):format(c:byte())end):gsub(" ","+"))' | lua - "$1")
Author: Stuart P. Bentley,
2017-05-23 11:47:26

Teniendo instalado php uso de esta manera:

URL_ENCODED_DATA=`php -r "echo urlencode('$DATA');"`
Author: ajaest,
2013-08-15 12:04:33

Esta es la versión ksh de la respuesta de orwellophile que contiene las funciones rawurlencode y rawurldecode (enlace: ¿Cómo codificar datos urlencode para el comando curl?). No tengo suficiente representante para publicar un comentario, de ahí la nueva publicación..


function rawurlencode
    typeset string="${1}"
    typeset strlen=${#string}
    typeset encoded=""

    for (( pos=0 ; pos<strlen ; pos++ )); do
        case "$c" in
            [-_.~a-zA-Z0-9] ) o="${c}" ;;
            * )               o=$(printf '%%%02x' "'$c")
    print "${encoded}"

function rawurldecode
    printf $(printf '%b' "${1//%/\\x}")

print $(rawurlencode "C++")     # --> C%2b%2b
print $(rawurldecode "C%2b%2b") # --> C++
Author: Ray Burgemeestre,
2017-05-23 12:26:20

Aquí está mi versión para busybox ash shell para un sistema embebido, originalmente adopté la variante de Orwellophile:

    local S="${1}"
    local encoded=""
    local ch
    local o
    for i in $(seq 0 $((${#S} - 1)) )
        case "${ch}" in
                o=$(printf '%%%02x' "'$ch")                
    echo ${encoded}

    # urldecode <string>
    local url_encoded="${1//+/ }"
    printf '%b' "${url_encoded//%/\\x}"
Author: nulleight,
2017-01-31 10:45:24

Lo siguiente se basa en la respuesta de Orwellophile, pero resuelve el multibyte error mencionado en los comentarios configurando LC_ALL = C (un truco de vte.sh). Lo he escrito en forma de función PROMPT_COMMAND adecuado, porque así es como lo uso.

print_path_url() {
  local LC_ALL=C
  local string="$PWD"
  local strlen=${#string}
  local encoded=""
  local pos c o

  for (( pos=0 ; pos<strlen ; pos++ )); do
     case "$c" in
        [-_.~a-zA-Z0-9/] ) o="${c}" ;;
        * )               printf -v o '%%%02x' "'$c"
  printf "\033]7;file://%s%s\007" "${HOSTNAME:-}" "${encoded}"
Author: Per Bothner,
2018-01-03 04:56:48

¿Qué analizaría mejor las URL que javascript?

node -p "encodeURIComponent('$url')"
Author: Nestor Urquiza,
2017-04-12 17:42:15