unicode

¿Cómo compilar un archivo fuente java codificado como "UTF-8"?

Guardé mi archivo fuente Java especificando su tipo de codificación como UTF-8 (usando el Bloc de notas, por defecto el tipo ... está la fuente: public class One { public static void main( String[] args ){ System.out.println("HI"); } }

¿Por qué python decode reemplaza más que los bytes no válidos de una cadena codificada?

Intentar decodificar una página html utf-8 codificada inválida da diferentes resultados en python, firefox y chrome. El frag ... \xE1\x80\xC2\x62'.decode('utf-8', 'replace_option3') u'a\ufffd\ufffd\ufffd\ufffd\ufffd\ufffdb' >>> print _ a������b

Jugando con los personajes de Devanagari

Tengo algo como a = "बिक्रम मेरो नाम हो" Quiero lograr algo como a[0] = बि a[1] = क्र a[3] = म Pero como takes toma 4 ... tes mientras que बि toma 8 bytes no soy capaz de llegar a esa recta. Entonces, ¿qué se podría hacer para lograrlo? En Python.

MySQL trata ÅÄÖ como AAO?

Estas dos querys me dan exactamente el mismo resultado: select * from topics where name='Harligt'; select * from topics whe ... Utilizo la codificación utf-8 en todas partes hasta donde sé. El mismo problema ocurre tanto desde terminal como desde php.

iconv: Conversión de Windows ANSI a UTF-8 con BOM

Quiero usar iconv para convertir archivos en mi Mac. El objetivo es pasar de " Windows ANSI "a"lo que el bloc de notas de Win ... file names.utf8.csv names.utf8.csv: UTF-8 Unicode text, with CRLF line terminators ¿Cómo obtengo la lista de materiales?

Convertir caracteres Unicode escapados a caracteres reales

Tengo el siguiente valor en una variable de cadena en Java que tiene caracteres UTF-8 codificados como abajo Dodd\u2013Frank ... n(str); obtengo Dodd\u2013Frank No estoy seguro de cuál es la terminología correcta (UTF-8 o unicode). Perdóname por eso.

django unicode error en la página de administración

Estoy vagamente familiarizado con la naturaleza de unicode, pero no estoy seguro de cómo encajan todas las piezas. Tengo un ... do que esta página se muestre. class ProposalAdmin(admin.ModelAdmin): exclude = ('xml',) admin.site.register(Project)

Nokogiri, uri abierto y caracteres Unicode

Estoy usando Nokogiri y open-uri para agarrar el contenido de la etiqueta de título en una página web, pero estoy teniendo pr ... ù en este caso)? Aquí hay un ejemplo URL: Http://www.epicurious.com/recipes/food/views/Tagliatelle-with-Duck-Ragu-242037

Impresión de caracteres Unicode en el símbolo del sistema de PowerShell

Estoy intentando configurar Mercurial para imprimir el estado del repositorio en el que me encuentro actualmente con PowerShe ... siguiente respuesta de usar chcp 65001 tampoco funciona. ¿Sigue siendo una deficiencia en PowerShell o me falta algo obvio?

Truncando unicode para que se ajuste a un tamaño máximo cuando se codifica para transferencia bancaria

Dada una cadena Unicode y estos requisitos: La cadena debe codificarse en algún formato de secuencia de bytes (por ejempl ... vez codificada en UTF-8? Pregunta relacionada con Javascript: Uso de JavaScript para truncar el texto a un cierto tamaño

¿Una forma rápida de filtrar caracteres unicode xml ilegales en python?

La especificación XML enumera un montón de caracteres Unicode que son ilegales o "desaconsejados". Dada una cadena, ¿cómo pu ... l_re.sub('', dirty) (Python 2.5 no conoce los caracteres Unicode por encima de 0xFFFF, así que no es necesario filtrarlos.)

ASCII vs Unicode + UTF-8

Estaba leyendo 'El Mínimo Absoluto' de Joel Spolsky sobre la codificación de caracteres. Tengo entendido que ASCII es un esqu ... os tiempos modernos, usamos Unicode como el esquema de punto de código y UTF-8 como el esquema de codificación. ¿Es correcto?

reemplazar eficientemente los caracteres malos

A menudo trabajo con texto utf-8 que contiene caracteres como: \xc2\x99 \xc2\x95 \xc2\x85 Etc Estos ... azarse. ¿Cuál es una manera eficiente de hacer esto, en lugar de: text.replace('\xc2\x99', ' ').replace('\xc2\x85, '...')

Thai line breaking: cómo romper el texto tailandés de manera efectiva

Situación con el texto tailandés en un sitio cliente es que no podemos controlar dónde exactamente las palabras/oraciones par ... aría cómo manejar esto de manera más efectiva ... ¿y quién sabe, incluso podría ayudar al W3C en su implementación? GRACIAS!

UTF - 8 en Windows

¿Cómo configuro la página de códigos a UTF-8 en un programa de Windows C? Tengo una biblioteca de terceros que usa fopen ... en UTF-8, sin embargo, la documentación de MSDN para _setmbcp indica que UTF-8 no es compatible. Cómo ¿puedo evitar esto?

Convertir datos Unicode a int en python

Estoy recibiendo valores pasados de url como: user_data = {} if (request.args.get('title')) : user_data['title'] =reque ... o que genera un error de consulta!! Estoy convirtiendo unicode a int pero ¿por qué no está convirtiendo?? Por favor, ayuda!!!

Coincidencia de solo una letra unicode en Python re

Tengo una cadena de la que quiero extraer 3 grupos: '19 janvier 2012' -> '19', 'janvier', '2012' El nombre del mes podr ... in [_0-9], pero no se cómo. E incluso si averiguo cómo hacer esto, ¿hay un atajo listo como [:alpha:] que funciona en Python?

¿Cómo averiguar qué es la "codificación predeterminada del sistema"?

La documentación para fileobject.encoding menciona que puede ser None, y en ese caso, se usa la "codificación predeterminada del sistema". ¿Cómo puedo averiguar qué es esta codificación?

Cómo obtener ncurses para generar caracteres unicode del plano astral

Tengo la siguiente pieza de código extremadamente simple, que se supone que debe generar (entre otras cosas), tres caracteres ... side of ncurses */ printf("%s\n",buffer); return 0; } El printf final muestra todos los caracteres como esperaba "