html-parsing

Analizar una cadena HTML con JS

Busqué una solución pero nada era relevante, así que aquí está mi problema: Quiero analizar una cadena que contenga texto HT ... ment); Mi objetivo es extraer enlaces de una página externa HTML que leo como una cadena. ¿Conoces una API ¿para hacerlo?

Cómo extraer img src, title y alt de html usando php?

Me gustaría crear una página donde todas las imágenes que residen en mi sitio web se enumeran con el título y la representaci ... ealmente no sé cómo analizar esto de una manera elegante (podría hacerlo el duro char por char manera, pero eso es doloroso).

Cómo quitar etiquetas HTML de string en JavaScript? [duplicar]

Posible Duplicado:Eliminar HTML del texto JavaScript ¿Cómo puedo eliminar el HTML de una cadena en JavaScript?

Analizar HTML usando Python

Estoy buscando un módulo de analizador HTML para Python que pueda ayudarme a obtener las etiquetas en forma de listas/diccion ... , pero pocos de estos detallan la funcionalidad y simplemente terminan como un debate sobre cuál es más rápido/más eficiente.

¿Qué analizador HTML es el mejor? [cerrado]

Codigo muchos analizadores. Hasta ahora, estaba usando HtmlUnit headless browser para el análisis y la automatización del nav ... impiar ninguna fuente HTML. Solo necesito una forma más fácil de moverme a través de HtmlElements y recopilar datos de ellos.

¿Cómo se analiza y procesa HTML / XML en PHP?

¿Cómo se puede analizar HTML/XML y extraer información de él?

Opciones para el raspado HTML? [cerrado]

Estoy pensando en probar Beautiful Soup, un paquete Python para raspado HTML. ¿Hay algún otro paquete de raspado HTML que de ... SQL PHP Simple HTML DOM Parser Raspado de PHP con CURL [2] {[12]]} La mayoría de ellos Raspador de pantalla

Regex seleccionar todo el texto entre etiquetas

¿Cuál es la mejor manera de seleccionar todo el texto entre 2 etiquetas - por ejemplo: el texto entre todas las etiquetas 'pre' en la página.

Cómo normalizar HTML en JavaScript o jQuery?

Las etiquetas pueden tener múltiples atributos. El orden en que aparecen los atributos en el código no importa. Por ejemplo: ... , $('#different'). Ahora $('#original').html() y $('#different').html() muestran código HTML con atributos en el mismo orden.

Cómo extraer una cadena siguiendo un patrón con GREP, REGEX o PERL

Tengo un archivo que se ve algo como esto: <table name="content_analyzer" primary-key="id"> <type="global" /> ... tent_analyzer_items. Estoy haciendo esto en una caja Linux, por lo que una solución usando sed, perl, grep o bash está bien.

Cómo puedo analizar una página HTML con Node.js

Necesito analizar (del lado del servidor) grandes cantidades de páginas HTML. Todos estamos de acuerdo en que la expresión re ... Nodo.¿js tiene esa habilidad incorporada? ¿Hay un mejor enfoque para este problema, analizando HTML en el lado del servidor?

Extracción de Datos Web Con Haskell

¿Cuál es el estado actual de las bibliotecas para raspar sitios web con Haskell? Estoy tratando de hacerme hacer más de mis ... gradable, en realidad atravesar páginas no parece tan agradable como lo es en otros idiomas. ¿Hay una mejor opción por ahí?

HTML Agility pack-análisis de tablas

Quiero usar el paquete de agilidad HTML para analizar tablas de páginas web complejas, pero de alguna manera estoy perdido en ... (HTML::TableParser). También estoy feliz si uno puede arrojar una luz sobre el orden correcto del objeto para el analizar.

HTML5: W3C vs WHATWG. ¿Cuál da la especificación más autorizada?

Estoy a medio camino de un analizador html y encontré que html5 definió explícitamente las reglas de oro para analizar html ... e llegue al estado de recomendación oficial? ¿Qué especificaciones html5 se supone que debemos seguir, cuando tenemos dudas?

Extracción de datos web - cómo identificar el contenido principal en una página web

Dada una página web de un artículo de noticias (de cualquier fuente de noticias importante como times o bloomberg), quiero id ... icias? ¿Cuáles son algunas buenas herramientas o bibliotecas para la minería de datos? (preferiblemente basado en python)

Problema con el analizador HTML en IE

Estoy tratando de crear un cuadro de diálogo que aparecerá solo si el navegador seleccionado es IE (cualquier versión) sin em ... rowserDetect.navegador" y .versión elimina el error, pero necesito esos para comprobar =/...cualquier idea será apreciada =).

Texto HTML con etiquetas a texto formateado en una celda de Excel

¿ Hay una manera de tomar HTML e importarlo a excel para que se formatee como texto enriquecido (preferiblemente usando VBA)? ... /b> or <i>italic</i></p></html> En esto: Esto es una prueba. Será este texto negrita o cursiva

TagSoup vs Jsoup vs Analizador de HTML vs HotSax vs [cerrado]

La abundancia de analizadores HTML para elegir (y seguir con) es alucinante: Http://java-source.net/open-source/html-parser ... Android) Basado en su experiencia, qué analizador HTML recomendaría (para cumplir con los requisitos anteriores) y por qué?

¿Cuáles son las mejores prácticas para analizar contenido remoto con jQuery?

Después de una llamada jQuery ajax para recuperar un documento XHTML completo, ¿cuál es la mejor manera de seleccionar elemen ... elementos? Como ejemplo, si puedes mostrarme cómo seleccionar el título de la página remota, ¡sería perfecto! Gracias, Pete

Cómo obtener HTML de un hermoso objeto soup

Tengo la siguiente lista de objetos bs4: >>> listing <div class="listingHeader"> <h2> .... >>& ... gt;>> a = listing.contents >>> type(a) <type 'list'> Así que esto no funciona. ¿Cómo puedo hacer esto?