html-content-extraction

Cómo extraer img src, title y alt de html usando php?

Me gustaría crear una página donde todas las imágenes que residen en mi sitio web se enumeran con el título y la representaci ... ealmente no sé cómo analizar esto de una manera elegante (podría hacerlo el duro char por char manera, pero eso es doloroso).

Extraer texto de un archivo HTML usando Python

Me gustaría extraer el texto de un archivo HTML usando Python. Quiero esencialmente la misma salida que obtendría si copie e ... as: Filtrar etiquetas HTML y resolver entidades en python Convertir entidades XML / HTML en Cadena Unicode en Python

Opciones para el raspado HTML? [cerrado]

Estoy pensando en probar Beautiful Soup, un paquete Python para raspado HTML. ¿Hay algún otro paquete de raspado HTML que de ... SQL PHP Simple HTML DOM Parser Raspado de PHP con CURL [2] {[12]]} La mayoría de ellos Raspador de pantalla

BeautifulSoup Grab Texto de Página Web Visible

Básicamente, quiero usar BeautifulSoup para agarrar estrictamente el texto visible en una página web. Por ejemplo, esta pág ... e textos en una página web. Entonces, ¿cómo debo encontrar todo el texto visible excluyendo scripts, comentarios, css, etc.?

Extraer parte de una coincidencia de expresiones regulares

Quiero una expresión regular para extraer el título de una página HTML. Actualmente tengo esto: title = re.search('<title ... /title>', '') ¿Hay una expresión regular para extraer solo el contenido de para no tener que eliminar las etiquetas?

analizar HTML en el iPhone [cerrado]

¿Puede alguien recomendar una biblioteca C u Objective-C para el análisis HTML? Necesita manejar el código HTML desordenado que no validará del todo. ¿Existe tal biblioteca, o estoy mejor tratando de usar expresiones regulares?

Uso de BeautifulSoup para encontrar una etiqueta HTML que contenga cierto texto

Estoy tratando de obtener los elementos en un documento HTML que contienen el siguiente patrón de texto: # \ S{11} <h2&g ... esar el árbol del documento. En este caso, me gustaría que todos los elementos h2 para volver, no el texto coincidir. Ideas?

¿Una forma "inteligente" de analizar y usar los datos del sitio web?

¿Cómo se analizan inteligentemente los datos devueltos por los resultados de búsqueda en una página? Por ejemplo, digamos q ... módulo de IA borrosa reconocer patrones en una página de resultados de búsqueda, y analizar los resultados en consecuencia...