Prepare los datos de texto para la IA. Una introducción al uso de soluciones sin código | por Brian Perron, Ph.D. octubre 2024

Prepare los datos de texto para la IA. Una introducción al uso de soluciones sin código | por Brian Perron, Ph.D. octubre 2024

Una introducción al uso de soluciones sin código

Gráfico que muestra el procesamiento de datos desordenados. Imagen del autor usando ChatGPT-4o.

La gente utiliza grandes modelos de lenguaje para realizar diversas tareas con datos de texto de diferentes fuentes. Estas tareas pueden incluir (entre otras) editar, resumir, traducir o extraer texto. Uno de los principales desafíos de este flujo de trabajo es garantizar que sus datos estén preparados para la IA. Este artículo describe brevemente lo que significa listo para IA y ofrece algunas soluciones sin código para llegar a este punto.

Estamos rodeados de vastas colecciones de datos textuales no estructurados de diferentes fuentes, incluidas páginas web, archivos PDF, correos electrónicos, documentos organizacionales, etc. En la era de la IA, estos documentos de texto no estructurados pueden ser fuentes de información esenciales. Para muchas personas, el flujo de trabajo típico para datos de texto no estructurados es enviar un mensaje con un bloque de texto al modelo de lenguaje grande (LLM).

Imagen de una tarea de traducción en ChatGPT. Captura de pantalla del autor.

Aunque el método de copiar y pegar es una estrategia estándar para trabajar con LLM, es probable que encuentre situaciones en las que no funcione. Considere lo siguiente:

  • Aunque muchas plantillas premium te permiten cargar y procesar documentos, el tamaño de los archivos es limitado. Si el archivo es demasiado grande, necesitará otras estrategias para ajustar el texto relevante a la plantilla.
  • Es posible que desee procesar sólo una pequeña sección de texto de un documento más grande. Proporcionar el documento completo al LLM puede interferir con la finalización de la tarea debido a un texto irrelevante.
  • Algunos documentos de texto y páginas web, especialmente archivos PDF, contienen muchos formatos que pueden interferir con la forma en que se procesa el texto. Es posible que no pueda utilizar el método de copiar y pegar debido al formato del documento: las tablas y columnas pueden ser problemáticas.

Estar preparado para la IA significa que sus datos están en un formato que un LLM puede leer y procesar fácilmente. Para el procesamiento de datos de texto, los datos están en texto sin formato con un formato que el LLM interpreta fácilmente. El tipo de archivo Markdown es ideal para garantizar que sus datos estén listos para la IA.

El texto sin formato es el tipo de archivo más básico en su computadora. Esto generalmente se conoce como un .SMS extensión. Se pueden usar muchos _editores_ diferentes para crear y editar archivos de texto sin formato de la misma manera que se usa Microsoft Word para crear y editar documentos con estilo. Por ejemplo, la aplicación Bloc de notas en una PC o la aplicación TextEdit en una Mac son editores de texto predeterminados. Sin embargo, a diferencia de Microsoft Word, los archivos de texto sin formato no le permiten aplicar estilo al texto (por ejemplo, negrita, subrayado, cursiva, etc.). Estos son archivos que contienen solo caracteres sin formato en formato de texto sin formato.

Los archivos Markdown son archivos de texto sin formato con la extensión .Maryland. Lo que hace que el archivo de rebajas sea único es el uso de ciertos caracteres para indicar el formato. Estos caracteres especiales son interpretados por aplicaciones compatibles con Markdown para representar texto con estilos y estructuras específicos. Por ejemplo, el texto rodeado por asteriscos aparecerá en cursiva, mientras que los asteriscos dobles mostrarán el texto en negrita. Markdown también proporciona formas sencillas de crear encabezados, listas, enlaces y otros elementos estándar del documento, manteniendo el archivo como texto sin formato.

La relación entre Markdown y Large Language Models (LLM) es simple. Los archivos Markdown contienen contenido de texto sin formato que los LLM pueden procesar y comprender rápidamente. Los LLM pueden reconocer e interpretar el formato Markdown como información significativa, mejorando así la comprensión del texto. Markdown utiliza hashtags para los títulos, que crean una estructura jerárquica. Un solo hashtag designa un título de nivel 1, dos hashtags un título de nivel 2, tres hashtags un título de nivel 3, etc. Estos títulos sirven como pistas contextuales para los LLM cuando procesan información. Los modelos pueden utilizar esta estructura para comprender mejor la organización y la importancia de las diferentes secciones del texto.

Al reconocer los elementos de Markdown, los LLM pueden captar el contenido, su estructura y el énfasis previsto. Esto conduce a una interpretación y generación de texto más precisa. Esta relación permite a los LLM extraer significados adicionales de la estructura del texto más allá de las palabras mismas, mejorando su capacidad para comprender y trabajar con documentos en formato Markdown. Además, los LLM suelen mostrar sus resultados en formato de rebajas. Por lo tanto, puede tener un flujo de trabajo mucho más ágil con los LLM al enviar y recibir contenido de rebajas. También encontrará que muchas otras aplicaciones permiten el formato Markdown (por ejemplo, Slack, Discord, GitHub, Google Docs).

Existen muchos recursos en Internet para aprender Markdown. Aquí hay algunos recursos valiosos. Tómese el tiempo para aprender el formato de rebajas.

Esta sección explora las herramientas esenciales para gestionar Markdown e integrarlo con Large Language Models (LLM). El flujo de trabajo incluye varios pasos clave:

  1. Material fuente: Comenzamos con fuentes de texto estructurado como PDF, páginas web o documentos de Word.
  2. Conversión: utilizando herramientas especializadas, convertimos estos textos formateados en texto plano, especialmente en formato Markdown.
  3. Almacenamiento (opcional): el texto de Markdown convertido se puede almacenar en su forma original. Se recomienda este paso si reutiliza o hace referencia al texto más adelante.
  4. Procesamiento LLM: el texto Markdown luego se ingresa en un LLM.
  5. Generación de resultados: el LLM procesa los datos y genera el texto de salida.
  6. Almacenamiento de resultados: el resultado del LLM se puede almacenar para su uso o análisis posterior.
Flujo de trabajo para convertir texto formateado a texto sin formato. Imagen del autor utilizando el diagrama de Sirena.

Este flujo de trabajo convierte de manera eficiente varios tipos de documentos a un formato que los LLM pueden procesar rápidamente mientras mantienen la capacidad de almacenar tanto la entrada como la salida para referencia futura.

Obsidian: copia de seguridad y almacenamiento de texto sin formato

Obsidian es una de las mejores opciones disponibles para guardar y almacenar texto sin formato y archivos de rebajas. Cuando extraigo contenido de texto sin formato de archivos PDF y páginas web, normalmente guardo ese contenido en Obsidian, un editor de texto gratuito ideal para este propósito. También uso Obsidian para otros trabajos, como tomar notas y grabar indicaciones. Es una herramienta fantástica que vale la pena aprender.

Obsidian es simplemente una herramienta para guardar y almacenar contenido de texto sin formato. Probablemente querrás esta parte de tu flujo de trabajo, ¡pero NO es obligatoria!

Jina AI – Lector: extraiga texto sin formato de sitios web

Jina AI es una de mis empresas de IA favoritas. Constituye un conjunto de herramientas para trabajar con LLM. Jina AI Reader es una herramienta extraordinaria que convierte una página web a formato Markdown, lo que le permite recuperar contenido de texto sin formato para procesarlo en un LLM. El proceso es muy sencillo. Agregar a cualquier URL y recibirá contenido listo para IA para su LLM.

Por ejemplo, considere la siguiente captura de pantalla de modelos de lenguaje grandes en Wikipedia: en.wikipedia.org/wiki/Large_lingual_model

Captura de pantalla de la página de Wikipedia realizada por el autor.

Digamos que solo queremos utilizar el texto sobre LLM contenido en esta página. La extracción de esta información se puede realizar mediante el método de copiar y pegar, pero será tedioso con todos los demás formatos. Sin embargo, podemos usar Jina AI-Reader agregando ` al inicio de la URL:

Esto devuelve todo en un formato de rebajas:

Página de Wikipedia convertida a rebajas a través de Jina AI-Reader. Imagen del autor.

Desde allí, podemos copiar y pegar fácilmente el contenido relevante en el LLM. Alternativamente, podemos guardar el contenido de rebajas en Obsidian, lo que permite reutilizarlo con el tiempo. Aunque Jina AI ofrece servicios premium a muy bajo costo, puedes utilizar esta herramienta de forma gratuita.

LlamaParse: extrae texto sin formato de documentos

Los archivos PDF muy formateados y otros documentos estilizados presentan otro desafío común. Cuando trabajamos con modelos de lenguaje extendido (LLM), a menudo necesitamos eliminar el formato para centrarnos en el contenido. Imagine un escenario en el que desea utilizar sólo secciones específicas de un informe PDF. El estilo complejo del documento hace que copiar y pegar no sea práctico. Además, si carga el documento completo en un LLM, es posible que tenga dificultades para identificar y procesar solo las secciones que desea. Esta situación requiere una herramienta que pueda separar el contenido del formato. LlamaParse de LlamaIndex satisface esta necesidad disociando eficazmente el texto de sus elementos estilísticos.

Para acceder a LlamaParse, puede iniciar sesión en LlamaCloud: https://cloud.llamaindex.ai/login. Después de iniciar sesión en LlamaCloud, navega hasta LlamaParse en el lado izquierdo de la pantalla:

Captura de pantalla de LlamaCloud. Imagen del autor.

Después de acceder a la función de análisis, podrás extraer el contenido siguiendo estos pasos. Primero, cambie el modo a «Preciso», que crea resultados en formato de rebajas. En segundo lugar, arrastre y suelte su documento. Puede analizar muchos tipos diferentes de documentos, pero según mi experiencia, normalmente necesitará analizar archivos PDF, Word y PowerPoint. Sólo tenga en cuenta que puede manejar muchos tipos de archivos diferentes. En este ejemplo, uso un informe disponible públicamente por la Junta Estadounidense de Trabajo Social. Se trata de un informe muy estilizado de 94 páginas.

Captura de pantalla de LlamaCloud. Imagen del autor.

Ahora puede copiar y pegar el contenido de Markdown o exportar el archivo completo como Markdown.

Captura de pantalla de la salida de LlamaParse. Imagen del autor.

Con el plan gratuito, puedes escanear 1000 páginas por día. LlamaParse tiene muchas otras características que vale la pena explorar.

La preparación de datos de texto para el análisis de IA implica varias estrategias. Aunque el uso de estas técnicas puede parecer difícil al principio, la práctica le ayudará a familiarizarse más con las herramientas y los flujos de trabajo. Con el tiempo, aprenderá cómo aplicarlos de manera efectiva a sus tareas específicas.