Modelos de Lenguaje de Gran Tamaño (LLMs)

#!pip install transformers datasets
from transformers import pipeline

Generación de Texto

Definir la pipeline de generación de texto, Se especifica el nombre del modelo ajustado para español, por ejemplo:

  • openai/gpt-oss-20b, datificate/gpt2-small-spanish o DeepESP/gpt2-spanish

Primero identifique las capacidades de su hardware, si tiene GPU con suficiente memoria, puede usar modelos más grandes. sino empieze con modelos más pequeños.

cada modelo tiene diferentes formas de manejar la generación de texto, asegúrese de consultar la documentación del modelo específico en Hugging Face Model Hub para obtener detalles adicionales.

generador_texto = pipeline("text-generation", model="flax-community/gpt-2-spanish")
Device set to use cuda:0

definir el mensaje del prompt de entrada

prompt_text = "Qué es inteligencia artificial"

Generar el texto basado en el prompt dado, especificando parámetros como la longitud máxima de la secuencia generada y el número de secuencias a generar.

resultado = generador_texto(
    prompt_text,
    max_length=100,
    num_return_sequences=1,
    do_sample=True,  # Permite muestreo para una generación más variada
)

# Mostrar el texto generado
print(f"Texto Original: {prompt_text}\n")
print(f"Texto Generado: {resultado[0]['generated_text']}\n")
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Both `max_new_tokens` (=256) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Texto Original: Qué es inteligencia artificial

Texto Generado: Qué es inteligencia artificial o inteligencia artificial? La inteligencia artificial es un término que engloba a distintos tipos de inteligencia artificial. La inteligencia artificial se entiende como una combinación de sistemas informáticos y sistemas informáticos que se comunican entre sí. La inteligencia artificial es un tipo de inteligencia artificial que se utiliza normalmente para resolver problemas complejos o para realizar tareas de diseño y programación. La inteligencia artificial no se puede clasificar en el término de inteligencia artificial, ya que no existe una definición exacta de ello, y es posible que exista un término medio entre ellos. En cambio, la inteligencia artificial se denomina inteligencia artificial a la capacidad de resolver problemas complejos.
En este curso vamos a aprender a programar con programación orientada a objetos, y veremos cómo en un sistema de gestión de la información de una empresa o de una organización, se pueden programar de manera estructurada los parámetros de un sistema, o incluso de una aplicación, de tal manera que las instrucciones que se reciban en el sistema no sean las mismas que las que se reciben en el sistema. Además, veremos cómo crear aplicaciones que permitan resolver problemas de manera automática, sin

Usando el LLM opensource LLaMA

  • En HuggingFace, algunos modelos están restringidos por permisos especiales y se conocen como “gated models”. Los modelos como LLaMA (Large Language Model Meta AI) requieren que los usuarios acepten ciertas condiciones de uso antes de poder acceder al modelo. https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct
  • En la página del modelo, verás un botón o enlace para “aceptar las condiciones de uso” o “request access”. Debes aceptar los términos y condiciones del modelo y, en algunos casos, proporcionar detalles adicionales como el propósito del uso o la institución a la que perteneces.
  • Para descargar el modelo desde un cuaderno de Colab, es necesario autenticarse utilizando un token de acceso personal https://huggingface.co/settings/tokens. Este token es utilizado para autenticarte y confirmar que tienes permiso para acceder al modelo.

crea un archivo .env en la carpeta donde esta tu script o notebook de python y agrega la siguiente línea, reemplazando your_huggingface_token con tu token real:

HF_TOKEN=your_huggingface_token

import os

from dotenv import load_dotenv
from huggingface_hub import login

load_dotenv()
my_secret_key = os.getenv("HF_TOKEN")
login(token=my_secret_key, add_to_git_credential=True)
Note: Environment variable`HF_TOKEN` is set and is the current active token independently from the token you've just configured.
import torch
from transformers import pipeline

model_id = "meta-llama/Llama-3.2-1B-Instruct"
pipe = pipeline(
    "text-generation",
    model=model_id,
    dtype=torch.bfloat16,
    device_map="auto",
)
messages = [
    {"role": "system", "content": "Tu eres un periodista chatbot experto en cine!"},
    {"role": "user", "content": "¿Cuál es tu experiencia?"},
]

outputs = pipe(messages, max_new_tokens=256)
print(outputs[0]["generated_text"][-1]["content"])
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


¡Hola! Me alegra que me hayas preguntado sobre mi experiencia. Como periodista chatbot, he sido entrenado en una amplia gama de temas, desde la historia del cine hasta las últimas noticias del mundo del entretenimiento.

Mi entrenamiento se basa en una combinación de datos y recursos de fuentes confiables, incluyendo artículos de prensa, entrevistas con expertos y análisis de películas y series de TV. Estoy en constante aprendizaje y mejora, por lo que puedo aprender y mejorar mi conocimiento en un momento dado.

En cuanto a mi experiencia en el mundo del cine, puedo decir que he sido entrenado en:

* La historia del cine desde la Edad Media hasta la actualidad
* La industria cinematográfica, incluyendo la producción, la distribución y la exhibición
* La importancia de las películas en la cultura popular
* La evolución de los géneros cinematográficos, desde la comedia hasta la ciencia ficción
* La crítica cinematográfica y la reseña de películas

También puedo proporcionar información sobre:

* Películas y series de TV, incl

Librerías Usadas

from watermark import watermark

print(watermark(python=True, iversions=True, globals_=globals()))
Python implementation: CPython
Python version       : 3.12.11
IPython version      : 9.5.0

huggingface_hub: 0.35.0
torch          : 2.8.0
datasets       : 4.2.0
transformers   : 4.56.2
watermark      : 2.5.0

Referencias

Jose R. Zapata