Glossary OS

Lectura rápida

Empieza por la explicación más corta y útil antes de profundizar.

Artificially generated training data produced by LLMs or other AI models, used to augment or replace human-annotated datasets. Techniques include prompt-based generation, retrieval-augmented pipelines, and iterative self-refinement. Synthetic data slashes costs from $5-20 per human preference point to under $0.01 per sample and became central to post-training pipelines in 2024-2025.

Modelo mental

Usa primero la analogía corta para razonar mejor sobre el término cuando aparezca en código, docs o prompts.

Piensa en esto como una pieza de la pila de contexto o inferencia usada en productos con agentes o LLMs.

Contexto técnico

Ubica el término dentro de la capa de Solana en la que vive para razonar mejor sobre él.

LLMs, RAG, embeddings, inferencia y primitivas orientadas a agentes.

Por qué le importa a un builder

Convierte el término de vocabulario en algo operacional para producto e ingeniería.

Este término desbloquea conceptos adyacentes rápido, así que funciona mejor cuando lo tratas como un punto de conexión y no como una definición aislada.

Handoff para IA

Usa este bloque compacto cuando quieras dar contexto sólido a un agente o asistente sin volcar toda la página.

Synthetic Data (AI Training) (synthetic-data)
Categoría: IA / ML
Definición: Artificially generated training data produced by LLMs or other AI models, used to augment or replace human-annotated datasets. Techniques include prompt-based generation, retrieval-augmented pipelines, and iterative self-refinement. Synthetic data slashes costs from $5-20 per human preference point to under $0.01 per sample and became central to post-training pipelines in 2024-2025.
Aliases: AI-Generated Training Data
Relacionados: Knowledge Distillation, DPO (Direct Preference Optimization), Fine-Tuning

Glossary Copilot

Haz preguntas de Solana con contexto aterrizado sin salir del glosario.

Usa contexto del glosario, relaciones entre términos, modelos mentales y builder paths para recibir respuestas estructuradas en vez de output genérico.

Abrir workspace completa del Copilot

Pregunta

Explicar este código

Opcional: pega código Anchor, Solana o Rust para que el Copilot mapee primitivas de vuelta al glosario.

Haz una pregunta aterrizada en el glosario

El Copilot responderá usando el término actual, conceptos relacionados, modelos mentales y el grafo alrededor del glosario.

Grafo conceptual

Ve el término como parte de una red, no como una definición aislada.

Estas ramas muestran qué conceptos toca este término directamente y qué existe una capa más allá de ellos.

Rama

Knowledge Distillation

A technique for transferring capabilities from a large 'teacher' model to a smaller 'student' model, typically by having the teacher generate a synthetic dataset that the student is fine-tuned on. Distilled models can match or exceed teacher performance on specific tasks while being much cheaper to deploy. Common in 2024-2025 for creating efficient specialized models.

Synthetic Data (AI Training)

Lectura rápida

Modelo mental

Contexto técnico

Por qué le importa a un builder

Handoff para IA

Haz preguntas de Solana con contexto aterrizado sin salir del glosario.

Haz una pregunta aterrizada en el glosario

Ve el término como parte de una red, no como una definición aislada.

Knowledge Distillation

DPO (Direct Preference Optimization)

Fine-Tuning

Mantén la cadena de aprendizaje en movimiento en lugar de parar en una sola definición.

Knowledge Distillation

DPO (Direct Preference Optimization)

Fine-Tuning

System Prompt

Términos cercanos en vocabulario, acrónimo o vecindad conceptual.

Training (ML)

Sigue los conceptos que realmente le dan contexto a este término.

Knowledge Distillation

DPO (Direct Preference Optimization)

Fine-Tuning

Quédate en la misma capa y sigue construyendo contexto.

LLM (Modelo de Lenguaje Grande)

Transformer

Attention Mechanism

Foundation Model