AI Categorization

Every item ingested into Dump is automatically categorized by Gemini AI, which assigns a root category, subcategories, tags, summary, language, and key entities.

Root Categories

Dump uses 6 root categories:

Category	Definition
Tech	Engineering, development, infrastructure, AI/ML, tools
Design	Visual design, UX, typography, motion, branding
Business	Strategy, growth, marketing, sales, operations
Culture	Art, music, philosophy, trends, lifestyle
Science	Research, papers, discoveries, data
Reference	Documentation, tutorials, specs, guides, how-to

Categorization Output

For each item, Gemini returns:

{
  category: string       // One of the 6 root categories
  subcategories: string[] // 0-3 specific subcategories
  tags: string[]         // 3-6 lowercase, hyphenated tags
  summary: string        // 1-2 sentence summary
  language: string       // ISO 639-1 code (e.g., "en", "pt")
  entities: Entity[]     // Up to 10 key entities
}

Entity Types

Each entity has a name and a type:

Type	Example
`person`	"Elon Musk", "Dan Abramov"
`company`	"OpenAI", "Vercel"
`technology`	"React", "PostgreSQL"
`concept`	"Retrieval-Augmented Generation", "Design Systems"

Model and Retry Logic

Dump tries models in order:

gemini-3.1-pro-preview
gemini-2.0-flash (fallback)

If the first attempt fails to parse valid JSON, it retries once. After two failures, the item receives the default category ("Reference") with empty subcategories and tags.

Embedding

After categorization, content is embedded using text-embedding-004:

Model: Gemini text-embedding-004
Dimensions: 768
Max input: 2,000 characters (truncated)
Failure mode: Non-fatal — item is saved without vector, full-text search still works

Embedding is optional and non-blocking. If the Gemini API key is missing or the embedding call fails, the item is still saved and searchable via full-text search.

Root Categories

Categorization Output

Entity Types

Model and Retry Logic

Embedding

On this page