Когда использовать Fine-Tuning вместо Prompt Engineering

40 минут Урок 21

Введение: Дилемма инженера AI

Добро пожаловать в пятый модуль курса «Gemini 3 API: От Продвинутых Техник к Enterprise Решениям». До этого момента мы фокусировались на том, как управлять моделью с помощью контекста, системных инструкций и сложных цепочек промптов. Мы достигли впечатляющих результатов, но наверняка вы уже сталкивались с «потолком» этих методов.

В инженерной практике существует критический момент принятия решения: когда перестать «уговаривать» модель (Prompt Engineering) и начать ее «обучать» (Fine-Tuning)? Это не просто технический вопрос, это вопрос архитектуры, экономики проекта и качества продукта.

В этом уроке мы разберем фундаментальные принципы выбора стратегии. Мы не будем просто говорить «обучение лучше». Мы докажем, что в 80% случаев вам нужен именно Prompt Engineering, но оставшиеся 20% случаев невозможно решить без Fine-Tuning.

Главная мысль урока: Prompt Engineering — это краткосрочная память и инструкции «на лету». Fine-Tuning — это изменение «мышечной памяти» модели и её поведенческих паттернов.

Анатомия проблемы: Почему промптов бывает недостаточно?

С появлением моделей Gemini, обладающих контекстным окном в миллионы токенов, может показаться, что Fine-Tuning умер. Зачем обучать модель, если можно загрузить в контекст всю документацию компании, 50 примеров идеальных ответов и подробный гайдлайн?

Однако, у подхода In-Context Learning (Few-Shot Prompting) есть три скрытых врага:

Стоимость и Латентность (Latency): Каждый раз, когда вы отправляете запрос с 10,000 токенов примеров, вы платите за их обработку. И, что важнее, пользователь ждет, пока модель «прочитает» эти примеры перед генерацией. В Enterprise-решениях задержка в 2-3 секунды может быть критичной.
Нестабильность внимания: Даже самые продвинутые модели могут страдать от эффекта «lost in the middle» (потеря информации в середине контекста) или начать игнорировать сложные инструкции при краевых случаях.
Сложность форматирования: Если вам нужен вывод в специфическом, нестандартном JSON или проприетарном коде, промпты часто дают сбои, добавляя лишние пояснения или нарушая синтаксис.

python

# ПРИМЕР: Предел возможностей Prompt Engineering

# Представьте, что нам нужно, чтобы модель конвертировала естественный язык 
# в сложный DSL-запрос для внутренней базы данных.

# Подход Few-Shot (Prompt Engineering):
import google.generativeai as genai
import os

model = genai.GenerativeModel('gemini-1.5-pro')

# Чтобы модель поняла синтаксис, нам приходится скармливать ей десятки примеров.
# Это увеличивает инпут-токены и цену запроса.
few_shot_prompt = """
Ты - конвертер в QueryLanguage v2. 
Синтаксис: SELECT [fields] WHERE {conditions} FORMAT(json)

Пример 1:
User: Найти всех активных пользователей из Москвы.
Bot: SELECT id, name WHERE {status='active' AND city='Moscow'} FORMAT(json)

Пример 2:
User: Показать продажи за прошлую неделю выше 1000.
Bot: SELECT order_id, amount WHERE {date >= DATE_SUB(NOW(), INTERVAL 1 WEEK) AND amount > 1000} FORMAT(json)

... (представьте здесь еще 50 примеров, занимающих 4000 токенов) ...

User: Найти товары на складе B без движения 30 дней.
Bot:"""

response = model.generate_content(few_shot_prompt)
print(response.text)

Матрица принятия решений: 4 Фактора

Чтобы принять обоснованное решение о переходе к Fine-Tuning, используйте следующую матрицу оценки. Если вы отвечаете «ДА» на 2 и более пунктов — пора готовить датасет.

1. Фактор Формы (Form over Facts)

Fine-Tuning великолепен для настройки формы ответа, но ужасен для добавления новых фактов.
Пример: Вам нужно, чтобы модель всегда отвечала саркастичным тоном в стиле пирата (форма) — Fine-Tuning. Вам нужно, чтобы модель знала актуальные цены на акции за сегодня (факт) — RAG (Retrieval Augmented Generation).

2. Экономика масштаба

Если у вас планируется 1 миллион запросов в месяц, и ваш системный промпт занимает 2000 токенов.
Математика: 2000 токенов * 1,000,000 запросов = 2 миллиарда лишних токенов в месяц.
Fine-Tuning позволяет «запечь» эти 2000 токенов примеров внутрь весов модели. Промпт сокращается до 50 токенов. Экономия может окупить затраты на обучение за неделю.

3. Критичность задержки (Latency)

Модель Gemini, дообученная на конкретную задачу (например, классификация текста), работает быстрее, чем универсальная модель, которой нужно «осознать» длинную инструкцию. Для real-time приложений (голосовые боты, автодополнение кода) Fine-Tuning — часто единственный выход.

4. Сложность задачи (The Ceiling of Performance)

Существуют задачи, где даже Prompt Engineering на уровне эксперта дает точность лишь 85-90%. Например, выделение медицинских сущностей из неструктурированного текста с использованием специфической номенклатуры. Fine-Tuning позволяет преодолеть этот барьер и достичь 98-99%.

Упражнение

Проанализируйте следующие три сценария и определите для каждого оптимальную стратегию: (A) Только Prompt Engineering, (B) RAG (поиск по базе знаний), (C) Fine-Tuning.<br><br>1. Чат-бот техподдержки, который должен отвечать на вопросы о новых тарифах компании, которые меняются каждую неделю.<br>2. Модель, которая должна генерировать юридические документы, строго следуя очень специфическому и редкому шаблону форматирования XML, используемому только в вашей фирме. Ошибки в тегах недопустимы.<br>3. Генератор поздравлений для открыток, где стиль не очень важен, главное — разнообразие.

Решение:

1. **Стратегия (B) RAG**. Знания (тарифы) меняются часто. Fine-Tuning потребует переобучения каждую неделю, что дорого и медленно. Промпты могут не вместить все тарифы. RAG позволит подтягивать актуальные данные в контекст.

2. **Стратегия (C) Fine-Tuning**. Здесь критична структура (форма), а не знания. Модели сложно соблюдать редкий XML-синтаксис только через промпт (или это займет огромный контекст). Обучение на примерах «вход -> идеальный XML» даст лучший результат.

3. **Стратегия (A) Prompt Engineering**. Задача простая, творческая, строгих ограничений нет. Базовые модели отлично справляются с генерацией текста без дообучения.

Как меняется код при переходе на Fine-Tuning?

Самое приятное в экосистеме Google Cloud Vertex AI и Gemini API — это легкость переключения. После того как вы обучили модель (процесс обучения мы разберем в следующем уроке), использование сводится к замене имени модели. Вам больше не нужно передавать огромный контекст примеров.

python

# ПРИМЕР: Использование Fine-Tuned модели
# Сравните этот код с предыдущим примером.

import google.generativeai as genai

# Вместо стандартной 'models/gemini-1.5-pro' мы указываем ID нашей дообученной модели.
# Этот ID вы получаете после завершения джобы обучения.
tuned_model_id = 'tunedModels/sql-converter-v2-x9s8d7'

model = genai.GenerativeModel(tuned_model_id)

# Обратите внимание: промпт теперь минималистичен.
# Модель уже "знает" синтаксис, правила и формат из своих весов.
zero_shot_prompt = "Найти товары на складе B без движения 30 дней."

response = model.generate_content(zero_shot_prompt)

# Ожидаемый результат будет идеально отформатирован:
# SELECT item_id, name WHERE {warehouse='B' AND last_move_date <= DATE_SUB(NOW(), INTERVAL 30 DAY)} FORMAT(json)
print(response.text)

Мифы и Реальность: Чего Fine-Tuning НЕ может

Очень важно развеять несколько опасных заблуждений, которые могут стоить вам бюджета.

Миф 1: Fine-Tuning учит новым знаниям.
Реальность: Это очень неэффективный способ учить факты. Если вы дообучите модель на книге о Гарри Поттере, она может начать галлюцинировать, смешивая сюжеты. Используйте FT для стиля (как говорить, как персонаж), а RAG — для сюжета (что именно произошло).
Миф 2: Fine-Tuning исправляет логику рассуждений.
Реальность: Если базовая модель слаба в математике, Fine-Tuning на задачах по математике улучшит результат, но не сделает из неё Эйнштейна. Для сложных логических цепочек лучше работает Chain-of-Thought Prompting, чем попытка «вбить» логику через FT.

Гибридный подход: RAG + Fine-Tuning

На уровне Enterprise самым мощным паттерном является комбинация.
1. Вы используете RAG, чтобы найти релевантные факты (Context).
2. Вы подаете эти факты в Fine-Tuned модель, которая обучена не отвечать на вопросы, а анализировать предоставленный контекст в строго определенном формате.

Это решает проблему галлюцинаций (благодаря RAG) и проблему форматирования/стиля (благодаря FT).

Вопрос

Какая из следующих ситуаций является наиболее подходящим кандидатом для Fine-Tuning модели Gemini?

Вам нужно, чтобы модель знала содержание всех внутренних PDF-документов компании, созданных за последнюю неделю.

Вы хотите, чтобы модель могла перемножать десятизначные числа лучше, чем базовая версия.

Вам необходимо сократить затраты на токены, убрав из каждого запроса 50 длинных примеров (few-shot), сохраняя при этом специфический стиль ответов JSON.

Вы хотите создать чат-бота, который просто общается вежливо, без специфических требований к формату.

Вам нужно, чтобы модель цитировала статьи из Википедии дословно.

Заключение

Fine-Tuning — это инвестиция. Как и любая инвестиция, она требует начального капитала (подготовка качественного датасета) и затрат на обслуживание. Однако при правильном применении она превращает универсальный инструмент (General Purpose Model) в специализированный высокоточный инструмент.

Чек-лист перед следующим уроком:

Если ваша проблема решается улучшением промпта — делайте это.
Если вам нужны свежие данные — используйте RAG.
Если вам нужна скорость, экономия токенов на масштабе и жесткая дисциплина формата — добро пожаловать в мир Fine-Tuning.

В следующем уроке мы перейдем к практике: как правильно подготовить данные для обучения Gemini, чтобы не испортить модель.

Предыдущий урок Следующий урок