🎬 Вверху страницы — демо-видео интерфейса на Flask: живой диалог, отправка сообщений и ответы в ленте чата.
🖼️ На главной и в каталоге — скрин того же решения (лента, поле ввода). Сотруднику достаточно браузера — отдельный клиент не нужен.
⚙️ Техническая основа — «Flask LLM Chat Server» (DeepSeek / llama_cpp): адаптивный UI на Flask 3.x и связка с сервером llama_cpp (локальная или сетевая модель GGUF). Потоковые ответы (SSE), сессии и история, температура и max tokens, системный промпт, экспорт чата в JSON.
🔌 REST API для встраивания: сессия с настройками и system_prompt, сообщения со стримом, история, очистка, health / test LLM, настройки сессии, список моделей. CORS при необходимости. В UI — боковая панель настроек, статус связи с LLM, уведомления; Enter — отправить, Shift+Enter — новая строка.
📁 Конфигурация в .env: LLM_HOST/PORT, Flask, DEFAULT_TEMPERATURE, max_tokens, CHAT_HISTORY_LIMIT, SECRET_KEY. Стек: Python 3.8+, Flask 3.0+, llama_cpp.server, современный браузер.
🏢 Для компании — единая точка доступа к модели в контуре: промпт и политики под регламенты; развёртывание на своей инфраструктуре и связка с корпоративным API и журналами.