content/posts/2026-03-21-aiserver/index.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74

---
title: Свой ИИ сервер на Steam Deck
date: 2026-03-21T13:06:20+03:00
tags:
  - ИИ
category:
  - ИИ
---

Я весьма активно в последнее время экспериментирую с нейронками, причём не
только в контексте их обычного использования для коддинга. Больше меня
интересует как раз разработка *под* нейронки (автономные агенты, ага).

Так же сейчас перепрохожу по учебникам в свободное время институтский курс по
линейке (а на очереди ещё вычмат, тервер и матан...) чтобы восстановить свои и
так слабые знания по математике, необходимой для ИИ. Затем план уже конкретно в
МЛ, БЯМ и прочеее вгрызться. Внезапно математика, когда ей занимаешься не «из
под палки» потому что зачёт/экзамен, а только для себя — становится **очень**
интересной. Прям жалею что в институте недооценивал. Но сейчас всё же не об
этом речь.

Сейчас про именно разработку под уже существующие БЯМ.

Конечно, в процессе разработки и особенно тестирования, т.н. токенов тратится
не много, а ОЧЕНЬ много. И, честно говоря, мне жалко бабки на это. И это ещё не
говоря о том, что появляется зависимость от неких «облачных провайдеров», что я
очень и очень не приемлю.

Выход — локальный инференс БЯМ. Благо, совсем недавно китайская Alibaba
обрадовала сообщество своим новым семейством моделей Qwen3.5 которые
одновременно и достаточно компактные для локального инференса (даже на CPU!) и
при этом достаточно умненькие (серьёзно, она решает ту шуточую задачу с кружкой
у которой запаян верх и отрезано дно :) ).

Т.к. я не сторонник стационарных компьютеров уже лет так 20 — адекватного ПК с
видеокартами у меня нет и не предвидится. Даже если бы я накопил на мощную
видюху для нейронок — мне было бы некуда её пихать! Но тут я вспомнил, что у
меня простаивает такое чудо технологий, как Steam Deck!

![Steam Deck](/posts/2026-03-21-aiserver/steamdeck_small.jpg)

Лонг стори шорт. На родной SteamOS поднять не получилось, поэтому я просто
поставил на стимдек свою любимую AltLinux p11. Удивительно, но она встала с
полпинка, без всякого пердолинга драйверов. Хотя я был готов, что что-то пойдёт
не так, ибо железо у деки весьма кастомное.

Пробовал Ollama с qwen3.5:9b (unsloth/Qwen3.5-9B-GGUF) — как бы работала, но
через сколько-то запросов помирала. Непорядок совсем. Долго пытался это
отдебажить, но так и не получилось ни подружить деку с rocm ни заставить
стабильно олламу работать с vulkan.

В общем, плюнул на олламу и поставил
llama.cpp. И вот уже на ней, квенка завелась как родная! Да, скорость инференса
7-8 токенов в секунду, но для моих целей это вполне и вполне достаточно! На CPU
ноута в 10 потоков (12 ядерный i7 13 поколения) хорошо если 1 токен в секунду
был, при том что остальная ОС была в коматозном состоянии.

Пробовал ещё и более вкусную qwen3.5 a3b MOE — но она не влезла в память
¯\\\_(ツ)_/¯

![Qwen3.5](/posts/2026-03-21-aiserver/qwen35_small.jpg)

Да, аж 10 минут. Но там долгий ризонинг был. Обычно в моих задачах ризонинг
сильно короче.

Итог, у меня наконец-то есть своя локальная «бесплатная» и достаточно
продвинутая моделька, у которой я могу под эксперименты жрать токены
миллионами. Но всё равно, начинаю копить на полноценный GPU сервер, чтобы
играться уже с совсем большими БЯМ. Хочу что-то из серии Nvidia DGX Spark или,
что вероятнее, минипк на Ryzen AI Max+ 395 + Radeon 8060S. Я вообще считаю, что
за подобными персональными минисерверами для ИИ будущее.

Мечта — иметь локальный инференс MiniMax M2.7 и GLM5 :) Ну а пока, имею то, что
имею.